728x90 분류 전체보기146 12/20 비즈니스 데이터 분석 어제 하던 1201실습 파일 계속 online-retail-eda EDA(리텐션) => RFM(segmentation)을 판다스로 구하고 => 군집화로 고객 세분화(segmentation) => 유사도를 통한 추천시스템 지불 유저 별 결제금액 (ARPPU) Average Revenue Per Paying User 지불 유저 1명 당 한 달에 결제하는 평균 금액을 산정한 수치 F2P(부분 유료, Free to Play) 게임에서 수익 지표로 자주 활용되는 수치 다양한 부가 서비스 아이템을 도입하거나 월 정액 과금 방식을 사용하는 리니지 처럼 월 정액 과금에 부분 유료 아이템을 추가적으로 판매해 ARPPU를 끌어올릴 수 있다. 기준 기간 총 수익 / 기준 기간 당 구매 고객 ARPPU - CustomerID.. 카테고리 없음 2022. 12. 22. 12/19 월 시계열 예측 ,비즈니스 데이터 분석 107 시계열 RNN 실습 Time series forecasting | TensorFlow Core 시계열 예측 | TensorFlow Core KerasCV, 온디바이스 ML 등을 사용한 확산 모델을 다루는 WiML 심포지엄의 세션을 확인하세요. 주문형 시청 시계열 예측 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류 www.tensorflow.org 기존에는 데이터를 나눌 때 섞어서 나누었습니다. 그런데 시계열 데이터에서는 섞어서 나누지 않고 순서를 고려해서 나누게 됩니다. [시계열 데이터에서도 순서 중요] 자연어 텍스트를 시퀀스 인코딩 했던 것처럼 언어도 맥락이 있기 때문에 섞으면 원래 의미를 잃어버릴 수 있습니다. 시계열 데이터에서도 순서가 중요합니다. 예를 들어 지난 일.. TIL/딥러닝 2022. 12. 20. 12/15 목 NLP LSTM 오늘의 핵심 키워드 : NLP Tokenizer & Modeling ( RNN, LSTM, GRU ) 1106실습 RNN (Recurrent Neural Network) 으로 텍스트 분류하기 RNN이란 순환 신경망(Recurrent neural network, RNN)은 인공 신경망의 한 종류로, 유닛간의 연결이 순환적 구조를 갖는 특징을 갖고 있다. 이러한 구조는 시변적 동적 특징을 모델링 할 수 있도록 신경망 내부에 상태를 저장할 수 있게 해주므로, 순방향 신경망과 달리 내부의 메모리를 이용해 시퀀스 형태의 입력을 처리할 수 있다. 따라서 순환 인공 신경망은 필기 인식이나 음성 인식과 같이 시변적 특징을 지니는 데이터를 처리하는데 적용할 수 있다. 순환 신경망이라는 이름은 입력받는 신호의 길이가 한정.. TIL/딥러닝 2022. 12. 19. (Stop Words,TF-IDF ,Bag of Words 방식과 시퀀스 방식, RNN과 LSTM) Q1. Stop Words는 무엇일까요? 이것을 왜 제거해야 하나요? 불용어(문장의 구성에서 큰 의미를 가지지 않는 것들은 텍스트 분석의 요소) 정의하여 제거하는것으로 그이유는 이러한 작업은 전처리 과정에서 주로 이뤄지게 됩니다. 일반적으로 검색엔진에서는 검색 공간을 줄이기 위해 불용어를 제거합니다. 불용어 제거는 자연어 처리의 매우 중요한 정규화 작업 중 하나입니다. Q2. TF-IDF 점수는 무엇이며 어떤 경우 유용한가요? TF와 IDF를 곱한값 으로서 TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하고 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단합니다 따라서 이값을 이용하면 모든 문서에 흔하게 나타나는 단어를 걸러내는 효과가 있습니다 (TF-IDF 값이 낮으면 .. TIL/딥러닝 2022. 12. 18. 12/14 형태소 분석기 와 시퀀스방식 인코딩 1104 목적 : KoNLPy 로 한국어 형태소분석기를 사용해 보는 것 대표적인 자연어처리 도구인 NLTK, Spacy 는 한국어를 지원하지 않습니다. 영어를 사용한다면 해당도구를 사용해도 됩니다. 하지만 한국어 형태소 분석 등의 기능을 제공하지 않기 때문에 KoNLPy로 실습합니다. KoNLPy - 공식문서 다른 프로그래밍 언어(JAVA, C++)로 만들어진 형태소 분석기를 파이썬 인터페이스로 사용할 수 있는 도구 입니다. JPype1도 파이썬에서 자바를 사용할 수 있도록 하는 도구입니다. 인터페이스가 파이썬이지만 내부는 해당 언어로 동작하여 다른 언어도 함께 설치되어 있어야 합니다. 그러므로 KoNLPy 는 설치가 까다롭습니다. Java, C, C++로 작성된 도구를 파이썬으로 사용할 수 있도록 연결.. 카테고리 없음 2022. 12. 15. 12/13 화 NLP 자연어 전처리 정규표현식 정규표현식(regularexpression)또는정규식은특정한규칙을가진문자열의집합을의미 주로패턴(pattern)으로부르는정규표현식은특정목적을위해필요한문자열집합을지정하기위해쓰이는식 ASCII 설명 [A-Za-z0-9] 영숫자 [A-Za-z0-9_] 영숫자+"_" [^A-Za-z0-9_] 낱말이아닌문자 [A-Za-z] 알파벳문자 [\t] 공백과탭 (? ((6, 16), (2, 16), (6,), (2,)) # 방법 2 X_train = X.sample(frac=0.8, random_state=42) y_train = y[X_train.index] X_test = X.drop(index=X_train.index) y_test = y[X_test.index] # 균형있게 나누기가 쉽지 않음 3번 방법 .. TIL/딥러닝 2022. 12. 14. 12월 12일 NLP BOW TF-IDF ?? 이미지 데이터를 읽어오면 다차원 형태의 구조로 되어있는데 np.array 형태로 되어있음에도 왜 다시 np.array 로 만들어주었을까요? 리스트 안에는 np.array 로 되어있더라도 여러 장의 이미지를 하나로 만들 때 파이썬 리스트에 작성해 주었습니다. 그래서 이미지 여러 장을 하나의 변수에 넣어주었을 때 해당 변수의 데이터 타입은 파이썬 리스트 구조입니다. train_test_split에 사용하기 위해, 계산의 편의를 위해 넘파이 형태로 변경해 주었습니다. 다중분류에서 손실함수는 훈련데이터의 라벨이 원핫벡터의 경우에는 categorical_crossentropy 라벨이 정수(int)의 형태인 경우에는 sparse_categorical_crossentropy를 사용해보실 수 있습니다 실습 100.. TIL/딥러닝 2022. 12. 13. cnn미니프로젝트 제출용 질문답변! Q1. Convolution의 원리는 무엇인가요? kernel을 사용하여 각 요소별 가중치를 줘서 특징을 추출한다는 것이다 데이터의 특징을 추출하는 과정. 데이터에 각 성분의 인접 성분들을 조사해 특징을 파악하고 파악한 특징을 한장으로 도출시키는 과정. 도출된 층을 Convolution Layer라고 함. 이 과정은 하나의 압축 과정이며 파라미터의 갯수를 효과적으로 줄여주는 역할을 함. Convolution 에서 사용되는 몇 가지 용어로는 필터는 커널(kernel)이라고 불리기도 합니다. 간격(stride)은 한 필터에서 다음 필터로 갈 때 몇 칸을 띄어서 가는지 패딩(zero padding)은 양 옆으로 몇 개씩의 0을 붙일지 Q2. Convolution층에서 padding의 역할을 설명해주세요 만약 .. TIL/프로젝트 2022. 12. 11. 12월 6일 딥러닝 말라리아 CNN 분류 , cnn개념 용어 정리 !!! Tensorflow를 사용한 CNN 모델 Overview 층 구성 tf.keras.sequential() tf.keras.models.Sequential([ tf.keras.Conv2D(input_shape=()),# 입력층 tf.keras.MaxPooling2D(), tf.keras.layers.Flatten(),# 은닉층 tf.keras.layers.Dense() # 출력층 ]) 활성화 함수 (activation) - ‘linear’ : 그대로 출력 - ‘relu’ : 은닉층에 주로 사용 - ‘sigmoid’ : 이진 분류 문제(출력층) - ‘softmax’ :다중 클래스 분류 문제(출력층) 컴파일 model.compile() model.compile(optimizer, loss, metrics) -.. TIL/딥러닝 2022. 12. 8. [프로그래머스] 숫자 비교하기 - 파이썬 문제 설명 정수 num1과 num2가 매개변수로 주어집니다. 두 수가 같으면 1 다르면 -1을 retrun하도록 solution 함수를 완성해주세요. 제한사항 0 ≤ num1 ≤ 10,000 0 ≤ num2 ≤ 10,000 입출력 예num1num2result 2 3 -1 11 11 1 7 99 -1 입출력 예 설명 입출력 예 설명 #1 num1이 2이고 num2가 3이므로 다릅니다. 따라서 -1을 return합니다. 입출력 예 설명 #2 num1이 11이고 num2가 11이므로 같습니다. 따라서 1을 return합니다. 입출력 예 설명 #3 num1이 7이고 num2가 99이므로 다릅니다. 따라서 -1을 return합니다. 나의 풀이 def solution(num1, num2): answer = 0 if.. 문제풀이/파이썬 2022. 12. 7. [프로그래머스] 두 수의 차 - 파이썬 문제 설명 정수 num1과 num2가 주어질 때, num1에서 num2를 뺀 값을 return하도록 soltuion 함수를 완성해주세요. 제한사항 -50000 ≤ num1 ≤ 50000 -50000 ≤ num2 ≤ 50000 입출력 예 num1num2result 2 3 -1 100 2 98 입출력 예 설명 입출력 예 #1 num1이 2이고 num2가 3이므로 2 - 3 = -1을 return합니다. 입출력 예 #2 num1이 100이고 num2가 2이므로 100 - 2 = 98을 return합니다. 나의 풀이 def solution(num1, num2): answer = num1 - num2 return answer https://school.programmers.co.kr/learn/courses/30.. 문제풀이/파이썬 2022. 12. 7. [프로그래머스] 나머지 구하기- 파이썬 문제 설명 정수 num1, num2가 매개변수로 주어질 때, num1를 num2로 나눈 나머지를 return 하도록 solution 함수를 완성해주세요. 제한사항 0 문제풀이/파이썬 2022. 12. 7. 이전 1 ··· 6 7 8 9 10 11 12 13 다음 728x90