728x90 TIL39 리텐션 분석 1. AARRR AARRR이란 Acquisition 사용자 획득 어떻게 우리 서비스를 접하고 있는가 - 고객 획득 비용(CAC, Customer Acquisition Cost) - 일간/월간 활성 유저 (DAU / MAU) Activation 사용자 활성화 사용자가 처음 서비스를 이용할 때 긍정적인 경험을 제공하는가 -체류 시간(DT, Duration Time) -페이지 뷰(PV, Page View) -아하 모먼트(Aha Moment) Retention 사용자 유지 - 중요 이후의 서비스 재사용률은 어떻게 되는가 -리텐션율(Retention Rate) -이탈률(Churn Rate) Revenue 추천 - 바이럴 사용자가 자발적 바이럴, 공유를 일으키고 있는가 -사용자 언급 댓글 수 -SNS 공유된 횟수 .. TIL/데이터분석 2023. 8. 20. Final Project - 쇼핑몰 리뷰 분석 기반 브랜드 인사이트 도출 1. 주제 : 쇼핑몰 리뷰 분석 기반 브랜드 인사이트 도출 2.주제 선정의 배경 한국 통계청이 집계한 바에 따르면 최근 21년 2분기 온라인쇼핑 시장규모는 46.9조원으로 전년비 25.2% 성장했습니다. 전분기 44.9조원, 21.8%보다 성장률이 더욱 더 커지고 있습니다. 쇼핑몰의 이용자 수가 늘어남에 따라 상품에 달리는 후기와 댓글의 수가 기하급수적으로 늘고 있습니다. 유명 의류 온라인 쇼핑몰의 상의 의류 제품들의 경우 제품 후기 개수가 약 1,000개에 육박하고 있으며, 1,000개 이상의 상품 문의 글을 보유하고 있습니다. 그러나 많은 제품의 모든 댓글과 리뷰를 읽을 수는 없기 때문에 제품에 대해 객관적인 판단이 힘들어졌습니다. 또한 자영업자들의 플랫폼 입점이 늘어나 경쟁이 과열 양상을 보이는 것.. TIL/프로젝트 2023. 1. 16. 12/19 월 시계열 예측 ,비즈니스 데이터 분석 107 시계열 RNN 실습 Time series forecasting | TensorFlow Core 시계열 예측 | TensorFlow Core KerasCV, 온디바이스 ML 등을 사용한 확산 모델을 다루는 WiML 심포지엄의 세션을 확인하세요. 주문형 시청 시계열 예측 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류 www.tensorflow.org 기존에는 데이터를 나눌 때 섞어서 나누었습니다. 그런데 시계열 데이터에서는 섞어서 나누지 않고 순서를 고려해서 나누게 됩니다. [시계열 데이터에서도 순서 중요] 자연어 텍스트를 시퀀스 인코딩 했던 것처럼 언어도 맥락이 있기 때문에 섞으면 원래 의미를 잃어버릴 수 있습니다. 시계열 데이터에서도 순서가 중요합니다. 예를 들어 지난 일.. TIL/딥러닝 2022. 12. 20. 12/15 목 NLP LSTM 오늘의 핵심 키워드 : NLP Tokenizer & Modeling ( RNN, LSTM, GRU ) 1106실습 RNN (Recurrent Neural Network) 으로 텍스트 분류하기 RNN이란 순환 신경망(Recurrent neural network, RNN)은 인공 신경망의 한 종류로, 유닛간의 연결이 순환적 구조를 갖는 특징을 갖고 있다. 이러한 구조는 시변적 동적 특징을 모델링 할 수 있도록 신경망 내부에 상태를 저장할 수 있게 해주므로, 순방향 신경망과 달리 내부의 메모리를 이용해 시퀀스 형태의 입력을 처리할 수 있다. 따라서 순환 인공 신경망은 필기 인식이나 음성 인식과 같이 시변적 특징을 지니는 데이터를 처리하는데 적용할 수 있다. 순환 신경망이라는 이름은 입력받는 신호의 길이가 한정.. TIL/딥러닝 2022. 12. 19. (Stop Words,TF-IDF ,Bag of Words 방식과 시퀀스 방식, RNN과 LSTM) Q1. Stop Words는 무엇일까요? 이것을 왜 제거해야 하나요? 불용어(문장의 구성에서 큰 의미를 가지지 않는 것들은 텍스트 분석의 요소) 정의하여 제거하는것으로 그이유는 이러한 작업은 전처리 과정에서 주로 이뤄지게 됩니다. 일반적으로 검색엔진에서는 검색 공간을 줄이기 위해 불용어를 제거합니다. 불용어 제거는 자연어 처리의 매우 중요한 정규화 작업 중 하나입니다. Q2. TF-IDF 점수는 무엇이며 어떤 경우 유용한가요? TF와 IDF를 곱한값 으로서 TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하고 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단합니다 따라서 이값을 이용하면 모든 문서에 흔하게 나타나는 단어를 걸러내는 효과가 있습니다 (TF-IDF 값이 낮으면 .. TIL/딥러닝 2022. 12. 18. 12/13 화 NLP 자연어 전처리 정규표현식 정규표현식(regularexpression)또는정규식은특정한규칙을가진문자열의집합을의미 주로패턴(pattern)으로부르는정규표현식은특정목적을위해필요한문자열집합을지정하기위해쓰이는식 ASCII 설명 [A-Za-z0-9] 영숫자 [A-Za-z0-9_] 영숫자+"_" [^A-Za-z0-9_] 낱말이아닌문자 [A-Za-z] 알파벳문자 [\t] 공백과탭 (? ((6, 16), (2, 16), (6,), (2,)) # 방법 2 X_train = X.sample(frac=0.8, random_state=42) y_train = y[X_train.index] X_test = X.drop(index=X_train.index) y_test = y[X_test.index] # 균형있게 나누기가 쉽지 않음 3번 방법 .. TIL/딥러닝 2022. 12. 14. 12월 12일 NLP BOW TF-IDF ?? 이미지 데이터를 읽어오면 다차원 형태의 구조로 되어있는데 np.array 형태로 되어있음에도 왜 다시 np.array 로 만들어주었을까요? 리스트 안에는 np.array 로 되어있더라도 여러 장의 이미지를 하나로 만들 때 파이썬 리스트에 작성해 주었습니다. 그래서 이미지 여러 장을 하나의 변수에 넣어주었을 때 해당 변수의 데이터 타입은 파이썬 리스트 구조입니다. train_test_split에 사용하기 위해, 계산의 편의를 위해 넘파이 형태로 변경해 주었습니다. 다중분류에서 손실함수는 훈련데이터의 라벨이 원핫벡터의 경우에는 categorical_crossentropy 라벨이 정수(int)의 형태인 경우에는 sparse_categorical_crossentropy를 사용해보실 수 있습니다 실습 100.. TIL/딥러닝 2022. 12. 13. cnn미니프로젝트 제출용 질문답변! Q1. Convolution의 원리는 무엇인가요? kernel을 사용하여 각 요소별 가중치를 줘서 특징을 추출한다는 것이다 데이터의 특징을 추출하는 과정. 데이터에 각 성분의 인접 성분들을 조사해 특징을 파악하고 파악한 특징을 한장으로 도출시키는 과정. 도출된 층을 Convolution Layer라고 함. 이 과정은 하나의 압축 과정이며 파라미터의 갯수를 효과적으로 줄여주는 역할을 함. Convolution 에서 사용되는 몇 가지 용어로는 필터는 커널(kernel)이라고 불리기도 합니다. 간격(stride)은 한 필터에서 다음 필터로 갈 때 몇 칸을 띄어서 가는지 패딩(zero padding)은 양 옆으로 몇 개씩의 0을 붙일지 Q2. Convolution층에서 padding의 역할을 설명해주세요 만약 .. TIL/프로젝트 2022. 12. 11. 12월 6일 딥러닝 말라리아 CNN 분류 , cnn개념 용어 정리 !!! Tensorflow를 사용한 CNN 모델 Overview 층 구성 tf.keras.sequential() tf.keras.models.Sequential([ tf.keras.Conv2D(input_shape=()),# 입력층 tf.keras.MaxPooling2D(), tf.keras.layers.Flatten(),# 은닉층 tf.keras.layers.Dense() # 출력층 ]) 활성화 함수 (activation) - ‘linear’ : 그대로 출력 - ‘relu’ : 은닉층에 주로 사용 - ‘sigmoid’ : 이진 분류 문제(출력층) - ‘softmax’ :다중 클래스 분류 문제(출력층) 컴파일 model.compile() model.compile(optimizer, loss, metrics) -.. TIL/딥러닝 2022. 12. 8. 12월 5일 딥러닝 CNN 기초 회귀 모델이라는 것을 모델이 어떻게 알 수 있을까요? A: loss 에 손실함수를 작성하게 되면 어떤 문제인지 알 수 있습니다. (분류에서도 activation 지정하지 않아도 loss 를 보고 판단하게 됩니다. 분류 문제는 binary, 멀티클래스인지 명시적으로 지정해 주는게 좀 더 코드를 읽고 해석하기 좋습니다. 하지만 되도록이면 지정해 주세요.) 분류에서 출력층 활성함수를 시그모이드로한다면 출력층 유닛은 2로 하면 되나요? A: sigmoid 는 1개로 해주어야 확률값으로 출력을 받아 특정 임계값보다 크냐작냐로 binary 값을 만들어서 판단합니다. 분류에서 units이 2개라면 softmax 로 반환받는게 맞습니다. 이 때는 둘 중에 확률 값이 높은 값을 선택해서 사용합니다. 멀티클래스 예측값이 .. TIL/딥러닝 2022. 12. 6. 딥러닝과 머신러닝의 차이/ 활성화함수/ 기울기소실문제 Q1. 딥러닝은 무엇인가요? 딥러닝과 머신러닝의 차이는? 머신러닝은컴퓨터가 스스로 주어진 데이터 패턴을 학습해 이전에 없던 새로운 데이터를 마주해도 답을 낼 수 있는 방식으로서 어린아이가 반복적으로 경험하여 개념이나 특징을 알아가는 과정과 유사합니다 딥러닝은 인간 뇌에 뉴런의 작동 방식에서 아이디러를 얻어 온 학습방식으로 인공 신경망에서 발전한 형태 입니다 . 스스로 데이터 경로를 수정해 나가며 최적의 결과가 나오도록 학습하며 스스로 분류에 사용할 데이터를 학습하고 중요한 Feature을 자동적으로 골라냅니다 차이점 머신러닝 딥러닝 인간의 개입 지속적인 인간의 개입이 필요 설정하기가 더 복잡하지만 그 이후에는 사람이 개입을 하지 않아도 된다 하드웨어 딥러닝 알고리즘보다 덜 복잡한 경향이 있고 기존 컴퓨터.. TIL/딥러닝 2022. 12. 3. 11/28 월 머신러닝 "불균형 데이터 SMOTE" -2 SMOTE 실제로 데이터를 탐색해보면 불균형한 데이터가 매우 많습니다 EX) 불량품과 정상제품 / 1년중 눈이 오는 날과 오지않는날 / 10년간 지진이 발생한경우/ 암검진 대상중 암에 걸린환자와 아닌환자 이렇듯 균형있게 분포되있는 분류문제가 더 드뭅니다 이러한 불균형한 데이터를 해결하는 방법으로는Resampling 로서 under-sampling과 over-sampling이 있습니다 주요 골자는 두값의 비율을 비슷 하게 맞춰 줍니다 under-sampling over-sampling 더 값이 많은 쪽에서 일부만 샘플링하여 비율을 맞춰주는 방법 더 값이 적은 쪽에서 값을 늘려 비율을 맞춰준 방법 구현이 쉽지만 전체 데이터가 줄어 머신러닝 모델 성능이 떨어질 우려가 있습니다 어떻게 없던 값을 만들어야 하는지.. TIL/머신러닝 2022. 11. 30. 이전 1 2 3 4 다음 728x90