728x90

TIL/딥러닝9

12/19 월 시계열 예측 ,비즈니스 데이터 분석 107 시계열 RNN 실습 Time series forecasting | TensorFlow Core 시계열 예측 | TensorFlow Core KerasCV, 온디바이스 ML 등을 사용한 확산 모델을 다루는 WiML 심포지엄의 세션을 확인하세요. 주문형 시청 시계열 예측 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류 www.tensorflow.org 기존에는 데이터를 나눌 때 섞어서 나누었습니다. 그런데 시계열 데이터에서는 섞어서 나누지 않고 순서를 고려해서 나누게 됩니다. [시계열 데이터에서도 순서 중요] 자연어 텍스트를 시퀀스 인코딩 했던 것처럼 언어도 맥락이 있기 때문에 섞으면 원래 의미를 잃어버릴 수 있습니다. 시계열 데이터에서도 순서가 중요합니다. 예를 들어 지난 일.. TIL/딥러닝 2022. 12. 20.

12/15 목 NLP LSTM 오늘의 핵심 키워드 : NLP Tokenizer & Modeling ( RNN, LSTM, GRU ) 1106실습 RNN (Recurrent Neural Network) 으로 텍스트 분류하기 RNN이란 순환 신경망(Recurrent neural network, RNN)은 인공 신경망의 한 종류로, 유닛간의 연결이 순환적 구조를 갖는 특징을 갖고 있다. 이러한 구조는 시변적 동적 특징을 모델링 할 수 있도록 신경망 내부에 상태를 저장할 수 있게 해주므로, 순방향 신경망과 달리 내부의 메모리를 이용해 시퀀스 형태의 입력을 처리할 수 있다. 따라서 순환 인공 신경망은 필기 인식이나 음성 인식과 같이 시변적 특징을 지니는 데이터를 처리하는데 적용할 수 있다. 순환 신경망이라는 이름은 입력받는 신호의 길이가 한정.. TIL/딥러닝 2022. 12. 19.

(Stop Words,TF-IDF ,Bag of Words 방식과 시퀀스 방식, RNN과 LSTM) Q1. Stop Words는 무엇일까요? 이것을 왜 제거해야 하나요? 불용어(문장의 구성에서 큰 의미를 가지지 않는 것들은 텍스트 분석의 요소) 정의하여 제거하는것으로 그이유는 이러한 작업은 전처리 과정에서 주로 이뤄지게 됩니다. 일반적으로 검색엔진에서는 검색 공간을 줄이기 위해 불용어를 제거합니다. 불용어 제거는 자연어 처리의 매우 중요한 정규화 작업 중 하나입니다. Q2. TF-IDF 점수는 무엇이며 어떤 경우 유용한가요? TF와 IDF를 곱한값 으로서 TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하고 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단합니다 따라서 이값을 이용하면 모든 문서에 흔하게 나타나는 단어를 걸러내는 효과가 있습니다 (TF-IDF 값이 낮으면 .. TIL/딥러닝 2022. 12. 18.

12/13 화 NLP 자연어 전처리 정규표현식 정규표현식(regularexpression)또는정규식은특정한규칙을가진문자열의집합을의미 주로패턴(pattern)으로부르는정규표현식은특정목적을위해필요한문자열집합을지정하기위해쓰이는식 ASCII 설명 [A-Za-z0-9] 영숫자 [A-Za-z0-9_] 영숫자+"_" [^A-Za-z0-9_] 낱말이아닌문자 [A-Za-z] 알파벳문자 [\t] 공백과탭 (? ((6, 16), (2, 16), (6,), (2,)) # 방법 2 X_train = X.sample(frac=0.8, random_state=42) y_train = y[X_train.index] X_test = X.drop(index=X_train.index) y_test = y[X_test.index] # 균형있게 나누기가 쉽지 않음 3번 방법 .. TIL/딥러닝 2022. 12. 14.

12월 12일 NLP BOW TF-IDF ?? 이미지 데이터를 읽어오면 다차원 형태의 구조로 되어있는데 np.array 형태로 되어있음에도 왜 다시 np.array 로 만들어주었을까요? 리스트 안에는 np.array 로 되어있더라도 여러 장의 이미지를 하나로 만들 때 파이썬 리스트에 작성해 주었습니다. 그래서 이미지 여러 장을 하나의 변수에 넣어주었을 때 해당 변수의 데이터 타입은 파이썬 리스트 구조입니다. train_test_split에 사용하기 위해, 계산의 편의를 위해 넘파이 형태로 변경해 주었습니다. 다중분류에서 손실함수는 훈련데이터의 라벨이 원핫벡터의 경우에는 categorical_crossentropy 라벨이 정수(int)의 형태인 경우에는 sparse_categorical_crossentropy를 사용해보실 수 있습니다 실습 100.. TIL/딥러닝 2022. 12. 13.

12월 6일 딥러닝 말라리아 CNN 분류 , cnn개념 용어 정리 !!! Tensorflow를 사용한 CNN 모델 Overview 층 구성 tf.keras.sequential() tf.keras.models.Sequential([ tf.keras.Conv2D(input_shape=()),# 입력층 tf.keras.MaxPooling2D(), tf.keras.layers.Flatten(),# 은닉층 tf.keras.layers.Dense() # 출력층 ]) 활성화 함수 (activation) - ‘linear’ : 그대로 출력 - ‘relu’ : 은닉층에 주로 사용 - ‘sigmoid’ : 이진 분류 문제(출력층) - ‘softmax’ :다중 클래스 분류 문제(출력층) 컴파일 model.compile() model.compile(optimizer, loss, metrics) -.. TIL/딥러닝 2022. 12. 8.

12월 5일 딥러닝 CNN 기초 회귀 모델이라는 것을 모델이 어떻게 알 수 있을까요? A: loss 에 손실함수를 작성하게 되면 어떤 문제인지 알 수 있습니다. (분류에서도 activation 지정하지 않아도 loss 를 보고 판단하게 됩니다. 분류 문제는 binary, 멀티클래스인지 명시적으로 지정해 주는게 좀 더 코드를 읽고 해석하기 좋습니다. 하지만 되도록이면 지정해 주세요.) 분류에서 출력층 활성함수를 시그모이드로한다면 출력층 유닛은 2로 하면 되나요? A: sigmoid 는 1개로 해주어야 확률값으로 출력을 받아 특정 임계값보다 크냐작냐로 binary 값을 만들어서 판단합니다. 분류에서 units이 2개라면 softmax 로 반환받는게 맞습니다. 이 때는 둘 중에 확률 값이 높은 값을 선택해서 사용합니다. 멀티클래스 예측값이 .. TIL/딥러닝 2022. 12. 6.

딥러닝과 머신러닝의 차이/ 활성화함수/ 기울기소실문제 Q1. 딥러닝은 무엇인가요? 딥러닝과 머신러닝의 차이는? 머신러닝은컴퓨터가 스스로 주어진 데이터 패턴을 학습해 이전에 없던 새로운 데이터를 마주해도 답을 낼 수 있는 방식으로서 어린아이가 반복적으로 경험하여 개념이나 특징을 알아가는 과정과 유사합니다 딥러닝은 인간 뇌에 뉴런의 작동 방식에서 아이디러를 얻어 온 학습방식으로 인공 신경망에서 발전한 형태 입니다 . 스스로 데이터 경로를 수정해 나가며 최적의 결과가 나오도록 학습하며 스스로 분류에 사용할 데이터를 학습하고 중요한 Feature을 자동적으로 골라냅니다 차이점 머신러닝 딥러닝 인간의 개입 지속적인 인간의 개입이 필요 설정하기가 더 복잡하지만 그 이후에는 사람이 개입을 하지 않아도 된다 하드웨어 딥러닝 알고리즘보다 덜 복잡한 경향이 있고 기존 컴퓨터.. TIL/딥러닝 2022. 12. 3.

Tensorflow 101 딥러닝강의 정리해보기 **Tensorflow 101 - 1. 오리엔테이션 - 링크 딥러닝 = 뉴럴넷 = 인공신경망 이모든말은 인간의 신경을 모방한 이론을 가리키는 같거나 비슷한 말로서 딥러닝이라는 용어를 머신러닝을 대표하는 용어로 사용하게 되었습니다 하지만 이런 표현은 엄연히 다른것입니다 체적인 딥러닝 원리를 몰라도 코드만 작성하면 딥러닝으로 문제를 해결할 수 있는 여러 도구들이 등장했어요. 이것이 라이브러리입니다 대표적인 예로 Tensorflow, Pytotch,Coffe,Theano 가있습니다 이러한 라이브러리(Tensorflow, Pytotch,Coffe,Theano)는딥러닝이라는 같은 알고리즘안에서 만들어진 라이브러로리서로 경쟁관계입니다 이러한 딥러닝 알고리즘 (이론)은 DecisionTree ,Rand.. TIL/딥러닝 2022. 11. 27.

이전 1 다음

728x90

TIL/딥러닝9

티스토리툴바