TIL/딥러닝

(Stop Words,TF-IDF ,Bag of Words 방식과 시퀀스 방식, RNN과 LSTM)

monawa 2022. 12. 18.
728x90

Q1.  Stop Words는 무엇일까요? 이것을 왜 제거해야 하나요?

불용어(문장의 구성에서 큰 의미를 가지지 않는 것들은 텍스트 분석의 요소) 정의하여 제거하는것으로 
그이유는 이러한 작업은 전처리 과정에서 주로 이뤄지게 됩니다. 
일반적으로 검색엔진에서는 검색 공간을 줄이기 위해 불용어를 제거합니다. 
불용어 제거는 자연어 처리의 매우 중요한 정규화 작업 중 하나입니다.

Q2. TF-IDF 점수는 무엇이며 어떤 경우 유용한가요?

TF와 IDF를 곱한값 으로서
TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하고 
특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단합니다
따라서 이값을 이용하면 모든 문서에 흔하게 나타나는 단어를 걸러내는 효과가 있습니다 
(TF-IDF 값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 큰 것.)

Q3. Bag of Words 방식과 시퀀스 방식의 인코딩의 차이는 무엇이며 왜 인코딩 방법을 달리 할까요?

 Bag of Words은 순서를 고려하지 않으나 
시퀀스 방식(문자의 순서를 고려한 방식)은 
시퀀스(순서)를 고려하는 알고리즘(RNN)에서 더 나은 성능을 보여줌으로서 
차이는 순서를 아는지 모르는지입니다 

시퀀스 방식은 연속된 데이터이므로 순서가 매우 중요하게 적용하며,
과거의 영향을 받기 때문에 과거 정보의 맥락을 고려하는 새로운 모델이 필요합니다
Q4.  RNN과 LSTM에 대해서 설명해주세요
 
RNN은 인공 신경망의 한 종류로, 유닛간의 연결이 순환적 구조를 갖는 특징을 갖고 있습니다
이러한 구조는 시변적 동적 특징을 모델링 할 수 있도록 신경망 내부에 상태를 저장할 수 있게 해주므로,
순방향 신경망과 달리 내부의 메모리를 이용해 시퀀스 형태의 입력을 처리할 수 있습니다 
필기 인식이나 음성 인식과 같이 시변적 특징을 지니는 데이터를 처리하는데 적용할 수 있습니다 
LSTM (Long Short Term Memory)은 기존의 RNN에서 출력과 멀리 있는 정보를 기억할 수 없다는 단점을 보완하여
장/단기 기억을 가능하게 설계한 신경망의 구조이다. 주로 시계열 처리나, 자연어 처리에 사용된다.
 
728x90

댓글