반응형
- 2013년에 발표된 논문으로 자연어처리를 사용하여 감성 분석을 수행하는 연구논문이다.
- 기존 긍정, 부정 두 가지로 분류하는 연구는 활발히 진행되어 있었지만
- 본 논문의 주제는 단어 간 유사도를 기반으로 신규 단어의 쾌-불쾌 지수를 추정하는 방법론을 제안하였다.
전처리
- 음소만 등장하는 문자열과 보통의 문자열을 각각 분리
- ex) - 음소만 등장하는 문자열( ㅋㅋㅋ, ㅎㅎㅎ, ㅠㅠㅠ)
- 온라인상 사용되는 구어체의 일부 보정
- ~당, ~욧, ~넷 ... -> ~다, ~요, ~네
- 형태소 분석, 문서별 문장 구분
- 불용어 제거
- 특수문자 제거
감성단어 사전 구축
- 명사,동사형용사 어근을 제외한 의미 없는 품사 제거
Feature Selection
- 단어간 연관성이 유사하다면 쾌-불쾌 지수 또한 유사할 것이라는 가설
- 가설검증
- 감성단어와 한 문장 내 동시 출현한 단어들간의 연관성 구하기
- 연관성을 이용 감성단어 간 유사도 구하기
- 가설검증
- 위 가설검증을 통해 feature selection의 기준을 최소 2개의 감성단어로 하고 동시 출현하는 단어들의 비교에 사용한다.
단어 간 유사도 기반 쾌-불쾌 지수 추정 방법
- 감성단어 간 유사도를 구하기 위한 방법
- PMI계산
- $ PMI(A,B) = log_2 {P(A, B) \over P(A)P(B) } $ - 값이 클수록 유사도가 높음
- 유사도가 높은 감성단어 k개와의 유사도, 감성단어들의 쾌-불쾌 지수를 이용하여 기준 단어의 쾌-불쾌 지수 측정
- PDI(Pleasure-DispleasureIndex),쾌-불쾌 지수
- $\widehat{PDI_k }(a) = \Sigma^k_{i=1} {similarity(a, w_i) \over \Sigma^k _{j=1} similarity(a,w_j) } \times PDI(w_i) $
- $\widehat{PDI_k}(a) $ - 특정 감성단어 a에 대한 유사도 상위 k개의 쾌-불쾌 지수
- PMI계산
- PMI, PDI 계산을 통해 유사도가 높은 단어들이 유사도가 낮은 단어들보다 추정에 많은 영향을 끼침
평가방법
- leave-one-out 교차검증법 사용
- 평가척도로 RMSE사용
결론
- 단어 유사도 기반 단어의 쾌-불쾌 지수 추정 방법 제안
- 기존 논문과 다르게 감성 단어 목록만으로 어느 문서에나 적용 가능
- 추정값이 크게 빗나가는 경우 존재
반응형
'ML 관련 > 자연어 처리 관련' 카테고리의 다른 글
[논문 리뷰] 자기지도학습 기반 음성 언어 모델을 이용한 자소 단위의 한국어 음성 인식 리뷰 (0) | 2023.01.03 |
---|---|
LSTM (0) | 2021.07.18 |
[논문 리뷰] OpinionFinder: A system for subjectivity analysis (0) | 2020.05.23 |
[논문 리뷰] Beating Atari with Natural Language Guided Reinforcement Learning (2) | 2020.04.13 |
[논문 리뷰] XLNet : Generalized Autoregressive Pretrainingfor Language Understanding (0) | 2020.02.26 |
댓글