본문 바로가기
ML 관련/자연어 처리 관련

[논문 리뷰] SNS에서 단어 간 유사도 기반 단어의 쾌-불쾌 지수 측정

by 탶선 2020. 6. 3.
반응형
  • 2013년에 발표된 논문으로 자연어처리를 사용하여 감성 분석을 수행하는 연구논문이다.
  • 기존 긍정, 부정 두 가지로 분류하는 연구는 활발히 진행되어 있었지만
  • 본 논문의 주제는 단어 간 유사도를 기반으로 신규 단어의 쾌-불쾌 지수를 추정하는 방법론을 제안하였다.

 

전처리 

  1. 음소만 등장하는 문자열과 보통의 문자열을 각각 분리
    • ex) - 음소만 등장하는 문자열( ㅋㅋㅋ, ㅎㅎㅎ, ㅠㅠㅠ)
  2. 온라인상 사용되는 구어체의 일부 보정
    • ~당, ~욧, ~넷 ... -> ~다, ~요, ~네
  3. 형태소 분석, 문서별 문장 구분
  4. 불용어 제거
  5. 특수문자 제거

감성단어 사전 구축

  • 명사,동사형용사 어근을 제외한 의미 없는 품사 제거

 

Feature Selection

  • 단어간 연관성이 유사하다면 쾌-불쾌 지수 또한 유사할 것이라는 가설
    • 가설검증
      1. 감성단어와 한 문장 내 동시 출현한 단어들간의 연관성 구하기
      2. 연관성을 이용 감성단어 간 유사도 구하기
  • 위 가설검증을 통해 feature selection의 기준을 최소 2개의 감성단어로 하고 동시 출현하는 단어들의 비교에 사용한다.

 

단어 간 유사도 기반 쾌-불쾌 지수 추정 방법

  • 감성단어 간 유사도를 구하기 위한 방법
    • PMI계산
      • $ PMI(A,B) = log_2 {P(A, B) \over P(A)P(B) } $ - 값이 클수록 유사도가 높음
    • 유사도가 높은 감성단어 k개와의 유사도, 감성단어들의 쾌-불쾌 지수를 이용하여 기준 단어의 쾌-불쾌 지수 측정
    • PDI(Pleasure-DispleasureIndex),쾌-불쾌 지수
      • $\widehat{PDI_k }(a) = \Sigma^k_{i=1}  {similarity(a, w_i) \over \Sigma^k _{j=1} similarity(a,w_j) } \times PDI(w_i) $
      • $\widehat{PDI_k}(a) $ - 특정 감성단어 a에 대한 유사도 상위 k개의 쾌-불쾌 지수
  • PMI, PDI 계산을 통해 유사도가 높은 단어들이 유사도가 낮은 단어들보다 추정에 많은 영향을 끼침

 

평가방법

  • leave-one-out 교차검증법 사용
  • 평가척도로 RMSE사용

결론

  • 단어 유사도 기반 단어의 쾌-불쾌 지수 추정 방법 제안
  • 기존 논문과 다르게 감성 단어 목록만으로 어느 문서에나 적용 가능
  • 추정값이 크게 빗나가는 경우 존재

 

반응형

댓글