본문 바로가기
ML 관련/자연어 처리 관련

[논문 리뷰] OpinionFinder: A system for subjectivity analysis

by 탶선 2020. 5. 23.
반응형

감정분석을 하기위해 논문을 읽어보던중 OpinionFinder라는 시스템이 계속 거론되어 찾아보게 된 논문이었다.

간단하게 두장으로 끝나는 논문으로 그냥 이런역할을 하는구나 정도로만 가볍게 읽은 논문이었다.

 

 

  • 저널 : Proceedings of HLT/EMNLP 2005 Interactive Demonstrations
  • 저자 : TheresaWilson, Paul Hoffmann(펜실베니아 피츠버그 대학교, 지능시스템 프로그램)
  • article history : October 2005

 

1. Introduction

  • OpinionFinder는 주관성 분석을 수행하여 의견, 감정, 추측 등의 개인 상태를 자동으로 식별하여 텍스트로 표시하는 시스템이다.
  • 주관적인 문장을 식별하고 주관성의 출처(보유자)와 긍정/부정적 감정을 식별 및 표시하는 것을 목표로 한다.
  • 본 논문의 목표는 OpinionFinder를 활용 문서의 주관성에 대한 정보 제공으로 NLP 응용 프로그램 지원 시스템 개발과 아래와 같은 질문에 대답가능한지 에 대한 질문 답변 시스템이다.
    • 이란의 선거는 공정했는가?
    • 이라크 전쟁에 대한 지지가 약해지고 있는가?
  • 위와같은 질문에 답하기 위해선 의견이 표현된 시점과 의견을 표현한 사람이 누군지에 대한 정보가 포함되어야 좋은 답변이 가능하다.

 

2.OpinionFinder

  • OpinionFinder는 Batch(일괄처리), Interactive(대화식) 두 가지 모드로 실행된다.
  • 문서 처리는 두 모드 거의 동일하며
  • Batch 모드는 OpinionFinder에서 처리할 문서 목록을 가져간다.
  • Interactive 모드는 사용자가 온라인 뉴스 source에 문서조회 가능한 프런트앤드를 제공한다.

 

2.1 System Architecture Overview

  • OpinionFinder는 하나의 파이프라인으로 작동한다.
  • 개념적으로 파이프라인은 두 부분으로 나눌 수 있으며
    • 첫번쨰 부분은 주로 범용문서처리(토큰화, 품사 태그 지정)
    • 두번째 부분은 주관성 분석 수행
  • 주관성 분석 결과는 원본 문서의 SGML/XML 마크업 형태로 사용자에게 반환된다.

 

2.2 Document Processing

  • 일반적인 문서 처리를 위해 Sundance partial parser실행하여 의미 체계 클래스 태그를 제공하여
  • 명명된 Entities를 식벽하여 주관적 언어에 해당하는 추출 패턴 일치시킨다.
  • OpneNLP1 1.1.0을 사용하여 데이터를 토큰화,문장 분할, 음성 부분 태그 지정하여 SCOL2버전 1g의  Abney형태소 분석기 사용
  • batch모드에서 데이터를 다시 구문 분석하고 constituency parse tree를 얻어 dependency parse tree로 변환한다.
  • subjective language lexicon에서 단어, phrases를 식별하기 위해 clue-finder를 실행한다.

 

2.3 Subjectivity Analysis

  • 주관분석에는 4가지 구성요소 존재한다.
    1. Subjective Sentence Classification
      • Naive Bayes classifier - 어휘, 문맥적 특징을 사용하여 주관적 문장, 객관적 문장을 구분
      • 주석이 없는 데이터 모음에서 두 개의 high-precision, rule-based classifier에 의해 훈련, 생성
    2. Speech Events and Direct Subjective Expression Classification
      • 음성 이벤트(i.e. "말했다,"에 따라"), 직접적인 주관적 표현(i.e. "두려움","행복하다")을 식별
      • 직접 주관적 표현 - 의견,emotion(과거의 감정), sentiment(광범위하고 극단적인 감정)등을 직접 기술하는 단어나 구절
      • rule-based classifier 사용
    3. Opinion Source Identification
      • 조건부 random field sequence tagging model과 extraction pattern learning을 결합해 음성 이벤트의 출처와 직접적 주관적 표현을 식별하는 classifier
      • 음성 이벤트의 source는 화자이며 주관적 표현의 source는 private state의 경험자이다.
      • source 식별자는 dependency parse에서 얻은 feature들을 사용하여 MPQA Opinion Coupus3에서 학습된다.
    4. 두 가지 classifiers를 사용하여 긍정/부정 감정을 표현하는 phrases에 포함된 단어 식별
    5. 첫 분류기는 감정 표현 식별
    6. 두번째 분류기는 정서 표현을 사용하여 긍정,부정 표현 식별
    7. 두 분류기는 BoosTexter를 사용하여 개발, MPQA Corpus를 trained했다.
반응형

댓글