반응형
감정분석을 하기위해 논문을 읽어보던중 OpinionFinder라는 시스템이 계속 거론되어 찾아보게 된 논문이었다.
간단하게 두장으로 끝나는 논문으로 그냥 이런역할을 하는구나 정도로만 가볍게 읽은 논문이었다.
- 저널 : Proceedings of HLT/EMNLP 2005 Interactive Demonstrations
- 저자 : TheresaWilson, Paul Hoffmann(펜실베니아 피츠버그 대학교, 지능시스템 프로그램)
- article history : October 2005
1. Introduction
- OpinionFinder는 주관성 분석을 수행하여 의견, 감정, 추측 등의 개인 상태를 자동으로 식별하여 텍스트로 표시하는 시스템이다.
- 주관적인 문장을 식별하고 주관성의 출처(보유자)와 긍정/부정적 감정을 식별 및 표시하는 것을 목표로 한다.
- 본 논문의 목표는 OpinionFinder를 활용 문서의 주관성에 대한 정보 제공으로 NLP 응용 프로그램 지원 시스템 개발과 아래와 같은 질문에 대답가능한지 에 대한 질문 답변 시스템이다.
- 이란의 선거는 공정했는가?
- 이라크 전쟁에 대한 지지가 약해지고 있는가?
- 위와같은 질문에 답하기 위해선 의견이 표현된 시점과 의견을 표현한 사람이 누군지에 대한 정보가 포함되어야 좋은 답변이 가능하다.
2.OpinionFinder
- OpinionFinder는 Batch(일괄처리), Interactive(대화식) 두 가지 모드로 실행된다.
- 문서 처리는 두 모드 거의 동일하며
- Batch 모드는 OpinionFinder에서 처리할 문서 목록을 가져간다.
- Interactive 모드는 사용자가 온라인 뉴스 source에 문서조회 가능한 프런트앤드를 제공한다.
2.1 System Architecture Overview
- OpinionFinder는 하나의 파이프라인으로 작동한다.
- 개념적으로 파이프라인은 두 부분으로 나눌 수 있으며
- 첫번쨰 부분은 주로 범용문서처리(토큰화, 품사 태그 지정)
- 두번째 부분은 주관성 분석 수행
- 주관성 분석 결과는 원본 문서의 SGML/XML 마크업 형태로 사용자에게 반환된다.
2.2 Document Processing
- 일반적인 문서 처리를 위해 Sundance partial parser실행하여 의미 체계 클래스 태그를 제공하여
- 명명된 Entities를 식벽하여 주관적 언어에 해당하는 추출 패턴 일치시킨다.
- OpneNLP1 1.1.0을 사용하여 데이터를 토큰화,문장 분할, 음성 부분 태그 지정하여 SCOL2버전 1g의 Abney형태소 분석기 사용
- batch모드에서 데이터를 다시 구문 분석하고 constituency parse tree를 얻어 dependency parse tree로 변환한다.
- subjective language lexicon에서 단어, phrases를 식별하기 위해 clue-finder를 실행한다.
2.3 Subjectivity Analysis
- 주관분석에는 4가지 구성요소 존재한다.
- Subjective Sentence Classification
- Naive Bayes classifier - 어휘, 문맥적 특징을 사용하여 주관적 문장, 객관적 문장을 구분
- 주석이 없는 데이터 모음에서 두 개의 high-precision, rule-based classifier에 의해 훈련, 생성
- Speech Events and Direct Subjective Expression Classification
- 음성 이벤트(i.e. "말했다,"에 따라"), 직접적인 주관적 표현(i.e. "두려움","행복하다")을 식별
- 직접 주관적 표현 - 의견,emotion(과거의 감정), sentiment(광범위하고 극단적인 감정)등을 직접 기술하는 단어나 구절
- rule-based classifier 사용
- Opinion Source Identification
- 조건부 random field sequence tagging model과 extraction pattern learning을 결합해 음성 이벤트의 출처와 직접적 주관적 표현을 식별하는 classifier
- 음성 이벤트의 source는 화자이며 주관적 표현의 source는 private state의 경험자이다.
- source 식별자는 dependency parse에서 얻은 feature들을 사용하여 MPQA Opinion Coupus3에서 학습된다.
- 두 가지 classifiers를 사용하여 긍정/부정 감정을 표현하는 phrases에 포함된 단어 식별
- 첫 분류기는 감정 표현 식별
- 두번째 분류기는 정서 표현을 사용하여 긍정,부정 표현 식별
- 두 분류기는 BoosTexter를 사용하여 개발, MPQA Corpus를 trained했다.
- Subjective Sentence Classification
반응형
'ML 관련 > 자연어 처리 관련' 카테고리의 다른 글
LSTM (0) | 2021.07.18 |
---|---|
[논문 리뷰] SNS에서 단어 간 유사도 기반 단어의 쾌-불쾌 지수 측정 (0) | 2020.06.03 |
[논문 리뷰] Beating Atari with Natural Language Guided Reinforcement Learning (2) | 2020.04.13 |
[논문 리뷰] XLNet : Generalized Autoregressive Pretrainingfor Language Understanding (0) | 2020.02.26 |
[논문 리뷰] Attention is all you need (0) | 2019.12.05 |
댓글