이번 논문은 현시점(2020/02/13) 4404회의 인용된 논문으로 실시간 SNS인 twiitter 감정분석을 통해 대중의 감정을 분석하여 주식시장이 예측 가능한지에 대해 평가한 논문이다.
- 게시된 저널 : Journal of Computational Science
- 저자 : Johan Bollena, Huina Maoa( a School of Informatics and Computing, Indiana University의 교수)
- Article history : Received 15 October 2010
Abstract
행동 경제학에 따르면 감정이 행동과 의사 결정에 큰 영향을 준다고 한다.
본 논문에서는 위의 행동 경제학 이론이 사회 전체에 적용이 되는 것인지 만약 적용이 된다면 사회 전체의 감정, 분위기가 사회 경제에 영향을 줄 수 있는지 또 그렇다면 사회 전체의 분위기로 경제예측이 가능한지 라는 계속되는 궁금증들을 이야기하고 있다.
위의 궁금증들을 해결하기 위해 먼저 대규모 트위터 피드로부터 도출된 집단의 분위기 상태 측정치와 Dow Jones Industrial Average(DJIA) 값이 시간에 따라 상관관계가 있는지 조사하며
두 가지 mood tracking tools을 사용하여 일일 트위터 피드의 텍스트 내용을 분석한다.
- OpinionFinder
- Google-Profile of Mood States(GPOMS)
또한 2008년 대선, 추수감사절에 대한 집단의 반응을 감지하는 능력을 비교함으로써 감정, 분위기와 시계열 데이터를 교차 검증하여 상관관계에 대해 확인한다.
Introduction
주식 시장 예측은 학계 및 비즈니스에서 많은 관심을 받는 주제였고 이에 따른 많은 연구가 진행되었지만
EMH, random walk theory와 같은 가설에 따라 현재, 과거의 정보가 아닌 새로운 정보에 의해 주도되는 주식은 예측될 수 없다고 여겨져 왔다.
그러나 점점 더 많은 연구가 진행되며 사회 경제학 관점에서의 STF(Socionomic Theory of Finance), 행동 경제학, 행동 금융에서의 관점에서는 주식 시장 가격은 random walk를 따르지 않으며 실제로 어느 정도는 예측이 가능하다고 이야기한다.
예를 들어, Gruhl et al의 논문에서는 채팅 활동으로 도서 판매를 예측하는 방법 등 다양한 경제 예측 시도가 있었다.
새로운 정보는 주식 시장 가격에 영향을 주지만 대중의 기분이나 감정 또한 똑같이 영향을 줄 수 있다.
본 논문에서는 이러한 인간의 심리적 연구에서 감정이 인간의 의사 결정에 중요한 역할을 한다는 점을 캐치하였고, 대중의 기분과 감정으로 새로운 정보만큼이나 주식 시장의 가격에 영향을 주는지에 초점을 맞춰 주식 시장 예측을 진행하였다.
본 논문에서는 대중의 감정을 매일 새롭게 올라오는 트위터 게시물 컬렉션으로 표현하였고 이를 실제 주식 시장의 가격을 예측하는 데 사용하였고 대중들의 감정(트윗)의 변화 측정을 위하여 두 가지 도구를 사용하였다.
- (OF) OpinionFinder
- GPOMS (Google-Profile of Mood States)
Result
2.1. Data and methods overview
크롤링을 통해 140자로 제한된 9,853,498개의 트윗을 수집하였으며 중지 단어 제거(감정이 거의 없는 일반적인 단어를 정지 단어로 간주하여 제거 ) , 명시적으로 감정이 포함된 트윗만 고려, URL제거 등을 통한 pre-processing을 거쳤다.
pre-processing 된 트윗 모음을 2가지 감정 평가에 적용하였다.
- OF - 문장의 정서적 극성(긍정, 부정)을 식별하기 위해 적용 가능한 감정 분석 SW
- 약함, 강함으로 분류되는 긍정 단어와 부정 단어를 선택 및 추출
- 2718개의 긍정 단어
- 4912개의 부정 단어
- 약함, 강함으로 분류되는 긍정 단어와 부정 단어를 선택 및 추출
- GPOMS - 6가지(Calm, Alert, Sure, Vital, Kind and Happy) 차원 분석
- GPOMS의 기분 치수, 어휘는 기존 및 잘 결합된 정신계 계측기, 즉 POMS-bi(Profile of Mood States)에서 파생
Yahoo finance의 Dow Jones Industrial Average (DJIA) 시계열 데이터를 사용하였다.
- 다우지수는 미국의 증권거래소에 상장된 30개의 우량기업 주식 종목들로 구성 - 출처 : 위키백과 -
2.2. Generating public mood time series: OpinionFinder and GPOMS
대중의 감정들을 시계열로 만들기 위하여 아래 방법을 사용하였다.
1. 트위터의 동일 날짜의 트윗들을 수집한 후 OF 사전 어휘에서 나오는 많은 부정적, 긍정적 용어에 대해 음수, 양수 점수를 주고 긍정, 부정적인 메시지의 비율을 계산
2. Twitter의 분위기 분석에 적용할 수 있도록 우리는 2006년에 Google이 계산한 25억 4, 5그램의 단어 공동 발생을 공개적으로 접근 가능한 웹 페이지에서 관찰한 약 1조 개의 단어 토큰에서 분석하여 POMS 설문지의 원래 72항을 964개의 관련 용어로 확장 GPOMS가 tweet에서 훨씬 더 다양한 자연발생적인 분위기 용어를 포착하여 각각의 POMSmood 차원에 매핑한 후 각 트윗에 사용된 용어와 이 어휘를 일치시킨다.
3. GPOMS -기존 검증된 심리 측정 도구에서 파생된 (POMS-bi)를 활용하여 트위터 분위기 분석에 적용
- 964개의 사전에 대한 POMS 설문지의 용어 25억 개의 모음에서 단어 동시 발생을 분석
OF와 GPOMS 시계열 데이터를 비교하기 위해 정규화하여 local mean과 표준 오차에 따라 z-score로 나타내었다.
이에 따른 식은 $Z_{X_{t}} = \frac{X_{t} - \bar {x}(X_{t} \pm k)}{\sigma(X_{t}\pm k)} $ 으로 나타낼 수 있다.
2.3. Cross-validating OF and GPOMS time series against large socio-cultural events
OF와 GPOM의 능력 검증을 위해 2008/10/5 ~2008/12/5(2개월)(미 대통령 선거, 추수감사절이 포함된 기간) 게시된 트윗을 수집하여 대중의 감정들과 시계열 예측을 하였으며 이를 토대로 아래 그림을 나타냈다.
위 그림으로 OF는 성공적으로 대중의 감정과 유사한 그래프를 그리는것을 확인할 수 있었다.
또한 시각적 비교를 통해 GPOMS의 행복한 차원이 Opinion-Finder에 의해 제공된 주제 추세에 가장 근사하다는 것을 알 수 있다. GPOMS의 기분 치수와 OF 기분 추세의 관계를 정량적으로 결정하기 위해, 우리는 OF 에서 얻은 경향과 multiple regression을 이용한 GPOMS의 6차원 사이의 상관관계를 시험한다. 회귀 모형의 식은
$Y_{OF} = \alpha + \sum_{i=1}^{N}\beta_{i}X{i} + \varepsilon_{t} $ 로 나타낸다.
2.4. Bivariate Granger causality analysis of mood vs. DJIA prices
대중의 감정 시계열 데이터를 평가한 결과 사회 사건(추수감사절, 미 대통령 선거)과 일치하는걸 확인 할 수 있었고 이번에는 대중의 감정이 주식시장과는 연관이 있는지 한번 더 확인 하기위해 granger causality기술을 적용한다. (인과관계와 상관관계는 다르기 때문에 granger causality와 비슷한 방식으로 적용하였다) (실제 인과관계를 테스트하는 것이 아니라 하나의 시계열이 다른 것에 대한 예측 정보를 가지고 있는지 없는지 시험하기 위함)
granger causality
- 인과관계가 있는지 확인하는 것을 시도할 수 있는 단순하고 잘 알려진 방법 - 출처 : 위키백과 -
- 변수 X가 Y를 유발할 경우 Y의 변화 이전에 X의 변화가 체계적으로 발생할 것이라는 가정에 기초한 방법
DJIA 시계열(Dt)은 일일 주식 시장 가치 변화를 반영하기 위해 정의된다. (day t, day t-1 사이의 델타 )
본 논문에서는 감정 시계열 데이터가 주식 시장 가치의 변화를 예측 가능한지 확인하기 위해 두 개의 선형 모델로 설명된 분산을 비교하였다.
$L_1 : D_t = \alpha + \sum_{i=1} ^n \beta_i D_{t-i} + \varepsilon_t$
$L_2 : D_t = \alpha + \sum_{i=1} ^n \beta_i D_{t-i} + \sum_{i=1} ^{n} \gamma_{i} X_{t-i} + \varepsilon_t$
위 그림에서 두 시계열은 자주 겹치며 같은 방향을 가리키고 있다. 즉 잘 예측하고 있다.
2.5. Non-linear models for emotion-based stock prediction
그레인저 인과관계 분석은 선형 회귀에 근거한 반면, 공공의 분위기와 주식시장 가치 사이의 관계는 비선형적이다. 비선형 효과를 보다 효과적으로 해결하고 대중 분위기 평가가 DJ의 예측 모델에서 수행할 수 있는 기여도를 평가하기 위해 DJ를 예측하는 자체 조직형 퍼지 신경망(SOFNN) 모델의 성능을 비교한다.
위 결과표에 따라 얻은 결론
- OF에서 얻은 긍정/부정 정서는 historical DJ 데이터만 사용하는것에 비해 영향이 없다
- calm을 더하면 높은 예측 정확도를 찾을 수 있다.
- $I_{1,3}$ 과 $I_{1,4}$는 실제 MAPE와 예측 정확도를 크게 감소시킨다.
SOFNN 방향의 정확도는 우연의 결과도 아니고 특별히 유리한 시험 기간을 선택하는 것도 아니다. 또한 다음과 같이 전체 모델 F와 축소된 모델 R 사이에 내포된 F-테스트를 사용하여 DJIA에서 Calm (X1)과 Happy (X6)의 선형 효과를 테스트한다.
Discussion
긍정/부정의 감정 분석에서 calm이 가장 적절히 예측 가능하다.
공공 분위기 측정에 따라 경제적 지표를 평가가 가능하다.
이 논문은 어느 분야,특정 지역에 속하지 않고 어디에나 적용 가능하다.
댓글