본문 바로가기
ML 관련/주식 시장 관련 논문

[논문 리뷰] Stock Market Prediction A Big Data Approach

by 탶선 2020. 2. 18.
반응형

Girija V Attigeri , Manohara Pai M M, Radhika M Pai, Aparna Nayak
Manipal Institute of Technology,
Manipal- 576104, India

 

본 논문은 2015년 IEEE의 빅데이터를 활용해 주식시장을 예측하고자 하는 논문이다.

 

1. Introduction

주식 시장엔 Random walk theory라는 이론이 있다

  • 주가는 랜덤하게 움직임
  • 주가는 이미 반영될 수 있는 정보가 모두 반영됨
  • 미래 주가는 랜덤하게 형성
  • 투자자는 최대한 많은 양의 종목을 분산하여 장기간에 걸쳐 투자요망

이라는 이론이다. 

 

Random walk theory에 따르면 주가변동은 동일한 분포를 가지며 서로 독립하기 때문에 과거 주가, 시장의 움직임을 이용한 미래 움직임은 예측이 불가능하다고 한다.

Random walk theory 수식

 

또한 금융학에는 EMH( Efficient Market Hypothesis ) 라는 가설이 존재한다.

EMH는 3가지로 아래의 3가지로 나뉜다.

  1. Weak form : 과거의 정보를 현재의 주가 반영
  2. Semi strong form : 모든 정보가 신속,정확하게 주식가격에 반영
  3. Strong form : 과거의 정보, 현재의 공개된 정보 + 비공개된 내부정보까지 주가에 반영되고 있는 시장

 

 

본 논문에서는 Random walk theory에 의해 예측할 수 없는 주가를 뉴스 기사 크롤링 + 트위터 데이타 크롤링 + 기존의 데이터들을 토대로 Social media 분석, 머신러닝을 통해 Trend Decision하고자 하였다.

 

 

 

2. Literature Review

 

소셜미디어 분석을 이용한 주식 시장의 동향 예측

 

기존 소셜미디어 분석을 이용한 주식 시장 분석은 아래와 같다.

  • 수동 작업의 초기 수준 때문에 시간이 많이 소요되는 사전을 만들기 위해 반감리적 학습 접근법을 사용
    • 일부 임계값을 설정하는 것은 부정적 사건의 긍정적 사건 중 하나에 추가
    • 사전이 완성되기 전까지는 실시간 분석에 부적합
  • Hadoop의 다양한 오픈 소스 툴을 사용하여 다양한 웹 사이트의 호텔에 대한 피드백을 분석
    • 수작업으로 만들어진 사전에 의존( 많은 시간 소요 )
  • 과거 데이터와 함께 분석을 위한 트윗만 검토

 

3. Proposed Work

 

본 논문은 소셜미디어 분석 및 기계학습 알고리즘을 이용한 증시 예측 빅데이터 모델을 제안하였다.

  • Social media analytics for prediction
  • Stock market prediction using Machine Learning

소셜미디어 분석 과정

먼저 다양한 크롤러와 api를 사용하여 데이터들을 capture한다.

Hadoop을 활용하여 데이터들에서 감정분석을 수행한다.

감정분석한 데이터들을 요약한 결과를 표현한다.

 

  • Social media analytics for prediction
  1. Data gathering
    • 웹 크롤러를 이용한 뉴스기사 수집
    • 트위터 search API를 이용한 tweet 수집
  2. Data preparation
    • Lemmatization(표제어 추출) : 서로 다른 양식을 공통된 기본 형식으로 줄여 단일 항목으로 분석 가능한 프로세스
    • Removing Stop words : 뉴스, 트윗의 감정이 거의 없는 일반적인 단어를 정지 단어로 간주하여 제거
    • Removing URL's : URL 제거
    • Removing duplicates : 중복 제거
  3. Sentiment analysis (감정 분석)
    • 2번의 단계를 걸쳐 정제된 데이터를 HDFS에 넣어 감정 분석  
  4. Aggregation ( 집계 )
  5. Visualization ( 시각화 )
    • Rhadoop을 사용하여 도식화
    • 주식시장 변동 추이 반영

3. 감정분석 Algorithm

위 그래프를 보면 감정분석을 통해 Positive, Negative로 나뉘었으며 이에따라 주식이 올라가는지 내려가는지를 예측하였다.

이에 따른 결과는 위 그래프와 같으며 완벽하게 예측하진 못하였지만 얼추 따라가는 모습을 보였다.

 

머신러닝을 위해 사용한 데이터는 Yahoo Finance이며 3980 rows의 데이터를 사용하였다.

 

 

4. Conclusion

  • 금융 뉴스를 활용하기 위한 기술 ,소셜 미디어 데이터 및 분석 결과 제시
  • 모델은 사회 데이터의 정서 분석이 회귀 분석과 같은 입증된 기술적 분석 방법을 보완
  • 시장의 변동성과 시스템의 향후 실적 등이 소셜미디어의 경제적, 정치적 뉴스와 영향력에 의해 영향
  • 숫자 데이터와 더불어 소셜 미디어 데이터를 활용하면 입력의 품질 및 예측 향상

 

이번 논문은 가볍게 읽고 가볍게 리뷰하는 논문입니다..

반응형

댓글