본문 바로가기
ML 관련/주식 시장 관련 논문

[논문 리뷰] 뉴스 텍스트 마이닝과 시계열 부석을 이용한 주가예측

by 탶선 2020. 6. 4.
반응형
  • 2010년에 게시된 논문으로 뉴스 텍스트 마이닝을 수행하여 주가의 호재 악재 여부를 학습하는 연구에 대한 논문
  • Bag of Words모델과 Naive Bayesian분류기법을 사용
  • RWT에 대한 반론으로 Martin Webor는 주식시장의 관찰을 통해 주식 시장의 흐름을 파악 가능하다는 연구를 발표
    • RWT(Random walk theory) - 주가의 변화는 독립적으로 움직인다는 이론

 

뉴스 데이터를 이용한 예측 방법

  1. 뉴스 데이터 수집
  2. 뉴스 데이터에 대해 텍스트 마이닝 처리하여 의미있는 문서 내의 feature 추출
  3. 해당 뉴스가 주가에 호재인지, 악재인지 분류
  4. 분류된 결과를 이용하여 가격 변동추이 예측

 

뉴스를 이용하여 기존 주가 예측을 시도한 관련연구 비교

 

제안한 주가예측 알고리즘

뉴스 텍스트의 feature extraction 기법과 문서 분류 

  1.  단음절("그", "저", "외", "이", "등", ...) 단어 제거
  2.  문서 내 등장하는 의미 정규화하기 어려운 숫자 제거
    • ex)  "순이익 2억 증가" -> "순이익 증가"
    • ex) "매출 20% 감소" -> "매출 감소"
  3.  n회 이상 등장하는 단어에 대해 bag of words에 담기

  • 그림 1과 같이 뉴스가 발행된 시간 기준을 판단하여 뉴스가 발행된 이후 주가가 유의미한 수준으로 변동여부 판단
    • 유의미한 변동 - 가격에 영향을 미칠 가능성이 있는 후보군으로 판단 - feature extraction 시도
    • 긍정 / 부정 뉴스로 분류하여 해당 뉴스가 포함한 특징 분류
    • 긍정/ 부정 분류 불가시 미결정 상태로 판단 - 측정 제외

 

시계열 데이터 분석 기법

  • RSI(Relative Strength Index) - 현재 주가 추이가 어느 정도의 강도를 가지는지 백분율로 표시
    • (숫자가 높으면 과매수,낮을수록 과매도)
  • N일 RSI가 높은(과매수) 경우 N+1에도 상승할 확률이 높음
    • (RSI ↑ 하락할 확률 ↓)
    • (RSI ↓ 하락할 확률 ↑)

 

실험결과

  • Naive Bayes 분류기만 사용
    • 예측성공률 52.14%
    • 종목별 최대 예측 성공률 81.25%
  • RSI만 사용
    • 예측성공률 60.12%
    • 종목별 최대 예측 성공률 94.28%
  • Naive Bayes분류기 사용 후 RSI 적용
    • 예측 성공률 55.01%
    • 종목별 최대 예측 성공률 80.88%

 

결론

  • 문서 내용(종목별, 뉴스의 종류별)에 따라 예측편차가 심하다
    • 종목마다 특정 분야에 대한 내용 수록
  • 뉴스와 시계열 데이터 분석 기법을 함께 활용하여 평균 3%만큼의 예측성능 향상
  • 더 높은 예측률을 위해 다른 변수들에 대한 추가적 연구 필요

 

 

 

반응형

댓글