반응형
- 2010년에 게시된 논문으로 뉴스 텍스트 마이닝을 수행하여 주가의 호재 악재 여부를 학습하는 연구에 대한 논문
- Bag of Words모델과 Naive Bayesian분류기법을 사용
- RWT에 대한 반론으로 Martin Webor는 주식시장의 관찰을 통해 주식 시장의 흐름을 파악 가능하다는 연구를 발표
- RWT(Random walk theory) - 주가의 변화는 독립적으로 움직인다는 이론
뉴스 데이터를 이용한 예측 방법
- 뉴스 데이터 수집
- 뉴스 데이터에 대해 텍스트 마이닝 처리하여 의미있는 문서 내의 feature 추출
- 해당 뉴스가 주가에 호재인지, 악재인지 분류
- 분류된 결과를 이용하여 가격 변동추이 예측
뉴스를 이용하여 기존 주가 예측을 시도한 관련연구 비교
제안한 주가예측 알고리즘
뉴스 텍스트의 feature extraction 기법과 문서 분류
- 단음절("그", "저", "외", "이", "등", ...) 단어 제거
- 문서 내 등장하는 의미 정규화하기 어려운 숫자 제거
- ex) "순이익 2억 증가" -> "순이익 증가"
- ex) "매출 20% 감소" -> "매출 감소"
- n회 이상 등장하는 단어에 대해 bag of words에 담기
- 그림 1과 같이 뉴스가 발행된 시간 기준을 판단하여 뉴스가 발행된 이후 주가가 유의미한 수준으로 변동여부 판단
- 유의미한 변동 - 가격에 영향을 미칠 가능성이 있는 후보군으로 판단 - feature extraction 시도
- 긍정 / 부정 뉴스로 분류하여 해당 뉴스가 포함한 특징 분류
- 긍정/ 부정 분류 불가시 미결정 상태로 판단 - 측정 제외
시계열 데이터 분석 기법
- RSI(Relative Strength Index) - 현재 주가 추이가 어느 정도의 강도를 가지는지 백분율로 표시
- (숫자가 높으면 과매수,낮을수록 과매도)
- N일 RSI가 높은(과매수) 경우 N+1에도 상승할 확률이 높음
- (RSI ↑ 하락할 확률 ↓)
- (RSI ↓ 하락할 확률 ↑)
실험결과
- Naive Bayes 분류기만 사용
- 예측성공률 52.14%
- 종목별 최대 예측 성공률 81.25%
- RSI만 사용
- 예측성공률 60.12%
- 종목별 최대 예측 성공률 94.28%
- Naive Bayes분류기 사용 후 RSI 적용
- 예측 성공률 55.01%
- 종목별 최대 예측 성공률 80.88%
결론
- 문서 내용(종목별, 뉴스의 종류별)에 따라 예측편차가 심하다
- 종목마다 특정 분야에 대한 내용 수록
- 뉴스와 시계열 데이터 분석 기법을 함께 활용하여 평균 3%만큼의 예측성능 향상
- 더 높은 예측률을 위해 다른 변수들에 대한 추가적 연구 필요
반응형
댓글