본문 바로가기
반응형
[논문 리뷰] Rapidly Generate and Visualize the Digest of Massive Time Series Data 오늘의 논문은 시계열 데이터의 시각화 방법을 찾아보던 중 읽게 된 논문이다. 오래전 읽고 이제야 포스팅을 하게 되었다... 만만하게 읽다 어려워 여러 번 다시 읽었고 포스팅을 하는 지금에서도 이해가 안가는 부분이 많아 참고 논문 등을 찾아 읽어 봐야 할 듯하다. 2017년 IEEE Third International Conference on Big Data Computing Service and Applications에 게재된 "Rapidly Generate and Visualize the Digest of Massive Time Series Data" 은 대량의 시계열 데이터를 요약하여 시각화하였다. Abstract 시계열 데이터는 시간순으로 자주 수집되는 데이터 집합으로, 방대한 양이 관측과 활용에 .. 2020. 8. 28.
pd.concat() ValueError: Shape of passed values is A와 B라는 Dataframe을 pd.concat()를 사용하여 합치려는데 ValueError: Shape of passed values is (832123, 3), indices imply (554749, 3) 라는 에러 발생.... 합치려는 두 개의 Dataframe의 행 수는 554749로 같은데 왜 832123이라는 에러가 발생했을까... A를 다시 살펴보니 554749 rows x 1 columns 인데 index는 277374밖에 없다..?? A라는 Df 생성시 Dataframe ㄱ, ㄴ 두 개를 합쳐 생성하였는데 A = pd.concat([ㄱ , ㄴ]) 이 때 index에 문제가 생긴것 같았다. A = pd.concat([ㄱ , ㄴ].ignore_index=True) 로 A를 재생성 igno.. 2020. 8. 4.
트위터 전처리 import pandas as pd import multiprocessing import numpy as np from collections import defaultdict from tqdm import trange import re import numpy as np from collections import defaultdict data = pd.read_csv('twitter.csv',engine='python',encoding='CP949') del data['username'] def pre_1(data): # data.drop_duplicaties() data.dropna(axis=0) data.dropna(subset=["content"],axis = 0, inplace = True) # s.. 2020. 8. 4.
GC overhead limit exceedeed(에러) 특정 키워드(지소미아) 관련 트위터를 크롤링하여 감정분석을 위해 명사 추출(konlpy의 okt.nouns) 중 발생한 에러 CPU사용량중 98% 이상 GC가 작동되는경우 GC overhead limit exceeded에러가 발생한다. GC(Garbage-Collection) - 메모리 관리 기법 (프로그램이 동적으로 할당했던 메모리 영역 중 필요없는 영역 해제 하는 기능) *위키백과 장점 유효하지 않은 포인터 접근, 이중 해제, 메모리 누수 단점 메모리 해제시 비용 발생(오버헤드 발생) garbage-collect 타이밍, 점유 시간 예측 불가 할당 메모리 해제 시점 알 수 없음 해결방법 -XX:-UseGCOverheadLimit 라는 해결방법을 찾았지만 java에서 사용되는 듯 하다.... 아시는분은.. 2020. 8. 4.
트위터 크롤링 # import packages import time import datetime import GetOldTweets3 as got import logging import logging.handlers import requests from bs4 import BeautifulSoup from multiprocessing import Pool import pandas as pd import os # 트윗 수집하는 함수 정의 # def get_tweets(start_date, end_date, keyword, keyword2): def get_tweets(start_date, end_date, keyword): # 범위 끝을 포함하게 만듬 end_date = (datetime.datetime.strptime.. 2020. 7. 28.
네이버 증권뉴스 크롤링(2) import pandas as pd import re import requests from bs4 import BeautifulSoup from urllib.request import urlopen from urllib.request import HTTPError from urllib import parse from tqdm import trange data = pd.read_csv("이지케어텍_url.csv") data = data['url'] hh = [] ii = [] for i in trange(len(data)): url = data[i] req = requests.get(url) bs = BeautifulSoup(req.content, "html.parser") div = bs.find_all.. 2020. 7. 27.
네이버 증권뉴스 크롤링(1) import time import pandas as pd import re import requests from bs4 import BeautifulSoup from urllib.request import urlopen from urllib.request import HTTPError from urllib import parse import chardet import math import numpy as np def craw(): news = bs.find_all('dl', {'class' : 'newsList'}) news_list = [] news_list_2 = [] title_list = [] title_list_2 = [] url_list = [] url_list_2 = [] for new in.. 2020. 7. 27.
[논문 리뷰] 뉴스 텍스트 마이닝과 시계열 부석을 이용한 주가예측 2010년에 게시된 논문으로 뉴스 텍스트 마이닝을 수행하여 주가의 호재 악재 여부를 학습하는 연구에 대한 논문 Bag of Words모델과 Naive Bayesian분류기법을 사용 RWT에 대한 반론으로 Martin Webor는 주식시장의 관찰을 통해 주식 시장의 흐름을 파악 가능하다는 연구를 발표 RWT(Random walk theory) - 주가의 변화는 독립적으로 움직인다는 이론 뉴스 데이터를 이용한 예측 방법 뉴스 데이터 수집 뉴스 데이터에 대해 텍스트 마이닝 처리하여 의미있는 문서 내의 feature 추출 해당 뉴스가 주가에 호재인지, 악재인지 분류 분류된 결과를 이용하여 가격 변동추이 예측 뉴스를 이용하여 기존 주가 예측을 시도한 관련연구 비교 제안한 주가예측 알고리즘 뉴스 텍스트의 featu.. 2020. 6. 4.
[논문 리뷰] SNS에서 단어 간 유사도 기반 단어의 쾌-불쾌 지수 측정 2013년에 발표된 논문으로 자연어처리를 사용하여 감성 분석을 수행하는 연구논문이다. 기존 긍정, 부정 두 가지로 분류하는 연구는 활발히 진행되어 있었지만 본 논문의 주제는 단어 간 유사도를 기반으로 신규 단어의 쾌-불쾌 지수를 추정하는 방법론을 제안하였다. 전처리 음소만 등장하는 문자열과 보통의 문자열을 각각 분리 ex) - 음소만 등장하는 문자열( ㅋㅋㅋ, ㅎㅎㅎ, ㅠㅠㅠ) 온라인상 사용되는 구어체의 일부 보정 ~당, ~욧, ~넷 ... -> ~다, ~요, ~네 형태소 분석, 문서별 문장 구분 불용어 제거 특수문자 제거 감성단어 사전 구축 명사,동사형용사 어근을 제외한 의미 없는 품사 제거 Feature Selection 단어간 연관성이 유사하다면 쾌-불쾌 지수 또한 유사할 것이라는 가설 가설검증 감.. 2020. 6. 3.
nltk 오류 발생 corpus 자료 download NLTK 패키지의 corpus 자료는 설치시 제공되지 않는다 따라서 download의 명령으로 사용자가 다운로드 받아야 한다. 이걸 몰라서.... from nltk.corpus import stopwords stop = stopwords.words('english') # LookupError: # ********************************************************************** # Resource stopwords not found. # Please use the NLTK Downloader to obtain the resource: # import nltk # nltk.download('stopwords') 해결방법 pip install nltk #nltk .. 2020. 5. 26.
반응형