본문 바로가기
반응형
데이터 중복 제거 duplicated() duplicated() - 각 로우의 중복여부 boolean Series 반환 data.duplicated() # 예시 # False # False # False # True # dtype: bool 2020. 5. 25.
NA(Not Available) 처리 메서드 dropna - 누락된 데이터가 있는 축 제외, 어느 정도의 누락 데이터까지 용인할 것인지 지정 가능 data.dropna() fillna - 누락된 데이터를 대신할 값을 채우거나 'ffill' , 'bfill'같은 보간 메서드 적용 data.fillna() 누락된 값을 제외시 다른 데이터도 함꼐 버려질 가능성이 있기 때문에 구멍을 메우고 싶은 경우 사용 fillna 함수 인자 value - 비어 있는 값을 채울 스칼라값이나 사전 형식의 객체 method - 보간 방식. 기본적으로 ffill 사용 axis - 값을 채워 넣을 축, 기본값은 axis=0 inplace - 복사본을 생성하지 않고 호출한 객체 변경, 기본값은 False limit - 값을 앞 혹은 뒤에서부터 몇 개까지 채울지 지정 isnull.. 2020. 5. 25.
[논문 리뷰] OpinionFinder: A system for subjectivity analysis 감정분석을 하기위해 논문을 읽어보던중 OpinionFinder라는 시스템이 계속 거론되어 찾아보게 된 논문이었다. 간단하게 두장으로 끝나는 논문으로 그냥 이런역할을 하는구나 정도로만 가볍게 읽은 논문이었다. 저널 : Proceedings of HLT/EMNLP 2005 Interactive Demonstrations 저자 : TheresaWilson, Paul Hoffmann(펜실베니아 피츠버그 대학교, 지능시스템 프로그램) article history : October 2005 1. Introduction OpinionFinder는 주관성 분석을 수행하여 의견, 감정, 추측 등의 개인 상태를 자동으로 식별하여 텍스트로 표시하는 시스템이다. 주관적인 문장을 식별하고 주관성의 출처(보유자)와 긍정/부정적 .. 2020. 5. 23.
pandas.read_csv 한글 깨짐 pd.read_csv('파일명','\t') 으로 csv파일을 열때 파일이 열리지 않는 문제 engine='python'추가로 해결했지만, 한글이 깨짐 pd.read_csv('파일명',sep='\t',engine='python',encoding='CP949') encoding='CP949' 추가로 해결 2020. 5. 13.
dell r-510 linux 설치(하드 인식불가 문제 해결) dell 서버에 리눅스 설치중 하드가 인식되지 않아 하드 인식이 안되는 문제 해결을 위해 부팅시 ctrl + r을 눌러 Configuration Utility에 들어간다 VD MGmt에서 f2 눌러 forein clear f2 눌러 Virtual Disks 삭제 Disk ID 부분 체크 Advanced Settings 체크 Initialize 체크 하여 OK 한 후 부팅 raid 설정, 생성하여 하드 인식 성공 2020. 5. 12.
4장 확률과 확률분포 추측통계학 - 표본에 내포되어 있는 정보를 이용하여 모집단에 대한 과학적인 추론을 하는 학문 ex) 표본평균으로 모평균에 대한 추론 표본표준편차로써 모표준편차에 대한 추론 확률은 역사적으로 도박으로부터 유래되었다. 확률(probability) - 똑같은 실험을 무수히 많이 반복할 때 어떤 일이 일어나는 비율, 즉 상대도수의 극한적인 개념 표본공간(sample space) - 통계적 실험에서 모든 가능한 실험결과들의 집합 사건(event) - 관심있는 실험결과들의 집합 확률의 고전적 정의 표본공간의 모든 원소가 일어날 가능성이 다 같은 경우에 사상 A의 확률 $ {사상 A에 속하는 원소의 개수 \over 표본공간의 전체 원소의 개수} $ 사상 A가 일어날 확률은 P(A)라고 표기 조합 서로 다른 n개 중 .. 2020. 5. 6.
[논문 리뷰] Stock Market Trend Prediction with Sentiment Analysis based on LSTM Neural Network 본 논문에서는 시장 예측을 하기 위해 feature선택에 대해 다룬 논문이며 경제 뉴스의 감정 분석을 위해 LSTM을 사용한다. Introduction LSTM과 같은 딥러닝 기술들이 금융분야에서 효과적이며 이는 증명되었다. 이에따라 LSTM신경망에 기반한 주식 시장 예측의 영향요인 분석을 목표로 시장예측에 딥러닝 방법을 사용 feature selection, 경제 뉴스의 감정분석, 신경망 구조에 중점을 둔 논문 background 주식시장 예측은 산업계 학계 등 많은 분야에서 관심을 가지는 기술 신경망, 유전자 알고리즘, svm 등의 알고리즘으로 주가 예측 사용 정확도 향상의 문제점 데이터 noise 데이터 중복성 데이터 노이즈 overfitting 시장 감정 주식시장은 확률론적 분야 - 다양한 측면이.. 2020. 5. 5.
3장 자료의정리 2 중심위치의 측도 평균 산술평균을 의미, 중심위치의 측도로서 사용( 양적 자료에만 사용) $ 평균 = {x_1 + x_2 + ... + x_n \over n} $ 다른 대부분의 자료값보다 아주 크거나 작은 극단값이 있을 때, 극단값의 영향을 많이 받는다. 모평균 - 모집단의 평균 주어진 자료가 모집단일 경우 평균을 $\mu$ 로 표기 $\mu = {1 \over N}(x_1 + x_2 + ... + x_n) = {1 \over N}\Sigma^N _{i=1} x_i$ 표본평균 - 표본의 평균 $ \bar{x} $ 엑스바라고 읽음 $\bar{x} = {1 \over n}(x_1 + x_2 + ... + x_n) = {1 \over n}\Sigma^n _{i=1} x_i$ 이상점 - 극단값의 통계적 용어 평균.. 2020. 4. 28.
1장 통계학이란 무엇인가? / 2장 자료의 정리 1 통계학(statistics) 자료에 근거하여 자연 또는 사회 제현상에 대한 과학적인 추론과 불확실한 미래를 대비하기 위한 합리적인 의사결정을 하고자 하는 학문. 모집단과 표본 모집단 - 관심의 대상이 되는 모든 개체의 관측값이나 측정값의 집합 표본 - 통계적 처리를 위하여 모집단에서 실제로 추출한 관측값이나 측정값의 집합 유한모집단 - 원소의 수가 유한개일 경우 무한모집단 - 원소의 수가 무한개일 경우 기술통계학과 추측통계학 기술통계학 - 자료를 수집하고 표나 그림 또는 대표값, 변동의 크기 등을 통하여 수집된 자료의 특성을 쉽게 파악할 수 있도록 자료를 정리,요약하는 방법을 다루는 분야 추측통계학 - 정보를 분석하여 모집단의 여러 가지 특성에 대하여 과학적으로 추론하는 방법을 다루는 분야 자료의 종류 .. 2020. 4. 23.
백준 8393번 문제 합 문제 n이 주어졌을 때, 1부터 n까지 합을 구하는 프로그램을 작성하시오. 입력 첫째 줄에 n (1 ≤ n ≤ 10,000)이 주어진다. 출력 1부터 n까지 합을 출력한다. 정답 : n = int(input()) sum = 0 for i in range(n,0,-1): sum += i print(sum) 2020. 4. 20.
반응형