본문 바로가기
반응형
네이버 증권뉴스 크롤링(2) import pandas as pd import re import requests from bs4 import BeautifulSoup from urllib.request import urlopen from urllib.request import HTTPError from urllib import parse from tqdm import trange data = pd.read_csv("이지케어텍_url.csv") data = data['url'] hh = [] ii = [] for i in trange(len(data)): url = data[i] req = requests.get(url) bs = BeautifulSoup(req.content, "html.parser") div = bs.find_all.. 2020. 7. 27.
네이버 증권뉴스 크롤링(1) import time import pandas as pd import re import requests from bs4 import BeautifulSoup from urllib.request import urlopen from urllib.request import HTTPError from urllib import parse import chardet import math import numpy as np def craw(): news = bs.find_all('dl', {'class' : 'newsList'}) news_list = [] news_list_2 = [] title_list = [] title_list_2 = [] url_list = [] url_list_2 = [] for new in.. 2020. 7. 27.
nltk 오류 발생 corpus 자료 download NLTK 패키지의 corpus 자료는 설치시 제공되지 않는다 따라서 download의 명령으로 사용자가 다운로드 받아야 한다. 이걸 몰라서.... from nltk.corpus import stopwords stop = stopwords.words('english') # LookupError: # ********************************************************************** # Resource stopwords not found. # Please use the NLTK Downloader to obtain the resource: # import nltk # nltk.download('stopwords') 해결방법 pip install nltk #nltk .. 2020. 5. 26.
데이터 중복 제거 duplicated() duplicated() - 각 로우의 중복여부 boolean Series 반환 data.duplicated() # 예시 # False # False # False # True # dtype: bool 2020. 5. 25.
NA(Not Available) 처리 메서드 dropna - 누락된 데이터가 있는 축 제외, 어느 정도의 누락 데이터까지 용인할 것인지 지정 가능 data.dropna() fillna - 누락된 데이터를 대신할 값을 채우거나 'ffill' , 'bfill'같은 보간 메서드 적용 data.fillna() 누락된 값을 제외시 다른 데이터도 함꼐 버려질 가능성이 있기 때문에 구멍을 메우고 싶은 경우 사용 fillna 함수 인자 value - 비어 있는 값을 채울 스칼라값이나 사전 형식의 객체 method - 보간 방식. 기본적으로 ffill 사용 axis - 값을 채워 넣을 축, 기본값은 axis=0 inplace - 복사본을 생성하지 않고 호출한 객체 변경, 기본값은 False limit - 값을 앞 혹은 뒤에서부터 몇 개까지 채울지 지정 isnull.. 2020. 5. 25.
pandas.read_csv 한글 깨짐 pd.read_csv('파일명','\t') 으로 csv파일을 열때 파일이 열리지 않는 문제 engine='python'추가로 해결했지만, 한글이 깨짐 pd.read_csv('파일명',sep='\t',engine='python',encoding='CP949') encoding='CP949' 추가로 해결 2020. 5. 13.
백준 8393번 문제 합 문제 n이 주어졌을 때, 1부터 n까지 합을 구하는 프로그램을 작성하시오. 입력 첫째 줄에 n (1 ≤ n ≤ 10,000)이 주어진다. 출력 1부터 n까지 합을 출력한다. 정답 : n = int(input()) sum = 0 for i in range(n,0,-1): sum += i print(sum) 2020. 4. 20.
백준 10950번 문제 A+B-3 --python 문제 두 정수 A와 B를 입력받은 다음, A+B를 출력하는 프로그램을 작성하시오. 입력 첫째 줄에 테스트 케이스의 개수 T가 주어진다. 각 테스트 케이스는 한 줄로 이루어져 있으며, 각 줄에 A와 B가 주어진다. (0 < A, B < 10) 출력 각 테스트 케이스마다 A+B를 출력한다. 정답 : T = int(input()) for i in range(T): A,B = map(int,input().split()) print(A+B) 2020. 4. 9.
백준 2739번 문제 구구단 --Python 구구단 성공 시간 제한메모리 제한제출정답맞은 사람정답 비율 1 초 128 MB 95184 49919 44521 54.485% 문제 N을 입력받은 뒤, 구구단 N단을 출력하는 프로그램을 작성하시오. 출력 형식에 맞춰서 출력하면 된다. 입력 첫째 줄에 N이 주어진다. N은 1보다 크거나 같고, 9보다 작거나 같다. 출력 출력형식과 같게 N*1부터 N*9까지 출력한다. 정답 : N = int(input()) for i in range(1,10,1): print(N,"*",i,"=",N * i) 2020. 4. 9.
백준 2884번 문제 --python 문제 상근이는 매일 아침 알람을 듣고 일어난다. 알람을 듣고 바로 일어나면 다행이겠지만, 항상 조금만 더 자려는 마음 때문에 매일 학교를 지각하고 있다. 상근이는 모든 방법을 동원해보았지만, 조금만 더 자려는 마음은 그 어떤 것도 없앨 수가 없었다. 이런 상근이를 불쌍하게 보던, 창영이는 자신이 사용하는 방법을 추천해 주었다. 바로 "45분 일찍 알람 설정하기"이다. 이 방법은 단순하다. 원래 설정되어 있는 알람을 45분 앞서는 시간으로 바꾸는 것이다. 어차피 알람 소리를 들으면, 알람을 끄고 조금 더 잘 것이기 때문이다. 이 방법을 사용하면, 매일 아침 더 잤다는 기분을 느낄 수 있고, 학교도 지각하지 않게 된다. 현재 상근이가 설정한 알람 시각이 주어졌을 때, 창영이의 방법을 사용한다면, 이를 언제로.. 2020. 4. 9.
반응형