반응형
import pandas as pd
import re
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
from urllib.request import HTTPError
from urllib import parse
from tqdm import trange
data = pd.read_csv("이지케어텍_url.csv")
data = data['url']
hh = []
ii = []
for i in trange(len(data)):
url = data[i]
req = requests.get(url)
bs = BeautifulSoup(req.content, "html.parser")
div = bs.find_all('div',{'class' : 'articleCont'})
for body in div:
aa = body.text[1:]
wdate = bs.find_all('span', {'class' : 'article_date'})
for body in wdate:
bb = body.text
ii.append(bb)
start_idx = aa.find('▶')
rst = aa[ : start_idx]
hh.append(rst)
ii = pd.DataFrame(ii)
hh = pd.DataFrame(hh)
ss = pd.concat([hh,ii],axis = 1)
ss = ss.rename(columns = {"0" : "news_text" , "0" : "news_dati" })
ss.columns=['text','dati']
ss.to_csv("news.csv")
반응형
'-------------코딩------------- > Python 기초 코딩' 카테고리의 다른 글
트위터 전처리 (0) | 2020.08.04 |
---|---|
트위터 크롤링 (0) | 2020.07.28 |
네이버 증권뉴스 크롤링(1) (0) | 2020.07.27 |
python 별찍기 (다이아몬드) (0) | 2020.03.18 |
벅스 일간차트 크롤링 (0) | 2020.02.08 |
댓글