본문 바로가기
-------------코딩-------------/Python 기초 코딩

네이버 증권뉴스 크롤링(2)

by 탶선 2020. 7. 27.
반응형
import pandas as pd
import re
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
from urllib.request import HTTPError
from urllib import parse
from tqdm import trange

data = pd.read_csv("이지케어텍_url.csv")

data = data['url']

hh = []
ii = []

for i in trange(len(data)):
    
    url = data[i]
    req = requests.get(url)
    bs = BeautifulSoup(req.content, "html.parser")

    div = bs.find_all('div',{'class' : 'articleCont'})

    for body in div:
        aa = body.text[1:]
        
    wdate = bs.find_all('span', {'class' : 'article_date'})
    for body in wdate:
        bb = body.text
        ii.append(bb)
    start_idx = aa.find('▶')
    rst = aa[ : start_idx]
    hh.append(rst)
    
ii = pd.DataFrame(ii)
hh = pd.DataFrame(hh)

ss = pd.concat([hh,ii],axis = 1)
ss = ss.rename(columns = {"0" : "news_text" , "0" : "news_dati" })

ss.columns=['text','dati']

ss.to_csv("news.csv")
반응형

'-------------코딩------------- > Python 기초 코딩' 카테고리의 다른 글

트위터 전처리  (0) 2020.08.04
트위터 크롤링  (0) 2020.07.28
네이버 증권뉴스 크롤링(1)  (0) 2020.07.27
python 별찍기 (다이아몬드)  (0) 2020.03.18
벅스 일간차트 크롤링  (0) 2020.02.08

댓글