반응형 pd.concat() ValueError: Shape of passed values is A와 B라는 Dataframe을 pd.concat()를 사용하여 합치려는데 ValueError: Shape of passed values is (832123, 3), indices imply (554749, 3) 라는 에러 발생.... 합치려는 두 개의 Dataframe의 행 수는 554749로 같은데 왜 832123이라는 에러가 발생했을까... A를 다시 살펴보니 554749 rows x 1 columns 인데 index는 277374밖에 없다..?? A라는 Df 생성시 Dataframe ㄱ, ㄴ 두 개를 합쳐 생성하였는데 A = pd.concat([ㄱ , ㄴ]) 이 때 index에 문제가 생긴것 같았다. A = pd.concat([ㄱ , ㄴ].ignore_index=True) 로 A를 재생성 igno.. 2020. 8. 4. GC overhead limit exceedeed(에러) 특정 키워드(지소미아) 관련 트위터를 크롤링하여 감정분석을 위해 명사 추출(konlpy의 okt.nouns) 중 발생한 에러 CPU사용량중 98% 이상 GC가 작동되는경우 GC overhead limit exceeded에러가 발생한다. GC(Garbage-Collection) - 메모리 관리 기법 (프로그램이 동적으로 할당했던 메모리 영역 중 필요없는 영역 해제 하는 기능) *위키백과 장점 유효하지 않은 포인터 접근, 이중 해제, 메모리 누수 단점 메모리 해제시 비용 발생(오버헤드 발생) garbage-collect 타이밍, 점유 시간 예측 불가 할당 메모리 해제 시점 알 수 없음 해결방법 -XX:-UseGCOverheadLimit 라는 해결방법을 찾았지만 java에서 사용되는 듯 하다.... 아시는분은.. 2020. 8. 4. 트위터 크롤링 # import packages import time import datetime import GetOldTweets3 as got import logging import logging.handlers import requests from bs4 import BeautifulSoup from multiprocessing import Pool import pandas as pd import os # 트윗 수집하는 함수 정의 # def get_tweets(start_date, end_date, keyword, keyword2): def get_tweets(start_date, end_date, keyword): # 범위 끝을 포함하게 만듬 end_date = (datetime.datetime.strptime.. 2020. 7. 28. 네이버 증권뉴스 크롤링(2) import pandas as pd import re import requests from bs4 import BeautifulSoup from urllib.request import urlopen from urllib.request import HTTPError from urllib import parse from tqdm import trange data = pd.read_csv("이지케어텍_url.csv") data = data['url'] hh = [] ii = [] for i in trange(len(data)): url = data[i] req = requests.get(url) bs = BeautifulSoup(req.content, "html.parser") div = bs.find_all.. 2020. 7. 27. 네이버 증권뉴스 크롤링(1) import time import pandas as pd import re import requests from bs4 import BeautifulSoup from urllib.request import urlopen from urllib.request import HTTPError from urllib import parse import chardet import math import numpy as np def craw(): news = bs.find_all('dl', {'class' : 'newsList'}) news_list = [] news_list_2 = [] title_list = [] title_list_2 = [] url_list = [] url_list_2 = [] for new in.. 2020. 7. 27. 백준 14681번 문제 사분면 고르기 --python 문제 흔한 수학 문제 중 하나는 주어진 점이 어느 사분면에 속하는지 알아내는 것이다. 사분면은 아래 그림처럼 1부터 4까지 번호를 갖는다. "Quadrant n"은 "제n사분면"이라는 뜻이다. 예를 들어, 좌표가 (12, 5)인 점 A는 x좌표와 y좌표가 모두 양수이므로 제1사분면에 속한다. 점 B는 x좌표가 음수이고 y좌표가 양수이므로 제2사분면에 속한다. 점의 좌표를 입력받아 그 점이 어느 사분면에 속하는지 알아내는 프로그램을 작성하시오. 단, x좌표와 y좌표는 모두 양수나 음수라고 가정한다. 입력 첫 줄에는 정수 x가 주어진다. (−1000 ≤ x ≤ 1000; x ≠ 0) 다음 줄에는 정수 y가 주어진다. (−1000 ≤ y ≤ 1000; y ≠ 0) 출력 점 (x, y)의 사분면 번호(1, 2,.. 2020. 4. 8. CHAPTER 1_ 왜 금융 분석에 파이썬을 사용하는가 파이썬 고수준 객체지향 인터프리터 언어 동적 의미 구조 고수준의 자료구조, 동적 타이핑, 동적 바인딩 특성 - 고속 응용프로그램 개발에 적합 파이썬의 장점 오픈소스 파이썬, 라이브러리 툴 등 오픈 라이센스 아래 소스 코드를 구할 수 있다. 인터프리터 언어 표준 CPython 런타임시 실행 가능한 바이트 코드로 변환 멀티패러다임 객체지향, 명령형 프로그래밍, 함수형 프로그래밍 등 여러 프로그래밍 구현가능 다목적 저수준의 시스템 기능 구현, 고수준의 해석 업무 모두 이용 가능 크로스 플랫폼 윈도우, 리눅스, 맥 등 대부분에서 사용 가능 동적 타입 정적 선언이 아닌 실행 중에 결정되는 동적 데이터 타입 가비지 콜렉션 자동화된 메모리 관리 과학 기술용 표준 라이브러리 모음 NumPy(http://www.nump.. 2020. 3. 18. python 별찍기 (다이아몬드) # 값 입력받기 size = int(input("please input size")) # size = 5 #다이아몬드 상체 for x in range(1, size * 2, 2): print(("x" * ( (size * 2 - 1 - x) // 2 )) + ("O" * x) + ("x" * ( (size * 2 - 1 - x) // 2 ))) #다이아몬드 하체 for y in range(size * 2-3, 0, -2): print(("x" * ( (size * 2 - 1 - y) // 2 )) + "O" * y + ("x" * ( (size * 2 - 1 - y) // 2 ))) 2020. 3. 18. 벅스 일간차트 크롤링 from urllib.request import urlopen from bs4 import BeautifulSoup from html2text import html2text import sys import pprint if __name__ == "__main__": f = open("bugs_chart.txt", "w") url = urlopen("http://music.bugs.co.kr/chart/track/day/total") bs = BeautifulSoup(url,'html.parser') artist_list=[] # 가수 리스트 생성 title_list = [] # 제목 리스트 생성 daily_chart = {} # 가수 + 제목 딕셔너리 artist = bs.find_all('p', cla.. 2020. 2. 8. 별찍기(직각삼각형) size = int(input("please input size")) for i in range(size): print("*"*i) size = int(input("please input size")) for i in range(size,0,-1): print("*"*i) 2020. 2. 8. 이전 1 2 다음 반응형