반응형 트위터 전처리 import pandas as pd import multiprocessing import numpy as np from collections import defaultdict from tqdm import trange import re import numpy as np from collections import defaultdict data = pd.read_csv('twitter.csv',engine='python',encoding='CP949') del data['username'] def pre_1(data): # data.drop_duplicaties() data.dropna(axis=0) data.dropna(subset=["content"],axis = 0, inplace = True) # s.. 2020. 8. 4. 데이터 중복 제거 duplicated() duplicated() - 각 로우의 중복여부 boolean Series 반환 data.duplicated() # 예시 # False # False # False # True # dtype: bool 2020. 5. 25. NA(Not Available) 처리 메서드 dropna - 누락된 데이터가 있는 축 제외, 어느 정도의 누락 데이터까지 용인할 것인지 지정 가능 data.dropna() fillna - 누락된 데이터를 대신할 값을 채우거나 'ffill' , 'bfill'같은 보간 메서드 적용 data.fillna() 누락된 값을 제외시 다른 데이터도 함꼐 버려질 가능성이 있기 때문에 구멍을 메우고 싶은 경우 사용 fillna 함수 인자 value - 비어 있는 값을 채울 스칼라값이나 사전 형식의 객체 method - 보간 방식. 기본적으로 ffill 사용 axis - 값을 채워 넣을 축, 기본값은 axis=0 inplace - 복사본을 생성하지 않고 호출한 객체 변경, 기본값은 False limit - 값을 앞 혹은 뒤에서부터 몇 개까지 채울지 지정 isnull.. 2020. 5. 25. 이전 1 다음 반응형