반응형
text = re.sub('RT @[\w_]+: ', '', text)
# enticons 제거
text = re.sub('@[\w_]+', '', text)
# URL 제거
text = re.sub(r"http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", ' ', text) # http로 시작되는 url
text = re.sub(r"[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{2,6}\b([-a-zA-Z0-9()@:%_\+.~#?&//=]*)", ' ', text) # http로 시작되지 않는 url
# Hashtag 제거
text = re.sub('[#]+[0-9a-zA-Z_]+', ' ', text)
# 쓰레기 단어 제거
text = re.sub('[&]+[a-z]+', ' ', text)
# 특수문자 제거
text = re.sub('[^0-9a-zA-Zㄱ-ㅎ가-힣]', ' ', text)
# 특정 문자 제거
for i in ['!','@','#','*'] :
new_id = new_id.replace(i, "")
# 띄어쓰기 제거
text = text.replace('\n',' ')
if Num is True:
# 숫자 제거
text = re.sub(r'\d+',' ',text)
# 영어 제거
text = re.sub('[a-zA-Z]' , ' ', text)
# 대문자로 변환
text = text.upper()
# 소문자로 변환
text = text.lower()
# 정리
text = ' '.join(text.split())
re.sub() - 대체어 앞의 단어? 변수? 를 뒤의 문자?? 로 대체해줌(변환해줌)
반응형
'-------------코딩------------- > Python 기초 코딩' 카테고리의 다른 글
욕설 탐지 프로그램 (0) | 2021.05.28 |
---|---|
숫자만 추출하기 (0) | 2021.03.09 |
정규표현식 - match 객체 method (0) | 2021.02.23 |
정규표현식 - 사용방법(컴파일) (0) | 2021.02.23 |
정규 표현식 - 메타 문자 (0) | 2021.02.23 |
댓글