본문 바로가기
-------------코딩-------------/Python 기초 코딩

re.sub

by 탶선 2021. 2. 28.
반응형
text = re.sub('RT @[\w_]+: ', '', text)

# enticons 제거
text = re.sub('@[\w_]+', '', text)

# URL 제거
text = re.sub(r"http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", ' ', text) # http로 시작되는 url
text = re.sub(r"[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{2,6}\b([-a-zA-Z0-9()@:%_\+.~#?&//=]*)", ' ', text) # http로 시작되지 않는 url

# Hashtag 제거
text = re.sub('[#]+[0-9a-zA-Z_]+', ' ', text)

# 쓰레기 단어 제거
text = re.sub('[&]+[a-z]+', ' ', text)

# 특수문자 제거
text = re.sub('[^0-9a-zA-Zㄱ-ㅎ가-힣]', ' ', text)

# 특정 문자 제거
for i in ['!','@','#','*'] :
    new_id = new_id.replace(i, "")

# 띄어쓰기 제거
text = text.replace('\n',' ')

if Num is True:
# 숫자 제거
text = re.sub(r'\d+',' ',text)

# 영어 제거 
text = re.sub('[a-zA-Z]' , ' ', text)

# 대문자로 변환
text = text.upper()

# 소문자로 변환
text = text.lower()
# 정리
text = ' '.join(text.split())

 

re.sub() -  대체어 앞의 단어? 변수? 를 뒤의 문자?? 로 대체해줌(변환해줌)

반응형

댓글