3. 한국어 전처리
지도 학습 기반 형태소 분석 언어 전문가들이 직접 형태소 경계나 품사 정보를 모델에 학습하는 방법 KoNLPy - 은전한닢, 꼬꼬마, 한나눔, Okt, 코모란 등 5개 오픈소스 형태소 분석기를 파이썬 환경에서 사용할 수 있도록 인터페이스를 통일한 한국어 자연어 처리 패키지 은전한닢 분석기 사용법 # 은전한닢 형태소 분석 결과 from konlpy.tag import Mecab tokenizer = Mecab() tokenizer.morphs("아버지가방에들어가신다") # ['아버지', '가', '방', '에', '들어가', '신다'] 은전한닢 품사 정보 확인 # 은전한닢 품사 정보 분석 결과 tokenizer.pos('아버지가방에들어가신다') # [('아버지', 'NNG'), ('가', 'JKS'), (..
2021. 5. 20.
4장 텍스트의 전처리
정형 데이터, 비정형 데이터 정형 데이터 - 일정한 규격이나 형태를 지닌 숫자 데이터 ex) 숫자, 날짜 등 비정형 데이터 - 숫자 등의 비정형 데이터와 달리 구조화 되지 않은 데이터 ex) 언어, 영상, 그림 등 띄어쓰기 교정 기법 규칙기반 어휘지식, 규칙, 오류 유형 등의 휴리스틱 규칙 이용 비교적 복잡, 구축관리 비용 ↑ 통계, 확률 기반 말뭉치로부터 자동 추출된 음절 n-gram저오 기반 기계적 계산 과정을 거쳐 오류 교정 구현, 구축관리 용이 정확도↑, 오류율↑ # 본 게시글은 자연어처리 바이블을 읽고 게시하였습니다 #
2020. 10. 15.