4장 텍스트의 전처리
정형 데이터, 비정형 데이터 정형 데이터 - 일정한 규격이나 형태를 지닌 숫자 데이터 ex) 숫자, 날짜 등 비정형 데이터 - 숫자 등의 비정형 데이터와 달리 구조화 되지 않은 데이터 ex) 언어, 영상, 그림 등 띄어쓰기 교정 기법 규칙기반 어휘지식, 규칙, 오류 유형 등의 휴리스틱 규칙 이용 비교적 복잡, 구축관리 비용 ↑ 통계, 확률 기반 말뭉치로부터 자동 추출된 음절 n-gram저오 기반 기계적 계산 과정을 거쳐 오류 교정 구현, 구축관리 용이 정확도↑, 오류율↑ # 본 게시글은 자연어처리 바이블을 읽고 게시하였습니다 #
2020. 10. 15.