----------책----------/자연어처리 바이블
4장 텍스트의 전처리
탶선
2020. 10. 15. 11:18
반응형
정형 데이터, 비정형 데이터
- 정형 데이터 - 일정한 규격이나 형태를 지닌 숫자 데이터
- ex) 숫자, 날짜 등
- 비정형 데이터 - 숫자 등의 비정형 데이터와 달리 구조화 되지 않은 데이터
- ex) 언어, 영상, 그림 등
띄어쓰기 교정 기법
- 규칙기반
- 어휘지식, 규칙, 오류 유형 등의 휴리스틱 규칙 이용
- 비교적 복잡, 구축관리 비용 ↑
- 통계, 확률 기반
- 말뭉치로부터 자동 추출된 음절 n-gram저오 기반 기계적 계산 과정을 거쳐 오류 교정
- 구현, 구축관리 용이
- 정확도↑, 오류율↑
# 본 게시글은 자연어처리 바이블을 읽고 게시하였습니다 #
반응형