본문 바로가기
----------책----------/자연어처리 바이블

4장 텍스트의 전처리

by 탶선 2020. 10. 15.
반응형

정형 데이터, 비정형 데이터

  • 정형 데이터 - 일정한 규격이나 형태를 지닌 숫자 데이터
    • ex) 숫자, 날짜 등
  • 비정형 데이터 - 숫자 등의 비정형 데이터와 달리 구조화 되지 않은 데이터
    • ex) 언어, 영상, 그림 등

 

띄어쓰기 교정 기법

  • 규칙기반
    • 어휘지식, 규칙, 오류 유형 등의 휴리스틱 규칙 이용
    • 비교적 복잡, 구축관리 비용 ↑
  • 통계, 확률 기반
    • 말뭉치로부터 자동 추출된 음절 n-gram저오 기반 기계적 계산 과정을 거쳐 오류 교정
    • 구현, 구축관리 용이
    • 정확도↑, 오류율↑

 

# 본 게시글은 자연어처리 바이블을 읽고 게시하였습니다 #

반응형

'----------책---------- > 자연어처리 바이블' 카테고리의 다른 글

6장 구문 분석  (0) 2020.10.19
5장 어휘 분석  (0) 2020.10.19
3장 언어학의 기본 원리  (0) 2020.10.15
2장 자연어처리를 위한 수학  (0) 2020.09.13
1장 자연어처리의 기본  (0) 2020.09.10

댓글