반응형
- 임베딩 - 자연어를 컴퓨터가 처리할 수 있는 숫자들의 나열인 벡터로 바꾼 결과
자연어 의미를 임베딩으로 함축 가능한 이유 : 자연어의 통계적 패턴정보를 임베딩에 넣는 것
임베딩을 만들 때 쓰는 통계 정보
- 문장에 어떤 단어가 많이 쓰였는지 (bag of words 가정)
- TF-IDF
- 단어가 어떤 순서로 등장하는지 (언어 모델)
- ELMo, GPT
- 문장에 어떤 단어가 같이 나타났는지 (분포 가정)
- Word2Vec, 형태소 분석
- 특정 범위 내 동시 등장하는 이웃 단어 또는 문맥 집합의 분포 정보등을 활용
- Word2Vec, 형태소 분석
요약
- 임베딩에 자연어의 통계적 패턴 정보를 주면 자연어의 의미 함축 가능
- 백오브워즈 가정에서는 어떤 단어의 등장 여부 혹은 그 빈도 정보를 중시(단, 순서 정보 무시)
- 백오브워즈 가정의 대척점 : 언어 모델
- 언어 모델은 단어의 등장 순서를 학습 : 주어진 단어 시퀀스가 얼마나 자연스러운지 확률 부여
- 분포 가정에서는 문장에서 어떤 단어가 같이 쓰였는지가 중요
- 백오브워즈 가정, 언어 모델, 분포 가정 : 말뭉치의 통계적 패턴을 서로 다른 각도에서 분석 (상호 보완적)
#본 게시물은 한국어 임베딩을 읽고 게시하였습니다.
반응형
'----------책---------- > 한국어 임베딩' 카테고리의 다른 글
3. 한국어 전처리 (0) | 2021.05.20 |
---|---|
1. 서론 (0) | 2020.10.21 |
댓글