본문 바로가기
----------책----------/한국어 임베딩

2. 벡터가 어떻게 의미를 가지게 되는가

by 탶선 2021. 1. 21.
반응형
  • 임베딩 - 자연어를 컴퓨터가 처리할 수 있는 숫자들의 나열인 벡터로 바꾼 결과

자연어 의미를 임베딩으로 함축 가능한 이유 : 자연어의 통계적 패턴정보를 임베딩에 넣는 것

임베딩을 만들 때 쓰는 통계 정보 

  1. 문장에 어떤 단어가 많이 쓰였는지 (bag of words 가정)
    • TF-IDF
  2. 단어가 어떤 순서로 등장하는지 (언어 모델)
    • ELMo, GPT
  3. 문장에 어떤 단어가 같이 나타났는지 (분포 가정)
    • Word2Vec, 형태소 분석
      • 특정 범위 내 동시 등장하는 이웃 단어 또는 문맥 집합의 분포 정보등을 활용

 

요약

  • 임베딩에 자연어의 통계적 패턴 정보를 주면 자연어의 의미 함축 가능
  • 백오브워즈 가정에서는 어떤 단어의 등장 여부 혹은 그 빈도 정보를 중시(단, 순서 정보 무시)
  • 백오브워즈 가정의 대척점 : 언어 모델
  • 언어 모델은 단어의 등장 순서를 학습 : 주어진 단어 시퀀스가 얼마나 자연스러운지 확률 부여
  • 분포 가정에서는 문장에서 어떤 단어가 같이 쓰였는지가 중요
  • 백오브워즈 가정, 언어 모델, 분포 가정 : 말뭉치의 통계적 패턴을 서로 다른 각도에서 분석 (상호 보완적)

 

#본 게시물은 한국어 임베딩을 읽고 게시하였습니다.

반응형

'----------책---------- > 한국어 임베딩' 카테고리의 다른 글

3. 한국어 전처리  (0) 2021.05.20
1. 서론  (0) 2020.10.21

댓글