1. 서론

임베딩 - 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체

통계기반
- 잠재 의미 분석(Latent Semantic Analysis) - 단어 사용 빈도 등 말뭉치의 통계량 정보가 들어있는 커다란 행렬(matrix)에 특이값 분해(Singular Value Decomposition)등 수학적 기법을 적용해 행렬에 속한 벡터들의 차원을 축소하는 방법
뉴럴 네트워크 기반
- 이전 단어들이 주어졌을 때 다음 단어 예측 또는 문장 내 일부분에 구멍을 뚫어(masking) 해당 단어를 맞추는 과정으로 학습
단어 수준에서 문장 수준으로
- 단어 수준 임베딩의 문제점 : 동음이의어 분별이 어려움
- 문장 수준 임베딩의 장점 : 개별 단어가 아닌 단어 시퀀스(sequence전체의 문맥적 의미를 함축하기에 학습 효과가 더 좋음
엔드투엔드(end-to-end) 모델
- 데이터를 통째로 모델에 넣어 입출력 사이의 관계를 모델 스스로 학습하도록 유도
프리트레인(pretrain), 파인 튜닝(fine tuning)
- 대규모 말뭉치로 임베딩 생성(pretrain)
  - 이 임베딩에는 말뭉치의 의미적, 문법적 맥락 포함
- 임베딩을 입력으로 하는 새로운 딥러닝 모델 생성 후 구체적 문제에 맞는 소규모 데이터에 맞게 임베딩을 포함한 모델 전체 업데이트(fine tuning, transfer learning)

임베딩의 종류와 성능

행렬 분해 기반 - 말뭉치 정보가 들어 있는 원래 행렬을 두 개 이상의 작은 행렬로 쪼개는 방식의 임베딩 기법
- 분해 후 둘 중 하나의 행렬만 쓰거나 둘을 더하거나 이어 붙여 임베딩으로 사용

예측 기반
- 어떤 단어 주변에 특정 단어가 나타날지 예측, 이전 단어들이 주어졌을 때 다음 단어 예측, masking 후 해당 단어를 맞추는 과정으로 학습하는 방법
토픽 기반
- 주어진 문서에 잠재된 주제를 추론 하는 방식으로 임베딩 수행

# 본 게시물은 한국어 임베딩을 읽고 게시하였습니다 #

3. 한국어 전처리 (0)	2021.05.20
2. 벡터가 어떻게 의미를 가지게 되는가 (0)	2021.01.21

하나씩 화이팅!!