본문 바로가기
----------책----------/한국어 임베딩

1. 서론

by 탶선 2020. 10. 21.
반응형

1.1 임베딩이란

 

임베딩 - 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체

 

1.2 임베딩의 역할

  • 단어/문장 간 관련도 계산
    • 컴퓨터가 계산하기 좋도록 단어를 벡터로 변환하기 때문에 유사도 계산 가능
  • 의미적/문법적 정보 함축
    • 단어가 벡터로 표현되어 단어간의 덧셈/뺄셈을 통해 단어들 사이의 의미적, 문법적 관계 도출 가능
  • 전이 학습
    • 임베딩을 다른 딥러닝 모델의 입력값으로 쓰는 기법

 

1.3 임베딩 기법의 역사와 종류

  • 통계기반 
    • 잠재 의미 분석(Latent Semantic Analysis) - 단어 사용 빈도 등 말뭉치의 통계량 정보가 들어있는 커다란 행렬(matrix)에 특이값 분해(Singular Value Decomposition)등 수학적 기법을 적용해 행렬에 속한 벡터들의 차원을 축소하는 방법
  • 뉴럴 네트워크 기반 
    • 이전 단어들이 주어졌을 때 다음 단어 예측 또는 문장 내 일부분에 구멍을 뚫어(masking) 해당 단어를 맞추는 과정으로 학습
  • 단어 수준에서 문장 수준으로
    • 단어 수준 임베딩의 문제점 : 동음이의어 분별이 어려움
    • 문장 수준 임베딩의 장점 : 개별 단어가 아닌 단어 시퀀스(sequence전체의 문맥적 의미를 함축하기에 학습 효과가 더 좋음
  • 엔드투엔드(end-to-end) 모델
    • 데이터를 통째로 모델에 넣어 입출력 사이의 관계를 모델 스스로 학습하도록 유도
  • 프리트레인(pretrain), 파인 튜닝(fine tuning)
    • 대규모 말뭉치로 임베딩 생성(pretrain)
      • 이 임베딩에는 말뭉치의 의미적, 문법적 맥락 포함
    • 임베딩을 입력으로 하는 새로운 딥러닝 모델 생성 후 구체적 문제에 맞는 소규모 데이터에 맞게 임베딩을 포함한 모델 전체 업데이트(fine tuning, transfer learning)

 

임베딩의 종류와 성능

  • 행렬 분해 기반 - 말뭉치 정보가 들어 있는 원래 행렬을 두 개 이상의 작은 행렬로 쪼개는 방식의 임베딩 기법
    • 분해 후 둘 중 하나의 행렬만 쓰거나 둘을 더하거나 이어 붙여 임베딩으로 사용
  • 예측 기반
    • 어떤 단어 주변에 특정 단어가 나타날지 예측, 이전 단어들이 주어졌을 때 다음 단어 예측, masking 후 해당 단어를 맞추는 과정으로 학습하는 방법
  • 토픽 기반
    • 주어진 문서에 잠재된 주제를 추론 하는 방식으로 임베딩 수행 

 

 

 

# 본 게시물은 한국어 임베딩을 읽고 게시하였습니다 #

 

반응형

댓글