본문 바로가기
ML 관련/자연어 처리 관련

NLP(Natural Language Process) - 필수 용어 및 개념 정리(2)

by 탶선 2024. 1. 15.
반응형

pre-processing(전처리)

  • 한국어 전처리
    • 한글 데이터 사용 시, 띄어쓰기, 맞춤법이 틀린 경우가 많음
    • ex) 비표준어, 맞춤법 무시, 특수문자, 이모지 처리
    • 부정의 부정, 모호 표현, 채널의 분리
  • 전처리 : 데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 총칭

 

형태소 분석 = Pos Tag(품사 태깅)

  • 형태소 분석 : 형태소를 분석하는 모든 행위
  • 품사 태깅 : 형태소의 품사를 붙이는 역할까지
  • 품사를 붙이는 행위, 형태소 분석과 동의어로 사용되나 조금의 차이 존재

 

stop word(불용어)

  • 자주 나오지만, 문구의 의미에 실질적 의미가 없는 단어
  • ex) 윙윙, 오호, 이러한 ….
  • 불용어 제거
    • 정제 및 정규화에서 의미가 없어 불필요한 단어를 제거하는 것
    • 목적에 따라 필요한 단어, 불필요한 단어가 달라질 수 있음으로 절대적 기준이란 없으며, 목적에 맞게 개발자가 설정해 줘야 함

 

attention(어텐션)

  • transformer 논문에서 제시한 개념
  • 디코더에서 출력 단어를 예측하는 매 시점(time step)마다, 인코더에서의 전체 입력 문장을 다시 한 번 집중 (해당 시점에서 예측해야 할 단어와 연관이 있는 입력 단어 부분)

 

Encoder(인코더) - Decoder(디코더)

  • Encoder - input 시퀀스를 하나의 context vector로 변환
    • 주요 기능 : 토큰화, 순차 처리, context벡터
  • Decoder - 인코더로부터 전달받은 context vector 등을 입력으로 받아 출력물 생성
    • 주요 기능 : 시퀀스 생성, context 활용 등

 

Autoencoder(오토인코더)

  • 신경망 구조 중 하나
  • 데이터 차원 축소, 특징 추출, 잡음 제거 등에 사용되는 비지도 학습 모델
  • 입력 데이터 재구성 방법을 학습하여 데이터의 표현을 학습, 압축하는데 중점을

 

sequence-to-sequence(= seq2seq)(시퀀스 투 시퀀스)

  • sequence를 입력받고 sequence를 출력하는 모델
반응형

댓글