ML 관련/자연어 처리 관련
"Word2Vec, GloVe 및 RoBERTa 등의 모델을 활용한 한국어 문장 임베딩 성능 비교 연구" 요약
탶선
2024. 1. 15. 12:53
반응형
- Word2Vec, GloVe, fastText, RoBERTa, BERT, M-USE으로 문장 임베딩 생성
- 한국어 말뭉치인 네이버 영화 리뷰(NSMC), KorNLI, KorSTS를 각각 활용
- 분류 문제와 문장 유사도 문제를 풀어보고 문장 임베딩 별 성능 확인
- SRoBERTa가 제일 좋은 성능
- 사전 학습 모델이 중요
- task와 미세 조정 유무에 따라 문장 임베딩 모델의 순위가 달라짐
- 최신의 모델을 적용하는 것 X
- 자신의 task에 적합한 모델을 선택하는 것이 중요
반응형