'ML 관련/자연어 처리 관련' 카테고리의 글 목록

본문 바로가기

텍스트 요약(사내 세미나) 보호되어 있는 글 입니다. 2024. 3. 5.

"Word2Vec, GloVe 및 RoBERTa 등의 모델을 활용한 한국어 문장 임베딩 성능 비교 연구" 요약 Word2Vec, GloVe, fastText, RoBERTa, BERT, M-USE으로 문장 임베딩 생성 한국어 말뭉치인 네이버 영화 리뷰(NSMC), KorNLI, KorSTS를 각각 활용 분류 문제와 문장 유사도 문제를 풀어보고 문장 임베딩 별 성능 확인 SRoBERTa가 제일 좋은 성능 사전 학습 모델이 중요 task와 미세 조정 유무에 따라 문장 임베딩 모델의 순위가 달라짐 최신의 모델을 적용하는 것 X 자신의 task에 적합한 모델을 선택하는 것이 중요 2024. 1. 15.

NLP(Natural Language Process) - 필수 용어 및 개념 정리(2) pre-processing(전처리) 한국어 전처리 한글 데이터 사용 시, 띄어쓰기, 맞춤법이 틀린 경우가 많음 ex) 비표준어, 맞춤법 무시, 특수문자, 이모지 처리 부정의 부정, 모호 표현, 채널의 분리 전처리 : 데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 총칭 형태소 분석 = Pos Tag(품사 태깅) 형태소 분석 : 형태소를 분석하는 모든 행위 품사 태깅 : 형태소의 품사를 붙이는 역할까지 품사를 붙이는 행위, 형태소 분석과 동의어로 사용되나 조금의 차이 존재 stop word(불용어) 자주 나오지만, 문구의 의미에 실질적 의미가 없는 단어 ex) 윙윙, 오호, 이러한 …. 불용어 제거 정제 및 정규화에서 의미가 없어 불필요한 단어를 제거하는 것 목적에 따라 필요한 단어, 불필요한 단어가.. 2024. 1. 15.

NLP(Natural Language Process) - 필수 용어 및 개념 정리(1) 자연어 처리 사람이 이해하는 자연어를 컴퓨터가 이해할 수 있는 값으로 변환하는 과정 컴퓨터가 이해하는 값을 사람이 이해할 수 있도록 다시 바꾸는 과정까지 포함 한국어 자연어 처리의 어려움 모호성 ex) 차를 마시러 공원에 가는 차 안에서 나는 그녀에게 차였다. 띄어쓰기가 지켜지지 않는다 ex) 띄어쓰기를하지않아도읽을수있습니다. 교착어 어간과 어미가 명백하게 분리되는 언어 하나의 형태소가 하나의 문법적인 기능을 하는 언어 ex) '그'라는 단어 하나에도 '그가', '그를', '그와', '그는'과 같이 다양한 조사가 '그'라는 글자 뒤에 띄어쓰기 없이 바로 붙게 됨 같은 단어임에도 서로 다른 조사가 붙어서 다른 단어로 인식이 되면 자연어 처리가 힘들고 번거로워지는 경우가 많음 어간에 접사가 붙어, 단어를 이.. 2024. 1. 15.

[논문 리뷰] 자기지도학습 기반 음성 언어 모델을 이용한 자소 단위의 한국어 음성 인식 리뷰 2023. 1. 3.

LSTM 실습코드 pdf 2021. 7. 18.

[논문 리뷰] SNS에서 단어 간 유사도 기반 단어의 쾌-불쾌 지수 측정 2013년에 발표된 논문으로 자연어처리를 사용하여 감성 분석을 수행하는 연구논문이다. 기존 긍정, 부정 두 가지로 분류하는 연구는 활발히 진행되어 있었지만 본 논문의 주제는 단어 간 유사도를 기반으로 신규 단어의 쾌-불쾌 지수를 추정하는 방법론을 제안하였다. 전처리 음소만 등장하는 문자열과 보통의 문자열을 각각 분리 ex) - 음소만 등장하는 문자열( ㅋㅋㅋ, ㅎㅎㅎ, ㅠㅠㅠ) 온라인상 사용되는 구어체의 일부 보정 ~당, ~욧, ~넷 ... -> ~다, ~요, ~네 형태소 분석, 문서별 문장 구분 불용어 제거 특수문자 제거 감성단어 사전 구축 명사,동사형용사 어근을 제외한 의미 없는 품사 제거 Feature Selection 단어간 연관성이 유사하다면 쾌-불쾌 지수 또한 유사할 것이라는 가설 가설검증 감.. 2020. 6. 3.

[논문 리뷰] OpinionFinder: A system for subjectivity analysis 감정분석을 하기위해 논문을 읽어보던중 OpinionFinder라는 시스템이 계속 거론되어 찾아보게 된 논문이었다. 간단하게 두장으로 끝나는 논문으로 그냥 이런역할을 하는구나 정도로만 가볍게 읽은 논문이었다. 저널 : Proceedings of HLT/EMNLP 2005 Interactive Demonstrations 저자 : TheresaWilson, Paul Hoffmann(펜실베니아 피츠버그 대학교, 지능시스템 프로그램) article history : October 2005 1. Introduction OpinionFinder는 주관성 분석을 수행하여 의견, 감정, 추측 등의 개인 상태를 자동으로 식별하여 텍스트로 표시하는 시스템이다. 주관적인 문장을 식별하고 주관성의 출처(보유자)와 긍정/부정적 .. 2020. 5. 23.

[논문 리뷰] Beating Atari with Natural Language Guided Reinforcement Learning https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1174/reports/2762090.pdf 이번 게시글은 논문이 아닌 스탠포드의 자연어처리 기술, 딥러닝 강의인 cs224n의 2017년 spring에 프로젝트에서 1위를 차지한 학생들의 레포트이다. 레포트의 내용은 atari라는 게임에 강화학습, 자연어처리 기술을 활용하여 언어를 활용해 게임을 학습시켰다. 개인적으로 자연어처리를 활용하여 강화학습을 한다는 부분에 재미를 느껴 읽었으며 가볍게 읽기 좋은 수준이었다. Introduction 학습의 3가지 종류 지도학습(Supervised Learning) training data set 에 Label(anwer,action)이 주어진 상태 학습 학습데이터를.. 2020. 4. 13.

[논문 리뷰] XLNet : Generalized Autoregressive Pretrainingfor Language Understanding 이번 논문은 구글 AI팀에서 발표한 논문으로 2019년 6월 발표 당시 20개 자연어 처리 부분 최고 성능을 기록한 논문이다. 19년 1월 나온 TRANSFORMER-XL: ATTENTIVE LANGUAGE MODELS BEYOND A FIXED-LENGTH CONTEXT 후속버젼의 논문으로 저자들 또한 완벽히 일치한다. 본 논문은 당시 최고 성능을 자랑하던 BERT보다 20개의 nlp task에서 더 좋은 성능을 보였으며 그중 18개 task에서 SOTA를 달성하였으며 기존 language model들이 갖고 있던 Autoregressive 한 특성을 유지, 다양한 context의 방향에서 학습한 모델을 구현하였다. 1. Introduction Pretraining method를 크게 2가지로 본다면 .. 2020. 2. 26.

이전 1 2 다음

티스토리툴바