본문 바로가기
반응형
3. 한국어 전처리 지도 학습 기반 형태소 분석 언어 전문가들이 직접 형태소 경계나 품사 정보를 모델에 학습하는 방법 KoNLPy - 은전한닢, 꼬꼬마, 한나눔, Okt, 코모란 등 5개 오픈소스 형태소 분석기를 파이썬 환경에서 사용할 수 있도록 인터페이스를 통일한 한국어 자연어 처리 패키지 은전한닢 분석기 사용법 # 은전한닢 형태소 분석 결과 from konlpy.tag import Mecab tokenizer = Mecab() tokenizer.morphs("아버지가방에들어가신다") # ['아버지', '가', '방', '에', '들어가', '신다'] 은전한닢 품사 정보 확인 # 은전한닢 품사 정보 분석 결과 tokenizer.pos('아버지가방에들어가신다') # [('아버지', 'NNG'), ('가', 'JKS'), (.. 2021. 5. 20.
2. 벡터가 어떻게 의미를 가지게 되는가 임베딩 - 자연어를 컴퓨터가 처리할 수 있는 숫자들의 나열인 벡터로 바꾼 결과 자연어 의미를 임베딩으로 함축 가능한 이유 : 자연어의 통계적 패턴정보를 임베딩에 넣는 것 임베딩을 만들 때 쓰는 통계 정보 문장에 어떤 단어가 많이 쓰였는지 (bag of words 가정) TF-IDF 단어가 어떤 순서로 등장하는지 (언어 모델) ELMo, GPT 문장에 어떤 단어가 같이 나타났는지 (분포 가정) Word2Vec, 형태소 분석 특정 범위 내 동시 등장하는 이웃 단어 또는 문맥 집합의 분포 정보등을 활용 요약 임베딩에 자연어의 통계적 패턴 정보를 주면 자연어의 의미 함축 가능 백오브워즈 가정에서는 어떤 단어의 등장 여부 혹은 그 빈도 정보를 중시(단, 순서 정보 무시) 백오브워즈 가정의 대척점 : 언어 모델 언.. 2021. 1. 21.
1. 서론 1.1 임베딩이란 임베딩 - 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체 1.2 임베딩의 역할 단어/문장 간 관련도 계산 컴퓨터가 계산하기 좋도록 단어를 벡터로 변환하기 때문에 유사도 계산 가능 의미적/문법적 정보 함축 단어가 벡터로 표현되어 단어간의 덧셈/뺄셈을 통해 단어들 사이의 의미적, 문법적 관계 도출 가능 전이 학습 임베딩을 다른 딥러닝 모델의 입력값으로 쓰는 기법 1.3 임베딩 기법의 역사와 종류 통계기반 잠재 의미 분석(Latent Semantic Analysis) - 단어 사용 빈도 등 말뭉치의 통계량 정보가 들어있는 커다란 행렬(matrix)에 특이값 분해(Singular Value Decomposition)등 수학적 기법을 적용.. 2020. 10. 21.
반응형