본문 바로가기
반응형
3. 한국어 전처리 지도 학습 기반 형태소 분석 언어 전문가들이 직접 형태소 경계나 품사 정보를 모델에 학습하는 방법 KoNLPy - 은전한닢, 꼬꼬마, 한나눔, Okt, 코모란 등 5개 오픈소스 형태소 분석기를 파이썬 환경에서 사용할 수 있도록 인터페이스를 통일한 한국어 자연어 처리 패키지 은전한닢 분석기 사용법 # 은전한닢 형태소 분석 결과 from konlpy.tag import Mecab tokenizer = Mecab() tokenizer.morphs("아버지가방에들어가신다") # ['아버지', '가', '방', '에', '들어가', '신다'] 은전한닢 품사 정보 확인 # 은전한닢 품사 정보 분석 결과 tokenizer.pos('아버지가방에들어가신다') # [('아버지', 'NNG'), ('가', 'JKS'), (.. 2021. 5. 20.
2. 벡터가 어떻게 의미를 가지게 되는가 임베딩 - 자연어를 컴퓨터가 처리할 수 있는 숫자들의 나열인 벡터로 바꾼 결과 자연어 의미를 임베딩으로 함축 가능한 이유 : 자연어의 통계적 패턴정보를 임베딩에 넣는 것 임베딩을 만들 때 쓰는 통계 정보 문장에 어떤 단어가 많이 쓰였는지 (bag of words 가정) TF-IDF 단어가 어떤 순서로 등장하는지 (언어 모델) ELMo, GPT 문장에 어떤 단어가 같이 나타났는지 (분포 가정) Word2Vec, 형태소 분석 특정 범위 내 동시 등장하는 이웃 단어 또는 문맥 집합의 분포 정보등을 활용 요약 임베딩에 자연어의 통계적 패턴 정보를 주면 자연어의 의미 함축 가능 백오브워즈 가정에서는 어떤 단어의 등장 여부 혹은 그 빈도 정보를 중시(단, 순서 정보 무시) 백오브워즈 가정의 대척점 : 언어 모델 언.. 2021. 1. 21.
1. 서론 1.1 임베딩이란 임베딩 - 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체 1.2 임베딩의 역할 단어/문장 간 관련도 계산 컴퓨터가 계산하기 좋도록 단어를 벡터로 변환하기 때문에 유사도 계산 가능 의미적/문법적 정보 함축 단어가 벡터로 표현되어 단어간의 덧셈/뺄셈을 통해 단어들 사이의 의미적, 문법적 관계 도출 가능 전이 학습 임베딩을 다른 딥러닝 모델의 입력값으로 쓰는 기법 1.3 임베딩 기법의 역사와 종류 통계기반 잠재 의미 분석(Latent Semantic Analysis) - 단어 사용 빈도 등 말뭉치의 통계량 정보가 들어있는 커다란 행렬(matrix)에 특이값 분해(Singular Value Decomposition)등 수학적 기법을 적용.. 2020. 10. 21.
7장 의미 분석 중의성 - 둘 이상의 의미를 가지는 표현 적절한 문맥정보와 함께 표현하지 않으면 의사 전달시 대상에게 혼동 가능성 존재 단어 중의성 해소 기법 단어 의미 중의성 해소 문장 내 중의성을 가지는 어휘를 사전 정의된 의미와 매칭하여 어휘적 중의성 해결 하는 문제 ex) 1. 점심을 먹고 나는 후식으로 밤을 먹었다. - 밤: 밤나무의 열매 ex) 2. 오늘 밤에는 비가 많이 올 예정이다. - 밤: 해가 져서 어두워져 다시 밝아지기 전까지의 동안 지도학습 기반 방법 단어의 의미가 labeling된 데이터를 이용하여 기계학습 모델에 학습, 단어의 의미 예측 의미역 분석 - 의미를 해석하기 위해 서술어가 수식하는 대상의 의미 관계 파악하고 역할 분류하는 것 필수적 의미역 - 서술어의 의미 구성시 필수적으로 요구되는 .. 2020. 10. 21.
6장 구문 분석 구문 분석 - 자연어 문장에서 구성 요소들의 문법적 구조를 분석하는 기술 규칙 기반 구문 분석 인간이 직접 정의한 문법 규칙을 적용하여 구문 분석을 수행하는 접근 방식 통계 기반 구문 분석 확률적인 문법 규칙을 통계적으로 계산하여 이를 바탕으로 구문 분석을 수행하는 접근 방법 딥러닝 기반 구문 분석 인간이 구축한 구문 분석 데이터셋으로부터 딥러닝 모델을 학습하여 구문 분석을 수행하는 접근 방법 구문 문법 언어학에서 문법적 구성 요소들로부터 문장 생성, 문장의 구성요소 분석하는 문법 자연어 문장의 문법적 구조를 구문 분법에 따라 자동으로 분석하고자 하는 목표를 가진다. 구구조 문법 구성소 관계에 기반하여 문장 구조 분석 의존 문법 의존 관계에 기반하여 문장 구조 분석 # 본 게시글은 자연어처리 바이블을 읽.. 2020. 10. 19.
5장 어휘 분석 어휘 분석 단어의 구조를 식별하고 분석함으로써 어휘의 의미와 품사에 관한 단어 수준의 연구 형태소 분석 형태소 - 더 이상 분해될 수 없는 최소한의 의미를 갖는 단위 최소한의 의미를 갖는 단위인 형태소를 사용해 단어가 어떻게 형성되는지에 대해 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것 형태소 분석 절차 단어에서 최소 의미를 포함하는 형태소 분리 형태론적 변형이 일어난 형태소의 원형 찾기 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보 선택 품사 태깅 품사 - 단어의 기능, 형태, 의미에 따라 나눈 것 태깅 - 같은 단어에 대해 의미가 다를 경우(중의성) 부가적인 언어의 정보를 부착하는 것 품사 태깅 - 문서 또는 문장을 이루고 이쓴 각 단어에 정확한 하나의 품사를 부여하는 것 # 본 게시.. 2020. 10. 19.
4장 텍스트의 전처리 정형 데이터, 비정형 데이터 정형 데이터 - 일정한 규격이나 형태를 지닌 숫자 데이터 ex) 숫자, 날짜 등 비정형 데이터 - 숫자 등의 비정형 데이터와 달리 구조화 되지 않은 데이터 ex) 언어, 영상, 그림 등 띄어쓰기 교정 기법 규칙기반 어휘지식, 규칙, 오류 유형 등의 휴리스틱 규칙 이용 비교적 복잡, 구축관리 비용 ↑ 통계, 확률 기반 말뭉치로부터 자동 추출된 음절 n-gram저오 기반 기계적 계산 과정을 거쳐 오류 교정 구현, 구축관리 용이 정확도↑, 오류율↑ # 본 게시글은 자연어처리 바이블을 읽고 게시하였습니다 # 2020. 10. 15.
3장 언어학의 기본 원리 언어학의 기본원리 음절 - 언어를 말하고 들을 때, 하나의 덩어리로 여겨지는 가장 작은 발화의 단위 ex) 아,오,이,에 형태소 - 언어에서 의미를 가지는 최소 단위 명사, 동사, 형용사, 부사 ex) '나', '컴퓨터', 어절 - 한 개 이상의 형태소가 모여 구성된 단위 품사 - 문장 내에서 해당 단어가 수행하는 역할 구구조 - 문장을 구성하고 있는 요소들이 서로 끌어당겨 한 덩어리가 됨으로써 형성되는 일정한 구조 한국어는 문장 안에서 단어의 배열이 비교적 자유롭기 때문에 보통 쓰이지 않음 # 본 게시글은 자연어처리 바이블을 읽고 게시하였습니다 # 2020. 10. 15.
2장 자연어처리를 위한 수학 확률의 기초 확률 어떠한 사건이 발생할 수 있는 가능성을 수치로 나타낸 것 확률변수 확률변수(random variable) 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현한 값 ex) 두 개의 동전을 던질 때 $\Omega $= { HH, HT,TH,TT } P(X=사건)=확률 표본공간(samplespace) 어떤 시행에서 일어날 수 있는 모든 결과들의 집합 ex) 두 동전이 모두 앞면이 나오는 확률 $P(X=HH) = P(X=2)= {1 \over 4 }$ 확률 변수와 확률 분포 이산 확률 변수(discrete random variables) 확률 변수 X가 취할 수 있는 값들이 이산적으로 셀 수 있는 경우 확률 분포(probability distribution) 확률 변수가 특정한 값을 가질 .. 2020. 9. 13.
1장 자연어처리의 기본 자연어(Natural Language) 일상샐활에서 사용되는 언어 자연어처리(Natural Language Processing, NLP) 컴퓨터가 자연어를 이해하거나 생성할 수 있도록 하는 학문 분야 자연어 이해(Natural Language Understanding, NLU) 자연어를 입력으로 받아들여 목적에 맞게 내부적으로 처리해내는 과정 자연어 생성(Natural Language Generation, NLG) 자연어를 출력으로 처리 자연어처리의 어려움 언어의 중의성 맥락에 따라 해석의 여지가 달라질 수 있는 것 규칙의 예외 구절이나 문장 안에서 단어와 형태소가 구성되는 방법을 정리하고자 해도, 항상 예외가 존재 언어의 유연성과 확장성 문장의 수와 길이가 무한하다. 언어 모델링 처리의 불확실성 ↑ 자.. 2020. 9. 10.
반응형