본문 바로가기
반응형
7장 의미 분석 중의성 - 둘 이상의 의미를 가지는 표현 적절한 문맥정보와 함께 표현하지 않으면 의사 전달시 대상에게 혼동 가능성 존재 단어 중의성 해소 기법 단어 의미 중의성 해소 문장 내 중의성을 가지는 어휘를 사전 정의된 의미와 매칭하여 어휘적 중의성 해결 하는 문제 ex) 1. 점심을 먹고 나는 후식으로 밤을 먹었다. - 밤: 밤나무의 열매 ex) 2. 오늘 밤에는 비가 많이 올 예정이다. - 밤: 해가 져서 어두워져 다시 밝아지기 전까지의 동안 지도학습 기반 방법 단어의 의미가 labeling된 데이터를 이용하여 기계학습 모델에 학습, 단어의 의미 예측 의미역 분석 - 의미를 해석하기 위해 서술어가 수식하는 대상의 의미 관계 파악하고 역할 분류하는 것 필수적 의미역 - 서술어의 의미 구성시 필수적으로 요구되는 .. 2020. 10. 21.
6장 구문 분석 구문 분석 - 자연어 문장에서 구성 요소들의 문법적 구조를 분석하는 기술 규칙 기반 구문 분석 인간이 직접 정의한 문법 규칙을 적용하여 구문 분석을 수행하는 접근 방식 통계 기반 구문 분석 확률적인 문법 규칙을 통계적으로 계산하여 이를 바탕으로 구문 분석을 수행하는 접근 방법 딥러닝 기반 구문 분석 인간이 구축한 구문 분석 데이터셋으로부터 딥러닝 모델을 학습하여 구문 분석을 수행하는 접근 방법 구문 문법 언어학에서 문법적 구성 요소들로부터 문장 생성, 문장의 구성요소 분석하는 문법 자연어 문장의 문법적 구조를 구문 분법에 따라 자동으로 분석하고자 하는 목표를 가진다. 구구조 문법 구성소 관계에 기반하여 문장 구조 분석 의존 문법 의존 관계에 기반하여 문장 구조 분석 # 본 게시글은 자연어처리 바이블을 읽.. 2020. 10. 19.
5장 어휘 분석 어휘 분석 단어의 구조를 식별하고 분석함으로써 어휘의 의미와 품사에 관한 단어 수준의 연구 형태소 분석 형태소 - 더 이상 분해될 수 없는 최소한의 의미를 갖는 단위 최소한의 의미를 갖는 단위인 형태소를 사용해 단어가 어떻게 형성되는지에 대해 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것 형태소 분석 절차 단어에서 최소 의미를 포함하는 형태소 분리 형태론적 변형이 일어난 형태소의 원형 찾기 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보 선택 품사 태깅 품사 - 단어의 기능, 형태, 의미에 따라 나눈 것 태깅 - 같은 단어에 대해 의미가 다를 경우(중의성) 부가적인 언어의 정보를 부착하는 것 품사 태깅 - 문서 또는 문장을 이루고 이쓴 각 단어에 정확한 하나의 품사를 부여하는 것 # 본 게시.. 2020. 10. 19.
4장 텍스트의 전처리 정형 데이터, 비정형 데이터 정형 데이터 - 일정한 규격이나 형태를 지닌 숫자 데이터 ex) 숫자, 날짜 등 비정형 데이터 - 숫자 등의 비정형 데이터와 달리 구조화 되지 않은 데이터 ex) 언어, 영상, 그림 등 띄어쓰기 교정 기법 규칙기반 어휘지식, 규칙, 오류 유형 등의 휴리스틱 규칙 이용 비교적 복잡, 구축관리 비용 ↑ 통계, 확률 기반 말뭉치로부터 자동 추출된 음절 n-gram저오 기반 기계적 계산 과정을 거쳐 오류 교정 구현, 구축관리 용이 정확도↑, 오류율↑ # 본 게시글은 자연어처리 바이블을 읽고 게시하였습니다 # 2020. 10. 15.
3장 언어학의 기본 원리 언어학의 기본원리 음절 - 언어를 말하고 들을 때, 하나의 덩어리로 여겨지는 가장 작은 발화의 단위 ex) 아,오,이,에 형태소 - 언어에서 의미를 가지는 최소 단위 명사, 동사, 형용사, 부사 ex) '나', '컴퓨터', 어절 - 한 개 이상의 형태소가 모여 구성된 단위 품사 - 문장 내에서 해당 단어가 수행하는 역할 구구조 - 문장을 구성하고 있는 요소들이 서로 끌어당겨 한 덩어리가 됨으로써 형성되는 일정한 구조 한국어는 문장 안에서 단어의 배열이 비교적 자유롭기 때문에 보통 쓰이지 않음 # 본 게시글은 자연어처리 바이블을 읽고 게시하였습니다 # 2020. 10. 15.
2장 자연어처리를 위한 수학 확률의 기초 확률 어떠한 사건이 발생할 수 있는 가능성을 수치로 나타낸 것 확률변수 확률변수(random variable) 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현한 값 ex) 두 개의 동전을 던질 때 $\Omega $= { HH, HT,TH,TT } P(X=사건)=확률 표본공간(samplespace) 어떤 시행에서 일어날 수 있는 모든 결과들의 집합 ex) 두 동전이 모두 앞면이 나오는 확률 $P(X=HH) = P(X=2)= {1 \over 4 }$ 확률 변수와 확률 분포 이산 확률 변수(discrete random variables) 확률 변수 X가 취할 수 있는 값들이 이산적으로 셀 수 있는 경우 확률 분포(probability distribution) 확률 변수가 특정한 값을 가질 .. 2020. 9. 13.
1장 자연어처리의 기본 자연어(Natural Language) 일상샐활에서 사용되는 언어 자연어처리(Natural Language Processing, NLP) 컴퓨터가 자연어를 이해하거나 생성할 수 있도록 하는 학문 분야 자연어 이해(Natural Language Understanding, NLU) 자연어를 입력으로 받아들여 목적에 맞게 내부적으로 처리해내는 과정 자연어 생성(Natural Language Generation, NLG) 자연어를 출력으로 처리 자연어처리의 어려움 언어의 중의성 맥락에 따라 해석의 여지가 달라질 수 있는 것 규칙의 예외 구절이나 문장 안에서 단어와 형태소가 구성되는 방법을 정리하고자 해도, 항상 예외가 존재 언어의 유연성과 확장성 문장의 수와 길이가 무한하다. 언어 모델링 처리의 불확실성 ↑ 자.. 2020. 9. 10.
반응형