본문 바로가기
반응형
6장 구문 분석 구문 분석 - 자연어 문장에서 구성 요소들의 문법적 구조를 분석하는 기술 규칙 기반 구문 분석 인간이 직접 정의한 문법 규칙을 적용하여 구문 분석을 수행하는 접근 방식 통계 기반 구문 분석 확률적인 문법 규칙을 통계적으로 계산하여 이를 바탕으로 구문 분석을 수행하는 접근 방법 딥러닝 기반 구문 분석 인간이 구축한 구문 분석 데이터셋으로부터 딥러닝 모델을 학습하여 구문 분석을 수행하는 접근 방법 구문 문법 언어학에서 문법적 구성 요소들로부터 문장 생성, 문장의 구성요소 분석하는 문법 자연어 문장의 문법적 구조를 구문 분법에 따라 자동으로 분석하고자 하는 목표를 가진다. 구구조 문법 구성소 관계에 기반하여 문장 구조 분석 의존 문법 의존 관계에 기반하여 문장 구조 분석 # 본 게시글은 자연어처리 바이블을 읽.. 2020. 10. 19.
5장 어휘 분석 어휘 분석 단어의 구조를 식별하고 분석함으로써 어휘의 의미와 품사에 관한 단어 수준의 연구 형태소 분석 형태소 - 더 이상 분해될 수 없는 최소한의 의미를 갖는 단위 최소한의 의미를 갖는 단위인 형태소를 사용해 단어가 어떻게 형성되는지에 대해 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것 형태소 분석 절차 단어에서 최소 의미를 포함하는 형태소 분리 형태론적 변형이 일어난 형태소의 원형 찾기 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보 선택 품사 태깅 품사 - 단어의 기능, 형태, 의미에 따라 나눈 것 태깅 - 같은 단어에 대해 의미가 다를 경우(중의성) 부가적인 언어의 정보를 부착하는 것 품사 태깅 - 문서 또는 문장을 이루고 이쓴 각 단어에 정확한 하나의 품사를 부여하는 것 # 본 게시.. 2020. 10. 19.
4장 텍스트의 전처리 정형 데이터, 비정형 데이터 정형 데이터 - 일정한 규격이나 형태를 지닌 숫자 데이터 ex) 숫자, 날짜 등 비정형 데이터 - 숫자 등의 비정형 데이터와 달리 구조화 되지 않은 데이터 ex) 언어, 영상, 그림 등 띄어쓰기 교정 기법 규칙기반 어휘지식, 규칙, 오류 유형 등의 휴리스틱 규칙 이용 비교적 복잡, 구축관리 비용 ↑ 통계, 확률 기반 말뭉치로부터 자동 추출된 음절 n-gram저오 기반 기계적 계산 과정을 거쳐 오류 교정 구현, 구축관리 용이 정확도↑, 오류율↑ # 본 게시글은 자연어처리 바이블을 읽고 게시하였습니다 # 2020. 10. 15.
3장 언어학의 기본 원리 언어학의 기본원리 음절 - 언어를 말하고 들을 때, 하나의 덩어리로 여겨지는 가장 작은 발화의 단위 ex) 아,오,이,에 형태소 - 언어에서 의미를 가지는 최소 단위 명사, 동사, 형용사, 부사 ex) '나', '컴퓨터', 어절 - 한 개 이상의 형태소가 모여 구성된 단위 품사 - 문장 내에서 해당 단어가 수행하는 역할 구구조 - 문장을 구성하고 있는 요소들이 서로 끌어당겨 한 덩어리가 됨으로써 형성되는 일정한 구조 한국어는 문장 안에서 단어의 배열이 비교적 자유롭기 때문에 보통 쓰이지 않음 # 본 게시글은 자연어처리 바이블을 읽고 게시하였습니다 # 2020. 10. 15.
[논문 리뷰] SNS에서 단어 간 유사도 기반 단어의 쾌-불쾌 지수 측정 2013년에 발표된 논문으로 자연어처리를 사용하여 감성 분석을 수행하는 연구논문이다. 기존 긍정, 부정 두 가지로 분류하는 연구는 활발히 진행되어 있었지만 본 논문의 주제는 단어 간 유사도를 기반으로 신규 단어의 쾌-불쾌 지수를 추정하는 방법론을 제안하였다. 전처리 음소만 등장하는 문자열과 보통의 문자열을 각각 분리 ex) - 음소만 등장하는 문자열( ㅋㅋㅋ, ㅎㅎㅎ, ㅠㅠㅠ) 온라인상 사용되는 구어체의 일부 보정 ~당, ~욧, ~넷 ... -> ~다, ~요, ~네 형태소 분석, 문서별 문장 구분 불용어 제거 특수문자 제거 감성단어 사전 구축 명사,동사형용사 어근을 제외한 의미 없는 품사 제거 Feature Selection 단어간 연관성이 유사하다면 쾌-불쾌 지수 또한 유사할 것이라는 가설 가설검증 감.. 2020. 6. 3.
[논문 리뷰] Beating Atari with Natural Language Guided Reinforcement Learning https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1174/reports/2762090.pdf 이번 게시글은 논문이 아닌 스탠포드의 자연어처리 기술, 딥러닝 강의인 cs224n의 2017년 spring에 프로젝트에서 1위를 차지한 학생들의 레포트이다. 레포트의 내용은 atari라는 게임에 강화학습, 자연어처리 기술을 활용하여 언어를 활용해 게임을 학습시켰다. 개인적으로 자연어처리를 활용하여 강화학습을 한다는 부분에 재미를 느껴 읽었으며 가볍게 읽기 좋은 수준이었다. Introduction 학습의 3가지 종류 지도학습(Supervised Learning) training data set 에 Label(anwer,action)이 주어진 상태 학습 학습데이터를.. 2020. 4. 13.
CHAPTER 7 RNN을 사용한 문장생성 Language모델의 문장 생성 순서 확률이 가장 높은 단어 선택 결과 일정 확률적 선택 각 후보 단어의 확률에 맞게 선택 샘플링 되는 단어 매번 바뀜 확률분포 출력, 샘플링을 반복 import numpy as np def softmax(x): if x.ndim == 2: x = x - x.max(axis=1, keepdims=True) x = np.exp(x) x /= x.sum(axis=1, keepdims=True) elif x.ndim == 1: x = x - np.max(x) x = np.exp(x) / np.sum(np.exp(x)) return x class BaseModel: def __init__(self): self.params, self.grads = None, None def for.. 2020. 3. 9.
CHAPTER 6 게이트가 추가된 RNN 5장 RNN에서의 문제점 - 시계열 데이터의 장기 의존 관계 학습 어려움(원인 : BPTT에서의 vanishing gradient , exploding gradient ) RNN - 시계열 데이터 $x_t$ 입력시 $h_t$(은닉 상태) 출력 기울기(gradient) 학습해야 할 의미가 있는 정보 과거로 전달, 장기 의존 관계 학습 중간에 정보가 사라지면 가중치 매개변수의 갱신 불가 기울기 소실( vanishing gradient ), 기울기 폭발( exploding gradient )의 원인 기울기 소실 - 기울기가 빠르게 작아지며 일정 수준 이하로 작아지면 가중치 매개변수가 갱신되지 않는 문제 기울기 폭발 - 오버플로를 유발하여 NaN(Not a Number) 유발 해결 방법 기울기 클리핑(gradi.. 2020. 2. 27.
CHAPTER 5 순환 신경망(RNN) 4장까지의 신경망 - feed forward(흐름이 단방향인 신경망) 구성 단순 이해 쉬움 응용 쉬움 시계열 데이터를 잘 다루지 못함 순환 신경망(Recurrent Neural Network)(RNN) 순환하는 경로(닫힌 경로) 순환 경로를 따라 데이터 순환 과거의 정보를 기억 및 최신 데이터로 갱신 가능(시계열 데이터에 적합) $x_{t}$ - 각 시간에 입력되는 벡터( t : 시각 ) 입력 값 - $x_{0}, x_{1},x_{2}, ..., x_{t}, ...)$ 출력 값 - 입력에 대응하여 $(h_{0}, h_{1}, ..., h_{t}, ...) $ 각 시각의 RNN계층은 그 계층으로부터의 입력, 1개 전의 RNN계층으로부터의 출력을 입력받음 -> 두 정보를 바탕으로 현 시각의 출력을 계산 계산.. 2020. 2. 18.
CHAPTER 4 word2vec 속도 개선 3장에서의 word2vec 문제점 input layer의 one-hot 표현과 가중치 행렬 $W_{in}$의 곱 계산 어휘 수가 많아지면 one-hot vector의 size도 커짐(상당한 memory차지) hidden layer의 가중치 행렬 $W_{out} $의 곱 Softmax layer 계산 위 2개의 계산이 병목되며 많은 계산시간이 소요하는 문제 발생 #해결방법 -> Embedding Layer -> Negative Sampling(loss function) Embedding Layer 가중치 parameter로부터 '단어 ID에 해당하는 vector'를 추출하는 layer 기존 one-hot encoder와 matmul계층의 행렬 곱 계산(행렬의 특정 행 추출) 대신 사용 Embedding l.. 2020. 2. 6.
반응형