본문 바로가기
반응형
CHAPTER 7 RNN을 사용한 문장생성 Language모델의 문장 생성 순서 확률이 가장 높은 단어 선택 결과 일정 확률적 선택 각 후보 단어의 확률에 맞게 선택 샘플링 되는 단어 매번 바뀜 확률분포 출력, 샘플링을 반복 import numpy as np def softmax(x): if x.ndim == 2: x = x - x.max(axis=1, keepdims=True) x = np.exp(x) x /= x.sum(axis=1, keepdims=True) elif x.ndim == 1: x = x - np.max(x) x = np.exp(x) / np.sum(np.exp(x)) return x class BaseModel: def __init__(self): self.params, self.grads = None, None def for.. 2020. 3. 9.
CHAPTER 6 게이트가 추가된 RNN 5장 RNN에서의 문제점 - 시계열 데이터의 장기 의존 관계 학습 어려움(원인 : BPTT에서의 vanishing gradient , exploding gradient ) RNN - 시계열 데이터 $x_t$ 입력시 $h_t$(은닉 상태) 출력 기울기(gradient) 학습해야 할 의미가 있는 정보 과거로 전달, 장기 의존 관계 학습 중간에 정보가 사라지면 가중치 매개변수의 갱신 불가 기울기 소실( vanishing gradient ), 기울기 폭발( exploding gradient )의 원인 기울기 소실 - 기울기가 빠르게 작아지며 일정 수준 이하로 작아지면 가중치 매개변수가 갱신되지 않는 문제 기울기 폭발 - 오버플로를 유발하여 NaN(Not a Number) 유발 해결 방법 기울기 클리핑(gradi.. 2020. 2. 27.
CHAPTER 5 순환 신경망(RNN) 4장까지의 신경망 - feed forward(흐름이 단방향인 신경망) 구성 단순 이해 쉬움 응용 쉬움 시계열 데이터를 잘 다루지 못함 순환 신경망(Recurrent Neural Network)(RNN) 순환하는 경로(닫힌 경로) 순환 경로를 따라 데이터 순환 과거의 정보를 기억 및 최신 데이터로 갱신 가능(시계열 데이터에 적합) $x_{t}$ - 각 시간에 입력되는 벡터( t : 시각 ) 입력 값 - $x_{0}, x_{1},x_{2}, ..., x_{t}, ...)$ 출력 값 - 입력에 대응하여 $(h_{0}, h_{1}, ..., h_{t}, ...) $ 각 시각의 RNN계층은 그 계층으로부터의 입력, 1개 전의 RNN계층으로부터의 출력을 입력받음 -> 두 정보를 바탕으로 현 시각의 출력을 계산 계산.. 2020. 2. 18.
CHAPTER 4 word2vec 속도 개선 3장에서의 word2vec 문제점 input layer의 one-hot 표현과 가중치 행렬 $W_{in}$의 곱 계산 어휘 수가 많아지면 one-hot vector의 size도 커짐(상당한 memory차지) hidden layer의 가중치 행렬 $W_{out} $의 곱 Softmax layer 계산 위 2개의 계산이 병목되며 많은 계산시간이 소요하는 문제 발생 #해결방법 -> Embedding Layer -> Negative Sampling(loss function) Embedding Layer 가중치 parameter로부터 '단어 ID에 해당하는 vector'를 추출하는 layer 기존 one-hot encoder와 matmul계층의 행렬 곱 계산(행렬의 특정 행 추출) 대신 사용 Embedding l.. 2020. 2. 6.
CHAPTER 3 word2vec 3.1 추론 기반 기법과 신경망 단어를 벡터로 표현하는 방법 통계 기반 기법 추론 기반 방법 3.1.1 통계 기반 기법의 문제점 통계 기반 기법 - 학습 데이터를 한번에 처리(배치 학습) 추론 기반 기법 - 학습 데이터의 일부를 사용하여 순차적으로 학습(미니배치 학습) 3.1.3 신경망에서의 단어 처리 신경망에서 단어를 사용하기 위해 고정 길이의 벡터로 변환 one-hot 벡터 - 벡터의 원소 중 하나만 1, 나머지는 모두 0인 벡테 3.2 단순한 word2vec CBOW(continuous bag-of-words) 모델의 추론 처리 CBOW - context(주변 단어)로부터 Target(중앙 단어)을 추측하는 용도의 신경망 다중 클래스 분류 신경망 맥락에 포함시킬 단어가 N개일 경우 입력층도 N개 완.. 2020. 2. 3.
CHAPTER2 - 자연어와 단어의 분산 표현 2.1 자연어 처리(NLP - Natural Language Processing) - 자연어(natural language) : 인간의 언어 - 자연어 처리 - '자연어를 처리하는 분야 - '인간의 말을 컴퓨터에게 인해시키기 위한 기술(분야)' 2.1.1 단어의 의미 - 단어 : 의미의 최소 단위 2.2 시소러스 - 유의어 사전 - 사람이 직접 단어의 의미를 정의하는 방식 - 뜻이 같은 단어(동의어)나 뜻이 비슷한 단어(유의어) 를 한 그룹으로 분류한 사전 ex) car = auto / automobile / machine / motorcar - 모든 단어에 대한 유의어 집합을 이용하여 단어들의 관계를 그래프로 표현 및 단어 사이의 연결 정의 가능 -> 단어 사이의 연관성 학습 가능 문제점 - 사람의 수.. 2020. 1. 31.
반응형