본문 바로가기
반응형
CHAPTER 6 게이트가 추가된 RNN 5장 RNN에서의 문제점 - 시계열 데이터의 장기 의존 관계 학습 어려움(원인 : BPTT에서의 vanishing gradient , exploding gradient ) RNN - 시계열 데이터 $x_t$ 입력시 $h_t$(은닉 상태) 출력 기울기(gradient) 학습해야 할 의미가 있는 정보 과거로 전달, 장기 의존 관계 학습 중간에 정보가 사라지면 가중치 매개변수의 갱신 불가 기울기 소실( vanishing gradient ), 기울기 폭발( exploding gradient )의 원인 기울기 소실 - 기울기가 빠르게 작아지며 일정 수준 이하로 작아지면 가중치 매개변수가 갱신되지 않는 문제 기울기 폭발 - 오버플로를 유발하여 NaN(Not a Number) 유발 해결 방법 기울기 클리핑(gradi.. 2020. 2. 27.
CHAPTER 5 순환 신경망(RNN) 4장까지의 신경망 - feed forward(흐름이 단방향인 신경망) 구성 단순 이해 쉬움 응용 쉬움 시계열 데이터를 잘 다루지 못함 순환 신경망(Recurrent Neural Network)(RNN) 순환하는 경로(닫힌 경로) 순환 경로를 따라 데이터 순환 과거의 정보를 기억 및 최신 데이터로 갱신 가능(시계열 데이터에 적합) $x_{t}$ - 각 시간에 입력되는 벡터( t : 시각 ) 입력 값 - $x_{0}, x_{1},x_{2}, ..., x_{t}, ...)$ 출력 값 - 입력에 대응하여 $(h_{0}, h_{1}, ..., h_{t}, ...) $ 각 시각의 RNN계층은 그 계층으로부터의 입력, 1개 전의 RNN계층으로부터의 출력을 입력받음 -> 두 정보를 바탕으로 현 시각의 출력을 계산 계산.. 2020. 2. 18.
CHAPTER 4 word2vec 속도 개선 3장에서의 word2vec 문제점 input layer의 one-hot 표현과 가중치 행렬 $W_{in}$의 곱 계산 어휘 수가 많아지면 one-hot vector의 size도 커짐(상당한 memory차지) hidden layer의 가중치 행렬 $W_{out} $의 곱 Softmax layer 계산 위 2개의 계산이 병목되며 많은 계산시간이 소요하는 문제 발생 #해결방법 -> Embedding Layer -> Negative Sampling(loss function) Embedding Layer 가중치 parameter로부터 '단어 ID에 해당하는 vector'를 추출하는 layer 기존 one-hot encoder와 matmul계층의 행렬 곱 계산(행렬의 특정 행 추출) 대신 사용 Embedding l.. 2020. 2. 6.
CHAPTER 3 word2vec 3.1 추론 기반 기법과 신경망 단어를 벡터로 표현하는 방법 통계 기반 기법 추론 기반 방법 3.1.1 통계 기반 기법의 문제점 통계 기반 기법 - 학습 데이터를 한번에 처리(배치 학습) 추론 기반 기법 - 학습 데이터의 일부를 사용하여 순차적으로 학습(미니배치 학습) 3.1.3 신경망에서의 단어 처리 신경망에서 단어를 사용하기 위해 고정 길이의 벡터로 변환 one-hot 벡터 - 벡터의 원소 중 하나만 1, 나머지는 모두 0인 벡테 3.2 단순한 word2vec CBOW(continuous bag-of-words) 모델의 추론 처리 CBOW - context(주변 단어)로부터 Target(중앙 단어)을 추측하는 용도의 신경망 다중 클래스 분류 신경망 맥락에 포함시킬 단어가 N개일 경우 입력층도 N개 완.. 2020. 2. 3.
반응형