4장 텍스트의 전처리
정형 데이터, 비정형 데이터 정형 데이터 - 일정한 규격이나 형태를 지닌 숫자 데이터 ex) 숫자, 날짜 등 비정형 데이터 - 숫자 등의 비정형 데이터와 달리 구조화 되지 않은 데이터 ex) 언어, 영상, 그림 등 띄어쓰기 교정 기법 규칙기반 어휘지식, 규칙, 오류 유형 등의 휴리스틱 규칙 이용 비교적 복잡, 구축관리 비용 ↑ 통계, 확률 기반 말뭉치로부터 자동 추출된 음절 n-gram저오 기반 기계적 계산 과정을 거쳐 오류 교정 구현, 구축관리 용이 정확도↑, 오류율↑ # 본 게시글은 자연어처리 바이블을 읽고 게시하였습니다 #
2020. 10. 15.
CHAPTER 5 순환 신경망(RNN)
4장까지의 신경망 - feed forward(흐름이 단방향인 신경망) 구성 단순 이해 쉬움 응용 쉬움 시계열 데이터를 잘 다루지 못함 순환 신경망(Recurrent Neural Network)(RNN) 순환하는 경로(닫힌 경로) 순환 경로를 따라 데이터 순환 과거의 정보를 기억 및 최신 데이터로 갱신 가능(시계열 데이터에 적합) $x_{t}$ - 각 시간에 입력되는 벡터( t : 시각 ) 입력 값 - $x_{0}, x_{1},x_{2}, ..., x_{t}, ...)$ 출력 값 - 입력에 대응하여 $(h_{0}, h_{1}, ..., h_{t}, ...) $ 각 시각의 RNN계층은 그 계층으로부터의 입력, 1개 전의 RNN계층으로부터의 출력을 입력받음 -> 두 정보를 바탕으로 현 시각의 출력을 계산 계산..
2020. 2. 18.