본문 바로가기
반응형
6장 구문 분석 구문 분석 - 자연어 문장에서 구성 요소들의 문법적 구조를 분석하는 기술 규칙 기반 구문 분석 인간이 직접 정의한 문법 규칙을 적용하여 구문 분석을 수행하는 접근 방식 통계 기반 구문 분석 확률적인 문법 규칙을 통계적으로 계산하여 이를 바탕으로 구문 분석을 수행하는 접근 방법 딥러닝 기반 구문 분석 인간이 구축한 구문 분석 데이터셋으로부터 딥러닝 모델을 학습하여 구문 분석을 수행하는 접근 방법 구문 문법 언어학에서 문법적 구성 요소들로부터 문장 생성, 문장의 구성요소 분석하는 문법 자연어 문장의 문법적 구조를 구문 분법에 따라 자동으로 분석하고자 하는 목표를 가진다. 구구조 문법 구성소 관계에 기반하여 문장 구조 분석 의존 문법 의존 관계에 기반하여 문장 구조 분석 # 본 게시글은 자연어처리 바이블을 읽.. 2020. 10. 19.
5장 어휘 분석 어휘 분석 단어의 구조를 식별하고 분석함으로써 어휘의 의미와 품사에 관한 단어 수준의 연구 형태소 분석 형태소 - 더 이상 분해될 수 없는 최소한의 의미를 갖는 단위 최소한의 의미를 갖는 단위인 형태소를 사용해 단어가 어떻게 형성되는지에 대해 자연어의 제약 조건과 문법 규칙에 맞춰 분석하는 것 형태소 분석 절차 단어에서 최소 의미를 포함하는 형태소 분리 형태론적 변형이 일어난 형태소의 원형 찾기 단어와 사전들 사이의 결합 조건에 따라 옳은 분석 후보 선택 품사 태깅 품사 - 단어의 기능, 형태, 의미에 따라 나눈 것 태깅 - 같은 단어에 대해 의미가 다를 경우(중의성) 부가적인 언어의 정보를 부착하는 것 품사 태깅 - 문서 또는 문장을 이루고 이쓴 각 단어에 정확한 하나의 품사를 부여하는 것 # 본 게시.. 2020. 10. 19.
4장 텍스트의 전처리 정형 데이터, 비정형 데이터 정형 데이터 - 일정한 규격이나 형태를 지닌 숫자 데이터 ex) 숫자, 날짜 등 비정형 데이터 - 숫자 등의 비정형 데이터와 달리 구조화 되지 않은 데이터 ex) 언어, 영상, 그림 등 띄어쓰기 교정 기법 규칙기반 어휘지식, 규칙, 오류 유형 등의 휴리스틱 규칙 이용 비교적 복잡, 구축관리 비용 ↑ 통계, 확률 기반 말뭉치로부터 자동 추출된 음절 n-gram저오 기반 기계적 계산 과정을 거쳐 오류 교정 구현, 구축관리 용이 정확도↑, 오류율↑ # 본 게시글은 자연어처리 바이블을 읽고 게시하였습니다 # 2020. 10. 15.
3장 언어학의 기본 원리 언어학의 기본원리 음절 - 언어를 말하고 들을 때, 하나의 덩어리로 여겨지는 가장 작은 발화의 단위 ex) 아,오,이,에 형태소 - 언어에서 의미를 가지는 최소 단위 명사, 동사, 형용사, 부사 ex) '나', '컴퓨터', 어절 - 한 개 이상의 형태소가 모여 구성된 단위 품사 - 문장 내에서 해당 단어가 수행하는 역할 구구조 - 문장을 구성하고 있는 요소들이 서로 끌어당겨 한 덩어리가 됨으로써 형성되는 일정한 구조 한국어는 문장 안에서 단어의 배열이 비교적 자유롭기 때문에 보통 쓰이지 않음 # 본 게시글은 자연어처리 바이블을 읽고 게시하였습니다 # 2020. 10. 15.
1장 자연어처리의 기본 자연어(Natural Language) 일상샐활에서 사용되는 언어 자연어처리(Natural Language Processing, NLP) 컴퓨터가 자연어를 이해하거나 생성할 수 있도록 하는 학문 분야 자연어 이해(Natural Language Understanding, NLU) 자연어를 입력으로 받아들여 목적에 맞게 내부적으로 처리해내는 과정 자연어 생성(Natural Language Generation, NLG) 자연어를 출력으로 처리 자연어처리의 어려움 언어의 중의성 맥락에 따라 해석의 여지가 달라질 수 있는 것 규칙의 예외 구절이나 문장 안에서 단어와 형태소가 구성되는 방법을 정리하고자 해도, 항상 예외가 존재 언어의 유연성과 확장성 문장의 수와 길이가 무한하다. 언어 모델링 처리의 불확실성 ↑ 자.. 2020. 9. 10.
[논문 리뷰] Beating Atari with Natural Language Guided Reinforcement Learning https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1174/reports/2762090.pdf 이번 게시글은 논문이 아닌 스탠포드의 자연어처리 기술, 딥러닝 강의인 cs224n의 2017년 spring에 프로젝트에서 1위를 차지한 학생들의 레포트이다. 레포트의 내용은 atari라는 게임에 강화학습, 자연어처리 기술을 활용하여 언어를 활용해 게임을 학습시켰다. 개인적으로 자연어처리를 활용하여 강화학습을 한다는 부분에 재미를 느껴 읽었으며 가볍게 읽기 좋은 수준이었다. Introduction 학습의 3가지 종류 지도학습(Supervised Learning) training data set 에 Label(anwer,action)이 주어진 상태 학습 학습데이터를.. 2020. 4. 13.
CHAPTER2 - 자연어와 단어의 분산 표현 2.1 자연어 처리(NLP - Natural Language Processing) - 자연어(natural language) : 인간의 언어 - 자연어 처리 - '자연어를 처리하는 분야 - '인간의 말을 컴퓨터에게 인해시키기 위한 기술(분야)' 2.1.1 단어의 의미 - 단어 : 의미의 최소 단위 2.2 시소러스 - 유의어 사전 - 사람이 직접 단어의 의미를 정의하는 방식 - 뜻이 같은 단어(동의어)나 뜻이 비슷한 단어(유의어) 를 한 그룹으로 분류한 사전 ex) car = auto / automobile / machine / motorcar - 모든 단어에 대한 유의어 집합을 이용하여 단어들의 관계를 그래프로 표현 및 단어 사이의 연결 정의 가능 -> 단어 사이의 연관성 학습 가능 문제점 - 사람의 수.. 2020. 1. 31.
CHAPTER 1 - 신경망 복습 1.1 수학과 파이썬 복습 1.1.1 벡터, 행렬 벡터 - 크기와 방향을 가짐, 일렬로 늘어선 집합으로 표현 가능(파이썬 - 1차 배열 취급 가능) 행렬 - 2차원 형태(사각형 형상) numpy를 사용한 배열 생성 변수명 = np.array([1,2,3]) #[1,2,3] 의 행렬 생성 변수명 = np.array([1,2,3],[4,5,6]) #[[1,2,3],[4,5,6]] 의 행렬 생성 변수명.shape # 행렬의 형태 출력 변수명.ndim # 행렬의 차원 출력 import numpy as np x = np.array([1,2,3]) x.shape x.ndim W = np.array([[1,2,3],[4,5,6]]) W.shape W.ndim 1.1.2 행렬의 원소별 연산 import numpy as.. 2020. 1. 13.
반응형