본문 바로가기
반응형

전체 글210

3장 언어학의 기본 원리 언어학의 기본원리 음절 - 언어를 말하고 들을 때, 하나의 덩어리로 여겨지는 가장 작은 발화의 단위 ex) 아,오,이,에 형태소 - 언어에서 의미를 가지는 최소 단위 명사, 동사, 형용사, 부사 ex) '나', '컴퓨터', 어절 - 한 개 이상의 형태소가 모여 구성된 단위 품사 - 문장 내에서 해당 단어가 수행하는 역할 구구조 - 문장을 구성하고 있는 요소들이 서로 끌어당겨 한 덩어리가 됨으로써 형성되는 일정한 구조 한국어는 문장 안에서 단어의 배열이 비교적 자유롭기 때문에 보통 쓰이지 않음 # 본 게시글은 자연어처리 바이블을 읽고 게시하였습니다 # 2020. 10. 15.
Chapter 5 서포트 벡터 머신(svm) 서포트 벡터 머신(Support Vector Machine) 선형, 비선형 분류, 회귀, 이상치 탐색에도 사용가능한 다목적 머신러닝 모델 분류를 위한 기준 선을 정의하는 모델 3개의 선형 분류기에서 만들어진 결정 경계 실선 : svm분류기의 결정 경계, 제일 가까운 훈련 샘플로부터 가능한 멀리 떨어진 선 $b_{11} , b_{12}$ 사이의 거리를 마진(margin) svm은 마진을 최대화 하는 분류 경계면을 찾는 기법 소프트 마진 분류 하드 마진 분류 모든 샘플이 올바르게 분류 문제점 : 데이터가 선형적으로 구분 가능해야 한다 이상치에 민감 서포트 벡터와 결정 경계 사이가 매우 좁아 마진이 매우 작다 overfitting 문제 발생 위험성 소프트 마진 분류 제일 가까운 훈련 샘플로부터 가장 멀리 떨어.. 2020. 9. 18.
Chapter4 모델 훈련 선형회귀 일반적으로 선형 모델은 입력 특성의 가중치 합과 편향을 더해 예측한다 선형 회귀 모델 예측 식 $\hat y = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + ... + \theta_n x_n $ $\hat y $ : 예측값 n : 특성 수 $x_i : i번째 특성값 $ $\theta_j : j번째 파라미터 $ 선형 회귀 모델의 벡터형태 예측식 $ \hat y = h_\theta (x) = \theta^T \cdot x $ 모델 훈련 모델이 훈련 세트에 가장 잘 맞도록 모델 파라미터를 설정하는 것 정규방정식(normal equation) 비용 함수를 최소화하는 $\theta$ 값을 찾기 위한 해석적인 방법 바로 결과를 얻을 수 있는 수학공식 $ \hat \theta =.. 2020. 9. 17.
넘파이 벡터 연산 n벡터 연산 합 연산(+) # list 합 a = [1, 2] b = [1, 2] print (a + b) #결과: [1, 2, 1, 2] # numpy 활용 벡터 합 import numpy as np a = np.array([1, 2]) b = np.array([1, 2]) print (a + b) #결과: array([2, 4]) 곱 연산(x) #list 곱 lista = [1,2,3,4,5] scalar_multiply = list(map(lambda x: x*2,lista)) print(scalar_multiply) #결과 : [2,4,6,8,10] #numpy 활용 곱 lista = np.array([1,2,3,4,5]) lista * 2 print(lista * 2) #결과 : array([2.. 2020. 9. 17.
선형대수 함수(Linear Algebra) 단위행렬 (Unit matrix): np.eye(n) 대각행렬 (Diagonal matrix): np.diag(x) 내적 (Dot product, Inner product): np.dot(a, b) 대각합 (Trace): np.trace(x) 행렬식 (Matrix Determinant): np.linalg.det(x) 역행렬 (Inverse of a matrix): np.linalg.inv(x) 의사 역행렬 (pseudo inverse): np.linalg.pinv(x) 고유값 (Eigenvalue), 고유벡터 (Eigenvector): w, v = np.linalg.eig(x) 특이값 분해 (Singular Value Decomposition): u, s, vh = np.linalg.svd(A) 연립방.. 2020. 9. 17.
2장 자연어처리를 위한 수학 확률의 기초 확률 어떠한 사건이 발생할 수 있는 가능성을 수치로 나타낸 것 확률변수 확률변수(random variable) 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현한 값 ex) 두 개의 동전을 던질 때 $\Omega $= { HH, HT,TH,TT } P(X=사건)=확률 표본공간(samplespace) 어떤 시행에서 일어날 수 있는 모든 결과들의 집합 ex) 두 동전이 모두 앞면이 나오는 확률 $P(X=HH) = P(X=2)= {1 \over 4 }$ 확률 변수와 확률 분포 이산 확률 변수(discrete random variables) 확률 변수 X가 취할 수 있는 값들이 이산적으로 셀 수 있는 경우 확률 분포(probability distribution) 확률 변수가 특정한 값을 가질 .. 2020. 9. 13.
1장 자연어처리의 기본 자연어(Natural Language) 일상샐활에서 사용되는 언어 자연어처리(Natural Language Processing, NLP) 컴퓨터가 자연어를 이해하거나 생성할 수 있도록 하는 학문 분야 자연어 이해(Natural Language Understanding, NLU) 자연어를 입력으로 받아들여 목적에 맞게 내부적으로 처리해내는 과정 자연어 생성(Natural Language Generation, NLG) 자연어를 출력으로 처리 자연어처리의 어려움 언어의 중의성 맥락에 따라 해석의 여지가 달라질 수 있는 것 규칙의 예외 구절이나 문장 안에서 단어와 형태소가 구성되는 방법을 정리하고자 해도, 항상 예외가 존재 언어의 유연성과 확장성 문장의 수와 길이가 무한하다. 언어 모델링 처리의 불확실성 ↑ 자.. 2020. 9. 10.
반응형