반응형
확률의 기초
- 확률
- 어떠한 사건이 발생할 수 있는 가능성을 수치로 나타낸 것
확률변수
- 확률변수(random variable)
- 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현한 값
- ex) 두 개의 동전을 던질 때
- $\Omega $= { HH, HT,TH,TT }
- P(X=사건)=확률
- 표본공간(samplespace)
- 어떤 시행에서 일어날 수 있는 모든 결과들의 집합
- ex) 두 동전이 모두 앞면이 나오는 확률
- $P(X=HH) = P(X=2)= {1 \over 4 }$
확률 변수와 확률 분포
- 이산 확률 변수(discrete random variables)
- 확률 변수 X가 취할 수 있는 값들이 이산적으로 셀 수 있는 경우
- 확률 분포(probability distribution)
- 확률 변수가 특정한 값을 가질 확률을 나타내는 함수
- 이산 확률 분포(discrete probability distribution)
- 확률 변수가 이산 확률 변수인 경우
- 연속 확률 변수(continuous random variable)
- 확률 변수 X가 취할 수 있는 값들이 어떤 범위로 주어지는 경우
- 연속 확률 분포(continuous probability distribution)
- 확률 변수가 연속 확률 변수인 경우
- 확률 밀도 함수(probability density function)
- x에서의 확률이 아니라 상대적인 밀도를 나타내는 것
조건부 확률(conditional probability)
- 조건부 확률
- 어떤 사상 A가 일어났다고 가정한 상태에서 사상 B가 일어날 확률
- $P(B|A) = {P(A \cap B) \over P(A) } $
- 어떤 사상 A가 일어났다고 가정한 상태에서 사상 B가 일어날 확률
- 사건이 3개 이상인 경우
- $ P(A \cap B \cap C) = P(A)P(B|A)P(C|C|A \cap B) $
- $ P(A_1 \cap ... \cap A_n ) = P(A_1 ) P(A_2 | A_1 ) ... P(A_n | A_1 \cap A_2 \cap ... \cap A_{n-1} ) $
- 이러한 사상들의 표현을 연괘규칙(cain rule)이라 부른다.
기댓값과 분산
- 기댓값
- 일종의 평균
- 각 확률변수가 특정 값을 가질 확률들을 가중치로 확률변수의 결과 값을 평균 낸 값
- 이산 확률 변수의 기댓값
- $ E(X) = \Sigma_x xp(x) $
- 연속 확률 변수의 기댓값
- $ E(X) = \int_{-\infty} ^{+\infty} xf(x)dx $
- 분산(variance)
- 확률 분포에서 확률 변수들의 퍼져있는 정도
- 편차 제곱의 평균
- $Var(X) = E[(X-E(X))^2]
- 제곱의 평균-평균의 제곱
- $Var(X) = E(X^2) - E^2(X) $
- 편차 제곱의 평균
- 확률 분포에서 확률 변수들의 퍼져있는 정도
- 편차
- 각각의 값이 그 평균값에서 얼마나 떨어져 있는지
- 표준편차(standard deviation)
- 분산의 제곱근
- 평균 - $\mu$
- 분산 - $\sigma^2 $
- 표준편차 - $ \sigma $
이항분포, 다항분포, 정규분포
- 이항분포(binomial distribution)
- 확률이 p인 베르누이 실행을 n번 반복시행할 때 출현 횟수를 나타내는 확률변수 X의 분포
- 이항분포의 확률 질량 함수식
- $ f(\theta; n, p) = {}_n\mathrm{C}_{k} P^k (1-p)^{n-k} , {}_n\mathrm{C}_{k} = {n! \over k!(n-k!) } $
- 이항분포의 표현, 평균, 분산
- $ B(n, p) $, $np $ , $np(1-p) $
- 다항분포(Mulinomial Distribution)
- 이항분포의 일반화
- 다항분포의 확률 질량 함수
- $ F(x_1 , ..., x_k ; n, p_1 , ..., p_k ) = {n! \over x_1!, ..., x_k !} p_1 ^{x_1} ... p_k ^{x_k} $
- 평균 - $ E(x_i) = np_i $
- 분산 - $ Var(x_i) = np_i(1-p_i) $
- $ F(x_1 , ..., x_k ; n, p_1 , ..., p_k ) = {n! \over x_1!, ..., x_k !} p_1 ^{x_1} ... p_k ^{x_k} $
- 정규분포(Normal Distriution) - 가우시안 분포(Gaussiandistribution)
- 연속 확률 분포중의 하나
- $ f(x;\mu, \sigma ) = {1 \over \sigma \sqrt{2 \pi} }e ^{- {(x-\mu)^2 \over 2\sigma^2}} $
- 평균 - $\mu$
- 분산 - $\sigma^2 $
- Maximum Likelibood Estimation(MLE)
- Maximum a Posteriori Estimation(MAP)
# 본 게시글은 자연어처리 바이블을 읽고 게시하였습니다 #
반응형
'----------책---------- > 자연어처리 바이블' 카테고리의 다른 글
6장 구문 분석 (0) | 2020.10.19 |
---|---|
5장 어휘 분석 (0) | 2020.10.19 |
4장 텍스트의 전처리 (0) | 2020.10.15 |
3장 언어학의 기본 원리 (0) | 2020.10.15 |
1장 자연어처리의 기본 (0) | 2020.09.10 |
댓글