본문 바로가기
----------책----------/통계학 개론

4장 확률과 확률분포

by 탶선 2020. 5. 6.
반응형

추측통계학 - 표본에 내포되어 있는 정보를 이용하여 모집단에 대한 과학적인 추론을 하는 학문

ex)

  1. 표본평균으로 모평균에 대한 추론
  2. 표본표준편차로써 모표준편차에 대한 추론

확률은 역사적으로 도박으로부터 유래되었다.

 

 

확률(probability) - 똑같은 실험을 무수히 많이 반복할 때 어떤 일이 일어나는 비율, 즉 상대도수의 극한적인 개념

표본공간(sample space) - 통계적 실험에서 모든 가능한 실험결과들의 집합

사건(event) - 관심있는 실험결과들의 집합

 

확률의 고전적 정의 

  • 표본공간의 모든 원소가 일어날 가능성이 다 같은 경우에 사상 A의 확률
  • $ {사상 A에 속하는 원소의 개수 \over 표본공간의 전체 원소의 개수} $
  • 사상 A가 일어날 확률은 P(A)라고 표기

 

조합

  • 서로 다른 n개 중 비복원추출로 순서에 상관없이 r개를 뽑는 방법의 수를 n개 중 r개를 뽑는 조합의 수라 한다.
    • 비복원추출 - 추출된 것을 되돌려 넣지 않고 추출해 나가는 방법
    • 복원추출 - 추출된 것을 되돌려 넣고 추출하는 방법
  • $ \binom{n}{r} = \frac{n!}{r!(n-r)!} $로 표기
    • n! = n(n-1)(n-2) $ \cdots 2 \cdot 1 $ 이며 0! = 1

 

덧셈법칙 

  • 덧셈법칙 - $ P(A \cup B ) = P(A) + P(B) - P(A \cap B) $
    • A $ \cup $ B
      • A or B가 일어날 때 일어나는 사상
    • A $ \cap $ B
      • A, B 가 모두 일어났을 때 일어나는 사상
  • 배반 - 어떤 두 사상이 동시에 일어날 수 없는 경우
    • $ P(A \cup B) = P(A) + P(B) $

 

조건부확률

  • 사상 A가 주어졌을 때 B의 조건부확률 P(B|A)로 표기
  • P(B|A) = $ {P(A\cap B) \over P(A) } $

 

곱셈법칙

  • 조건부 확률의 계산법칙으로 확률의 곱셈법칙 유도 가능
  • $ P(A\cap B) = P(B|A) P(A) $

 

독립사상의 곱셈법칙

  • $ P(A \cap B) = P(A)P(B) $

 

여사상

  • A가 일어나지 않았을 때 일어나는 사상
  • $ A^c $로 피기
  • $P(A) + P(A^C) = 1 즉, P(A^C) = 1-P(A) $

 

베이즈 정리

  • 서로 배반인 사상 $A_1, A_2, A_3, \cdots, A_n $ 중 하나는 반드시 일어날 때, P(B) > 0이면, $ P( A_k | B) = P(B| A_k )$ $P(A_k) \over P(B|A_1)P(A_1)+P(B|A_2)P(A_2) + \cdots + P(B|A_n)P(A_n) $

 

이산확률변수

  • 확률변수 - 확률 공간에서 다른 가측 공간으로 가는 가측 함수 ex) 주사위를 던져서 나오는 눈의 수
  • 이산확률변수 - 확률변수가 취할 수 있는 모든 수 값들을 하나씩 셀 수 는 경우
  • 연속확률변수 - 확률변수가 취할 수 있는 모든 수 값들을 하나씩 셀 수 는 경우

확률분포 - 확률변수의 수값들에 확률을 대응시켜 주는 관계

ex) 주사위를 던질때 x가 나올 확률은 $ {1 \over 6} $, 1~6의 값을 취한다.

 

확률변수의 평균 : 해당 모집단의 평균

  • $ \mu = \Sigma_{모든 x} xP[X=x] $

X의 기대값 : 확률변수 X의 평균

  • E(X)로 표기

확률변수의 분산 : 확률변수 X와 확률변수의 평균 $\mu$의 차이의 제곱의 평균

  • Var(X) = $\sigma^2 = (X-\mu)^2 $  

 

 

확률변수의 분산, 표준편차

  • $\sigma^2 = Var(X) = E[(X-\mu)^2] = \Sigma_{모든 x}(x-\mu)^2 P[X=x] $
  • $\sigma = SD(X) = \sqrt{\sigma^2} $
  • 간편식 :
    • $ = \sigma^2 = \Sigma_{모든 x} x^2 P[X=x]-\mu^2 $

 

결합확률분포 

  • 두 개 이상의 확률변수가 동시에 취하는 여러 가지 값들에 확률을 대응시켜 주는 관계

주변확률분포

  • 두 확률변수의 결합분포로부터 얻어진 한 확률변수의 분포

 

 

공분산

  • 두 확률변수 X와 Y가 같이 변하는 정도의 측도
  • $(X-\mu_x)(Y-\mu_Y) $의 평균
  • $ Cov(X,Y) = E[(X-\mu_x)(Y-\mu_Y)] = \Sigma_{모든 x} \Sigma_{모든 Y} (x-\mu_x)(y-\mu_Y) []X=x,Y=y] $
    • 단, P[X=x,Y=y]는 X와 Y의 결합확률분포에서 X=x 그리고 Y=y인 확률을 나타낸다.
  • 공분산의 간편식 :
    • $Cov(X,Y) = E(XY) - \mu_x \mu_Y = \Sigma_{모든 x} \Sigma_{모든 y} xyP[X=x,Y=y]=\mu_x \mu_y $

 

상관계수 

  • 확률변수의 공분산은 각 확률변수가 취하는 값의 단위에 의존하는데 이러한 의존도를 없애는 방법으로 서로의 상관관계를 나타내는 방법

두 확률변수의 상관계수 :

  • $\rho = Corr(X,Y) = {Cov(X,Y) \over SD(X) SD(Y) } $

 

 

 

#본 게시글은 통계학 개론을 읽고 작성하였습니다. #

반응형

댓글