본문 바로가기
----------책----------/통계학 개론

3장 자료의정리 2

by 탶선 2020. 4. 28.
반응형

중심위치의 측도

평균

  • 산술평균을 의미, 중심위치의 측도로서 사용( 양적 자료에만 사용)
  • $ 평균 = {x_1 + x_2 + ... + x_n \over n} $
  • 다른 대부분의 자료값보다 아주 크거나 작은 극단값이 있을 때, 극단값의 영향을 많이 받는다.

모평균 - 모집단의 평균

  • 주어진 자료가 모집단일 경우 평균을 $\mu$ 로 표기
  • $\mu = {1 \over N}(x_1 + x_2 + ... + x_n) = {1 \over N}\Sigma^N _{i=1} x_i$

표본평균 - 표본의 평균

  • $ \bar{x} $ 엑스바라고 읽음
  • $\bar{x} = {1 \over n}(x_1 + x_2 + ... + x_n) = {1 \over n}\Sigma^n _{i=1} x_i$

이상점 - 극단값의 통계적 용어

  • 평균은 이상점에 큰 영향을 받음
  • 중앙값에는 영향이 없음

중앙값 - 자료를 크기순으로 나열시 가운데 놓이는 값

 

중심위치의 측도

평균

  • 산술평균을 의미, 중심위치의 측도로서 사용( 양적 자료에만 사용)
  •  평균 =${x_1 + x_2 + ... + x_n \over n} $
  • 다른 대부분의 자료값보다 아주 크거나 작은 극단값이 있을 때, 극단값의 영향을 많이 받는다.

 

모평균 - 모집단의 평균

  • 주어진 자료가 모집단일 경우 평균을 $\mu$ 로 표기
  • $\mu = {1 \over N}(x_1 + x_2 + ... + x_n) = {1 \over N}\Sigma^N _{i=1} x_i$
  • 표본평균 - 표본의 평균
  • $ \bar{x} $ 엑스바라고 읽음
  • $\bar{x} = {1 \over n}(x_1 + x_2 + ... + x_n) = {1 \over n}\Sigma^n _{i=1} x_i$

 

이상점 - 극단값의 통계적 용어

  • 평균은 이상점에 큰 영향을 받음
  • 중앙값에는 영향이 없음
  • 중앙값 - 자료를 크기순으로 나열시 가운데 놓이는 값( 자료에 이상점 존재시 평균보다 중심위치의 측도로서 더 큰 의미

최빈값

최빈값 - 자료중 가장 자주 나오는 값

최빈도수 - 모든 자료가 동일하게 나타난 경우 몇 개의 계급으로 나누어 가장 도수가 높은 계급

 

산포도

산포도 - 자료가 평균과 같은 중심위치에서 얼마나 떨어져 있느냐를 측정한 측도

 

분산과 표준편차

  • 편차 - 자료값과 평균과의 평균차이 

 

편차들을 하나의 값으로 나타내는 방법

  • 분산 - 편차의 제곱의 합 (자료수 증가에 따라 무한정 커지기 때문에 산포의 측도 불가) 따라서 편차의 제곱의 합을 자료수로 나누어 사용
  • 모분산 - 자료가 모집단일 경우의 분산
    • $ \sigma^2 = {1 \over N} \Sigma^N _{i=1} (x_i - \mu)^2 $
  • 표본분산 - 자료가 표본일 경우의 분산
    • $s^2 = {1 \over n-1} \Sigma^n _{i=1} (x_i - \bar{x} )^2 $
    • 분산의 제곱근
      • n-1 : 모분산보다 자료수가 적기 때문에 값이 모분산보다 작아서 n-1사용
    • 모표준편차 - 자료가 모집단일 경우 모표준편차
      • $\sigma = \sqrt{{1\over N} \Sigma^N _{i=1} (x_i - \mu)^2} $
    • 자료가 표본일 경우 표본표준편차
      • $s= \sqrt{{1\over n-1} \Sigma^n _{i=1} (x_i - \bar{x})^2} $

 

다른 종류의 산포도

변동계수 

  • 두 종류의 산포를 비교함에 있어 두 종류의 자료값이 차이가 클 때 유용
  • $ v = s\sqrt{x} $

사분위범위

  • 범위 : 자료의 두 극단적인 값의 차이만을 나타냄
    • 두 극단점 이외의 자료들의 산포 측정 불가(단점)
  • 사분위범위 : 범위의 단점을 일부 보완
    • 제 3사분위수 - 제 1사분위수(사분위수 : 크기 순서에 따라 늘어 놓은 자료를 4등분하는 수)
    • 자료에 이상점 존재시 분산, 표준편차보다 영향 적음
    • 모집단 특성에 대한 추론이 어려움

 

상대적 위치의 측도

  • 백분위수 : 제 P백분위수는 자료값 중 p%가 그 값보다 작거나 같고 (100-P)%가 그 값보다 크거나 같게 하는 값
  • 사분위수 
  • z점수(z-score) : 어떤 특정한 자료값이 평균으로부터 표준편차의 몇 배만큼 떨어져 있는가 측정<z-점수의 평균 : 0>

 

체비셰프의 법칙(Chebyshev's Rule) : 자료 중 적어도 $(1- {1 \over k^2} ) * 100% $가 z점수의 절대값이 k보다 작다.

 

 

 

 

 

 

 

# 이 게시글은 영지문화사의 통계학 개론을 읽고 게시하였습니다. #

 

반응형

댓글