표본분포

 

  • 통계적 추론
    • 표본 조사를 통해 모집단에 대한 해석을 진행
    • 전수조사는 실질적으로 불가능한 경우가 많다.
  • 표본 조사는 반드시 오차가 발생
    •  표본과 모집단과의 관계를 이해해야 한다.
    • 적절한 표본 추출 방법이 필요하다.
  • 표본 조사를 통해 파악하고자 하는 정보
    • 모수 (Parameter)
  • 모수의 종류
    • 모평균, 모분산, 모비율 등
    • 모수를 추정하기 위해 표본을 선택해 표본 평균이나 표본 분산 등 계산
  • 통계량 (statistic)
    • 표본 평균이나 표본 분산과 같은 표본의 특성값
    • 표본 평균이 가질 수 있는 값도 하나의 확률분포를 갖는다. => 표본분포 (sampling distribution)
  • 표본 평균
    • 모평균을 알아내는데 쓰이는 통계량
  • 표본 평균의 분포
    • x_1, x_2, ... , x_n
      • 평균 : μ, 분산 : σ^2
    • 표본평균
      • xbar = 1/n(n(sigma(x_i)i)
      • Xbar ~ N ( μ, σ^2/n )

중심극한정리(central limit theorem)

 

  • 정규모집단에서 추출된 표본의 측정값
  • 표본평균
    • xbar = 1/n(n(sigma(x_i)i))
    • n이 충분히 큰 경우 (n ≥ 30)
      • 근사적으로 Xbar ~ N (μ, σ^2/n ) => 근사적으로 정규분포를 따른다!

모평균의 추정

 

표본평균의 특성

 

  • 모집단이 정규분포인 경우
    • 표본평균 사용
    • xbar = 1/n(n(sigma(x_i)i))
  • 대표본인 경우 (N>=30)
    • 중심극한 정리에 의해 표본평균이 정규분포를 따른다 가정
  • 점추정
    • 표본평균이 점 추정값 (추정량)이 된다.
  • 구간추정
    • 모평균 μ의 100(1-a)% 신뢰구간 (confidnece interval)
      • (μ 추정량) ± z_(a/z)(추정량의 표준편차)
      • 정규분포에서 σ를 알 때, (xbar - z_(alpha/z)σ / root(n), xbar + z_(a/z)σ / root(n)) (알파는 0.? 이런 값들을 나타낼 때 주로 사용)
      • 실용적이지 못하다. 대부분의 경우는 정규분포가 아니거나 표준편차가 알려져 있지 않기 때문에...
    • 표본의 크기가 클 때 중심극한 정리 사용
      • (μ의 추정량) ± z_(alpha/z)(추정량의 표준편차)
      • (xbar - z_(a/2)s / root(n), xbar + z_(a/2)s / root(n))
    • ex) 어떤 학교의 고1 남학생의 평균키를 추정하기 위해 36명을 표본으로 추출하여 그 표본평균과 표본표준편차를 계산해 그 결과가 아래와 같다.
      • xbar = 173.6, s = 3.6
      • 평균키에 대한 95% 신뢰 구간을 구하시오.
        • a = 0.05
        • z_(a/2) = z_0.025 = 1.96
        • z_(a/2)s / root(n) = 1.96 x 3.6 / root(36) = 1.98 x 3.6 / 6 = 1.176
        • 95% 신뢰구간 = (173.6 - 1.176, 173.6 + 1.176) = (172.4, 174.8)

모비율의 추정

 

  • 점 추정
    • 확률변수 X 
      • n개의 표본에서 특정 속성을 갖는 표본의 개수
    • 모비율 p의 점추정량
      • phat = X / n
    • ex) 대학교 1학년생의 흡연율을 조사하기 위해 150명을 랜덤하게 선택하여 흡연여부를 조사했다. 이 중 48명이 흡연을 하고 있다. 이 대학교 1학년생의 흡연율의 평균을 점추정하시오.
      • n = 150, X = 48
      • phat = X / n = 48 / 150 = 0.32
  • 구간 추정
    • n이 충분히 클 때
      • nphat > 5, n(1-phat) > 5일 때를 의미
      • X~N(np, np(1-p))
    • 확률변수 X의 표준화
      • Z = X - np / root(nphat(1-phat)) = phat - p / root(phat(1-phat)/n)
      • 근사적으로 표준정규분포 N(0, 1)를 따름
    • P(|Z| ≤ z_(a/z) = 1- alpha
      • P(-z_(alpha/2) ≤ Z ≤ z_(alpha/2)) = P(-z_(alpha/2) ≤ phat-p/root(phat(1-phat)/n) = 1 - alpha
    • 모비율 p의 100(1 - alpha)% 신뢰구간 (confidence interval)
      • (phat - z_(a/2)root(phat(1-phat)/n, phat + z_(a/2)root(phat(1-phat)n))
    • ex) 대학교 1학년생의 흡연율을 조사하기 위해 150명을 랜덤하게 선택하여 흡연여부를 조사하였다. 이 중 48명이 흡연을 하고 있었다. 이 때, 흡연율 p의 95% 신뢰구간 (confidence interval)을 구하시오.
      • alpha = 0.05, z_(alpha/2) = z_0.025 = 1.96, phat = 0.32
      • root(phat(1-phat)/n) = root((0.32)(0.68)/150) = 0.038

검정

 

통계적 가설 검정

 

  • 가설 검정
    • 가설의 주장을 검증하는 것
    • 표본평균 Xbar가 μ_0보다 얼마나 커야 모평균 μ가 μ_0보다 크다고 할 수 있을 것인가?
      • 표본평균은 표본의 선택에 의해 달라진다!
    • 귀무가설 H_0 : μ = μ_0
      • 귀무가설을 기각하기 위해선 Xbar가 큰 값이 나와야 한다.
        • 귀무가설을 참이라 가정할 때, 랜덤하게 선택한 표본에서 지금의 Xbar가 나올 확률을 계산할 필요가 있다. 이 때, 확률이 낮다면 귀무가설이 참이 아니라고 판단한다.
      • 대립가설 H_1 : μ > μ_0
    • 확률이 낮다는 기준점이 필요하기 때문에 유의수준 alpha를 도입한다.
    • P(Xbar ≥ k) ≤ alpha가 되는 k를 찾아야 한다.
    • 표준정규확률변수로 변환한 것을 검정통계량이라고 한다.
      • Z = Xbar - μ / (S / root(n)) ~ N(0, 1)
      • P(Z ≥ z_alpha) = alpha
    • 따라서 Xbar를 Z로 변환한 후 Z값이 z_alpha보다 큰지 검토
      • 크다면 귀무가설을 기각하고, 그렇지 않다면 귀무가설을 채택한다.
    • 검정의 단계
      • H_0, H_1 설정
      • 우의수준 alpha 설정
      • 검정통계량 계산
      • 기각역 또는 임계값 계산
      • 주어진 데이터로부터 유의성 판정

  • 대립가설
    • 문제에서 검정하고자 하는 것이 무엇인지 파악이 필요하다.
      • 대립가설 H_1 채택을 위한 통계적 증거 확보가 필요하다.
      • 증거가 없으면 귀무가설 H_0를 채택한다.
      • H_1 : μ > μ_0 
      • H_1 : μ > μ_0
      • H_1 : μ ≠ μ_0
  • 검정통계량
    • n ≥ 30인 경우
      • 중심극한 정리 사용
      • Z = Xbar - μ / (s / root(n)) ~ N(0, 1)
    • 모집단이 정규 모집단이고, 모표준편차 σ가 주어진 경우
      • Z = Xbar - μ / (σ / root(n)) ~ N(0, 1)

엔트로피 (Entropy)

 

  • 자기정보 (Self-information)
    • i(A) = log_b(1 / P(A)) = -log_bP(A)
      • A : 사건
    • 확률이 높은 사건은 정보가 많지 않다.
    • 정보의 단위
      • b = 2 : bits
      • b = e : nets
      • b = 10 : hartleys
    • 특성
      • i(AB) = log_b(1 / P(A)P(B)) = log_b(1 / P(A)) + log_b(1 / P(B)) = i(A) + i(B)
    • P(H) = 1/8, P(T) = 7/8
      • i(H) = 3비트, i(T) = 0.193비트
  • 엔트로피
    • 자기 정보의 평균
      • H(X) = sigma(P(A_j)i(A_j))j = -sigma(P(A_j)((log_2)P)(A_j))j
    • 특성
      • 0 ≤ H(X) ≤ ((log_2)K)
        • K : 사건의 수
    • 활용
      • 평균비트수 표현
      • 데이터 압축에 사용
    • 4가지 정보를 표현하는데 필요한 비트수는 일반적으로 2비트
    • i(X)를 활용하는 경우
      • 평균비트수
        • 1 x 1/2 + 2 x 1/4 + 3 x 1/8 + 3 x 1/8 = 14/8 = 7/4 비트
  • 교차 엔트로피
    • 확률분포 P와 Q
      • S = { A_j }
        • P(A_j) : 확률분포 P에서 사건 A_j가 발생할 확률
        • Q(A_j) : 확률분포 Q에서 사건 A_j가 발생할 확률
        • i(A_j) : 확률분포 Q에서 사건 A_j의 자기정보
          • i(A_j) = -(log_2)Q(A_j)
          • 자기 정보는 A_j를 표현하는 비트수이다.
          • 잘못된 확률분포 Q를 사용하게 되면, 실제 최적 비트수를 사용하지 못하게 된다.
    • H(P, Q)
      • 집합 S상 확률분포 P에 대한 확률분포 Q의 교차 엔트로피
      • 확률분포 P에서 i(A_j)의 평균
        • H(P, Q) = sigma(P(A_j)i(A_j))j = -sigma(P(A_j)(log_2)Q(A_j))j = -sigma(P(x)(log_2)Q(x))x∈X
          • 이 값은 정확한 확률분포 P를 사용했을 때의 비트수보다 크게 된다. 따라서 이 값은 P와 Q가 얼마나 비슷한지를 표현한다.
            • 같으면 H(P, Q) = H(P)
            • 다르면 H(P, Q) > H(P)
          • Q(X)를 가정하고 코드를 부여한다.
            • 평균비트수
              • 3 x 1/2 + 3 x 1/4 + 2 x 1/8 + 1 x 1/8 = 21 / 8 비트
              • 1.5배나 더 많은 비트를 사용해야 한다.
    • 분류 문제에서의 손실함수
      • 분류문제
        • 주어진 대상이 A인지 아닌지 판단
        • 주어진 대상이 A,B,C, ... 중 어느 것인지 판단
      • 기계학습에선 주어진 대상이 각 그룹에 속할 확률을 제공한다.
        • ex) [0.8, 0.2] : A일 확률 0.8, 아닐 확률 0.2
        • 이 값이 정답과 얼마나 다른지 측정이 필요하다.
      • 원하는 답 P = [p_1, p_2, ... , p_n], p_1 + p_2 + ... + p_n = 1
        제시된 답 Q = [q_1, q_2, ... , q_n], q_1 + q_2 + ... + q_n = 1
        • P와 Q가 얼마나 다른지에 대한 척도가 필요하다.
      • 제곱합
        • sigma(p_i - q_i)^2
        • 확률이 다를수록 큰 값을 가지지만 학습 속도가 느리다.
      • 교차 엔트로피 H(P, Q)
        • 확률이 다를수록 큰 값을 가지며, 학습 속도가 빠르다.
        • 분류 문제에서 주로 교차 엔트로피를 사용한다.

+ Recent posts