[05/03] 인공지능 수학 - 추정, 검정, 엔트로피

누런강냉이 2021. 5. 3. 13:24

2021. 5. 3. 13:24

표본분포

통계적 추론
- 표본 조사를 통해 모집단에 대한 해석을 진행
- 전수조사는 실질적으로 불가능한 경우가 많다.
표본 조사는 반드시 오차가 발생
- 표본과 모집단과의 관계를 이해해야 한다.
- 적절한 표본 추출 방법이 필요하다.
  - 단순 랜덤 추출법 (random sampling)
  - 난수표 사용
  - 랜덤넘버 생성기 사용 https://colab.research.google.com

표본 조사를 통해 파악하고자 하는 정보
- 모수 (Parameter)
모수의 종류
- 모평균, 모분산, 모비율 등
- 모수를 추정하기 위해 표본을 선택해 표본 평균이나 표본 분산 등 계산
통계량 (statistic)
- 표본 평균이나 표본 분산과 같은 표본의 특성값
- 표본 평균이 가질 수 있는 값도 하나의 확률분포를 갖는다. => 표본분포 (sampling distribution)
표본 평균
- 모평균을 알아내는데 쓰이는 통계량
표본 평균의 분포
- x_1, x_2, ... , x_n
  - 평균 : μ, 분산 : σ^2
- 표본평균
  - xbar = 1/n(n(sigma(x_i)i)
  - Xbar ~ N ( μ, σ^2/n )

중심극한정리(central limit theorem)

정규모집단에서 추출된 표본의 측정값
표본평균
- xbar = 1/n(n(sigma(x_i)i))
- n이 충분히 큰 경우 (n ≥ 30)
  - 근사적으로 Xbar ~ N (μ, σ^2/n ) => 근사적으로 정규분포를 따른다!

모평균의 추정

표본평균의 특성

모집단이 정규분포인 경우
- 표본평균 사용
- xbar = 1/n(n(sigma(x_i)i))

대표본인 경우 (N>=30)
- 중심극한 정리에 의해 표본평균이 정규분포를 따른다 가정
점추정
- 표본평균이 점 추정값 (추정량)이 된다.
구간추정
- 모평균 μ의 100(1-a)% 신뢰구간 (confidnece interval)
  - (μ 추정량) ± z_(a/z)(추정량의 표준편차)
  - 정규분포에서 σ를 알 때, (xbar - z_(alpha/z)σ / root(n), xbar + z_(a/z)σ / root(n)) (알파는 0.? 이런 값들을 나타낼 때 주로 사용)
  - 실용적이지 못하다. 대부분의 경우는 정규분포가 아니거나 표준편차가 알려져 있지 않기 때문에...
- 표본의 크기가 클 때 중심극한 정리 사용
  - (μ의 추정량) ± z_(alpha/z)(추정량의 표준편차)
  - (xbar - z_(a/2)s / root(n), xbar + z_(a/2)s / root(n))
- ex) 어떤 학교의 고1 남학생의 평균키를 추정하기 위해 36명을 표본으로 추출하여 그 표본평균과 표본표준편차를 계산해 그 결과가 아래와 같다.
  - xbar = 173.6, s = 3.6
  - 평균키에 대한 95% 신뢰 구간을 구하시오.
    - a = 0.05
    - z_(a/2) = z_0.025 = 1.96
    - z_(a/2)s / root(n) = 1.96 x 3.6 / root(36) = 1.98 x 3.6 / 6 = 1.176
    - 95% 신뢰구간 = (173.6 - 1.176, 173.6 + 1.176) = (172.4, 174.8)

모비율의 추정

점 추정
- 확률변수 X
  - n개의 표본에서 특정 속성을 갖는 표본의 개수
- 모비율 p의 점추정량
  - phat = X / n
- ex) 대학교 1학년생의 흡연율을 조사하기 위해 150명을 랜덤하게 선택하여 흡연여부를 조사했다. 이 중 48명이 흡연을 하고 있다. 이 대학교 1학년생의 흡연율의 평균을 점추정하시오.
  - n = 150, X = 48
  - phat = X / n = 48 / 150 = 0.32
구간 추정
- n이 충분히 클 때
  - nphat > 5, n(1-phat) > 5일 때를 의미
  - X~N(np, np(1-p))
- 확률변수 X의 표준화
  - Z = X - np / root(nphat(1-phat)) = phat - p / root(phat(1-phat)/n)
  - 근사적으로 표준정규분포 N(0, 1)를 따름
- P(|Z| ≤ z_(a/z) = 1- alpha
  - P(-z_(alpha/2) ≤ Z ≤ z_(alpha/2)) = P(-z_(alpha/2) ≤ phat-p/root(phat(1-phat)/n) = 1 - alpha
- 모비율 p의 100(1 - alpha)% 신뢰구간 (confidence interval)
  - (phat - z_(a/2)root(phat(1-phat)/n, phat + z_(a/2)root(phat(1-phat)n))
- ex) 대학교 1학년생의 흡연율을 조사하기 위해 150명을 랜덤하게 선택하여 흡연여부를 조사하였다. 이 중 48명이 흡연을 하고 있었다. 이 때, 흡연율 p의 95% 신뢰구간 (confidence interval)을 구하시오.
  - alpha = 0.05, z_(alpha/2) = z_0.025 = 1.96, phat = 0.32
  - root(phat(1-phat)/n) = root((0.32)(0.68)/150) = 0.038

검정

통계적 가설 검정

가설 검정
- 가설의 주장을 검증하는 것
- 표본평균 Xbar가 μ_0보다 얼마나 커야 모평균 μ가 μ_0보다 크다고 할 수 있을 것인가?
  - 표본평균은 표본의 선택에 의해 달라진다!
- 귀무가설 H_0 : μ = μ_0
  - 귀무가설을 기각하기 위해선 Xbar가 큰 값이 나와야 한다.
    - 귀무가설을 참이라 가정할 때, 랜덤하게 선택한 표본에서 지금의 Xbar가 나올 확률을 계산할 필요가 있다. 이 때, 확률이 낮다면 귀무가설이 참이 아니라고 판단한다.
  - 대립가설 H_1 : μ > μ_0
- 확률이 낮다는 기준점이 필요하기 때문에 유의수준 alpha를 도입한다.
- P(Xbar ≥ k) ≤ alpha가 되는 k를 찾아야 한다.
- 표준정규확률변수로 변환한 것을 검정통계량이라고 한다.
  - Z = Xbar - μ / (S / root(n)) ~ N(0, 1)
  - P(Z ≥ z_alpha) = alpha
- 따라서 Xbar를 Z로 변환한 후 Z값이 z_alpha보다 큰지 검토
  - 크다면 귀무가설을 기각하고, 그렇지 않다면 귀무가설을 채택한다.
- 검정의 단계
  - H_0, H_1 설정
  - 우의수준 alpha 설정
  - 검정통계량 계산
  - 기각역 또는 임계값 계산
  - 주어진 데이터로부터 유의성 판정

대립가설
- 문제에서 검정하고자 하는 것이 무엇인지 파악이 필요하다.
  - 대립가설 H_1 채택을 위한 통계적 증거 확보가 필요하다.
  - 증거가 없으면 귀무가설 H_0를 채택한다.
  - H_1 : μ > μ_0
  - H_1 : μ > μ_0
  - H_1 : μ ≠ μ_0
검정통계량
- n ≥ 30인 경우
  - 중심극한 정리 사용
  - Z = Xbar - μ / (s / root(n)) ~ N(0, 1)
- 모집단이 정규 모집단이고, 모표준편차 σ가 주어진 경우
  - Z = Xbar - μ / (σ / root(n)) ~ N(0, 1)

엔트로피 (Entropy)

자기정보 (Self-information)
- i(A) = log_b(1 / P(A)) = -log_bP(A)
  - A : 사건
- 확률이 높은 사건은 정보가 많지 않다.
- 정보의 단위
  - b = 2 : bits
  - b = e : nets
  - b = 10 : hartleys
- 특성
  - i(AB) = log_b(1 / P(A)P(B)) = log_b(1 / P(A)) + log_b(1 / P(B)) = i(A) + i(B)
- P(H) = 1/8, P(T) = 7/8
  - i(H) = 3비트, i(T) = 0.193비트
엔트로피
- 자기 정보의 평균
  - H(X) = sigma(P(A_j)i(A_j))j = -sigma(P(A_j)((log_2)P)(A_j))j
- 특성
  - 0 ≤ H(X) ≤ ((log_2)K)
    - K : 사건의 수
- 활용
  - 평균비트수 표현
  - 데이터 압축에 사용
- 4가지 정보를 표현하는데 필요한 비트수는 일반적으로 2비트
- i(X)를 활용하는 경우
  - 평균비트수
    - 1 x 1/2 + 2 x 1/4 + 3 x 1/8 + 3 x 1/8 = 14/8 = 7/4 비트
교차 엔트로피
- 확률분포 P와 Q
  - S = { A_j }
    - P(A_j) : 확률분포 P에서 사건 A_j가 발생할 확률
    - Q(A_j) : 확률분포 Q에서 사건 A_j가 발생할 확률
    - i(A_j) : 확률분포 Q에서 사건 A_j의 자기정보
      - i(A_j) = -(log_2)Q(A_j)
      - 자기 정보는 A_j를 표현하는 비트수이다.
      - 잘못된 확률분포 Q를 사용하게 되면, 실제 최적 비트수를 사용하지 못하게 된다.
- H(P, Q)
  - 집합 S상 확률분포 P에 대한 확률분포 Q의 교차 엔트로피
  - 확률분포 P에서 i(A_j)의 평균
    - H(P, Q) = sigma(P(A_j)i(A_j))j = -sigma(P(A_j)(log_2)Q(A_j))j = -sigma(P(x)(log_2)Q(x))x∈X
      - 이 값은 정확한 확률분포 P를 사용했을 때의 비트수보다 크게 된다. 따라서 이 값은 P와 Q가 얼마나 비슷한지를 표현한다.
        
        같으면 H(P, Q) = H(P)
        
        다르면 H(P, Q) > H(P)
      - Q(X)를 가정하고 코드를 부여한다.
        
        평균비트수
        
        3 x 1/2 + 3 x 1/4 + 2 x 1/8 + 1 x 1/8 = 21 / 8 비트
        
        1.5배나 더 많은 비트를 사용해야 한다.
- 분류 문제에서의 손실함수
  - 분류문제
    - 주어진 대상이 A인지 아닌지 판단
    - 주어진 대상이 A,B,C, ... 중 어느 것인지 판단
  - 기계학습에선 주어진 대상이 각 그룹에 속할 확률을 제공한다.
    - ex) [0.8, 0.2] : A일 확률 0.8, 아닐 확률 0.2
    - 이 값이 정답과 얼마나 다른지 측정이 필요하다.
  - 원하는 답 P = [p_1, p_2, ... , p_n], p_1 + p_2 + ... + p_n = 1
    제시된 답 Q = [q_1, q_2, ... , q_n], q_1 + q_2 + ... + q_n = 1
    - P와 Q가 얼마나 다른지에 대한 척도가 필요하다.
  - 제곱합
    - sigma(p_i - q_i)^2
    - 확률이 다를수록 큰 값을 가지지만 학습 속도가 느리다.
  - 교차 엔트로피 H(P, Q)
    - 확률이 다를수록 큰 값을 가지며, 학습 속도가 빠르다.
    - 분류 문제에서 주로 교차 엔트로피를 사용한다.

'AI > KDT 인공지능' 카테고리의 다른 글

[05/04] Git이란 무엇인가? (0)	2021.05.04
[05/04] Python으로 데이터 다루기 - Numpy (0)	2021.05.04
[04/29] 인공지능 수학 - 확률과 확률분포 (0)	2021.04.29
[04/28] 인공지능 수학 - 자료의 정리 (0)	2021.04.28
[04/27] 인공지능 수학 - 미적분 (0)	2021.04.27

누런강냉이

[05/03] 인공지능 수학 - 추정, 검정, 엔트로피

표본분포

중심극한정리(central limit theorem)

모평균의 추정

모비율의 추정

검정

엔트로피 (Entropy)

'AI > KDT 인공지능' 카테고리의 다른 글

+ Recent posts

티스토리툴바