표본분포
- 통계적 추론
- 표본 조사를 통해 모집단에 대한 해석을 진행
- 전수조사는 실질적으로 불가능한 경우가 많다.
- 표본 조사는 반드시 오차가 발생
- 표본과 모집단과의 관계를 이해해야 한다.
- 적절한 표본 추출 방법이 필요하다.
- 단순 랜덤 추출법 (random sampling)
- 난수표 사용
- 랜덤넘버 생성기 사용 https://colab.research.google.com
- 표본 조사를 통해 파악하고자 하는 정보
- 모수 (Parameter)
- 모수의 종류
- 모평균, 모분산, 모비율 등
- 모수를 추정하기 위해 표본을 선택해 표본 평균이나 표본 분산 등 계산
- 통계량 (statistic)
- 표본 평균이나 표본 분산과 같은 표본의 특성값
- 표본 평균이 가질 수 있는 값도 하나의 확률분포를 갖는다. => 표본분포 (sampling distribution)
- 표본 평균
- 모평균을 알아내는데 쓰이는 통계량
- 표본 평균의 분포
- x_1, x_2, ... , x_n
- 평균 : μ, 분산 : σ^2
- 표본평균
- xbar = 1/n(n(sigma(x_i)i)
- Xbar ~ N ( μ, σ^2/n )
- x_1, x_2, ... , x_n
중심극한정리(central limit theorem)
- 정규모집단에서 추출된 표본의 측정값
- 표본평균
- xbar = 1/n(n(sigma(x_i)i))
- n이 충분히 큰 경우 (n ≥ 30)
- 근사적으로 Xbar ~ N (μ, σ^2/n ) => 근사적으로 정규분포를 따른다!
모평균의 추정
표본평균의 특성
- 모집단이 정규분포인 경우
- 표본평균 사용
- xbar = 1/n(n(sigma(x_i)i))
- 대표본인 경우 (N>=30)
- 중심극한 정리에 의해 표본평균이 정규분포를 따른다 가정
- 점추정
- 표본평균이 점 추정값 (추정량)이 된다.
- 구간추정
- 모평균 μ의 100(1-a)% 신뢰구간 (confidnece interval)
- (μ 추정량) ± z_(a/z)(추정량의 표준편차)
- 정규분포에서 σ를 알 때, (xbar - z_(alpha/z)σ / root(n), xbar + z_(a/z)σ / root(n)) (알파는 0.? 이런 값들을 나타낼 때 주로 사용)
- 실용적이지 못하다. 대부분의 경우는 정규분포가 아니거나 표준편차가 알려져 있지 않기 때문에...
- 표본의 크기가 클 때 중심극한 정리 사용
- (μ의 추정량) ± z_(alpha/z)(추정량의 표준편차)
- (xbar - z_(a/2)s / root(n), xbar + z_(a/2)s / root(n))
- ex) 어떤 학교의 고1 남학생의 평균키를 추정하기 위해 36명을 표본으로 추출하여 그 표본평균과 표본표준편차를 계산해 그 결과가 아래와 같다.
- xbar = 173.6, s = 3.6
- 평균키에 대한 95% 신뢰 구간을 구하시오.
- a = 0.05
- z_(a/2) = z_0.025 = 1.96
- z_(a/2)s / root(n) = 1.96 x 3.6 / root(36) = 1.98 x 3.6 / 6 = 1.176
- 95% 신뢰구간 = (173.6 - 1.176, 173.6 + 1.176) = (172.4, 174.8)
- 모평균 μ의 100(1-a)% 신뢰구간 (confidnece interval)
모비율의 추정
- 점 추정
- 확률변수 X
- n개의 표본에서 특정 속성을 갖는 표본의 개수
- 모비율 p의 점추정량
- phat = X / n
- ex) 대학교 1학년생의 흡연율을 조사하기 위해 150명을 랜덤하게 선택하여 흡연여부를 조사했다. 이 중 48명이 흡연을 하고 있다. 이 대학교 1학년생의 흡연율의 평균을 점추정하시오.
- n = 150, X = 48
- phat = X / n = 48 / 150 = 0.32
- 확률변수 X
- 구간 추정
- n이 충분히 클 때
- nphat > 5, n(1-phat) > 5일 때를 의미
- X~N(np, np(1-p))
- 확률변수 X의 표준화
- Z = X - np / root(nphat(1-phat)) = phat - p / root(phat(1-phat)/n)
- 근사적으로 표준정규분포 N(0, 1)를 따름
- P(|Z| ≤ z_(a/z) = 1- alpha
- P(-z_(alpha/2) ≤ Z ≤ z_(alpha/2)) = P(-z_(alpha/2) ≤ phat-p/root(phat(1-phat)/n) = 1 - alpha
- 모비율 p의 100(1 - alpha)% 신뢰구간 (confidence interval)
- (phat - z_(a/2)root(phat(1-phat)/n, phat + z_(a/2)root(phat(1-phat)n))
- ex) 대학교 1학년생의 흡연율을 조사하기 위해 150명을 랜덤하게 선택하여 흡연여부를 조사하였다. 이 중 48명이 흡연을 하고 있었다. 이 때, 흡연율 p의 95% 신뢰구간 (confidence interval)을 구하시오.
- alpha = 0.05, z_(alpha/2) = z_0.025 = 1.96, phat = 0.32
- root(phat(1-phat)/n) = root((0.32)(0.68)/150) = 0.038
- n이 충분히 클 때
검정
통계적 가설 검정
- 가설 검정
- 가설의 주장을 검증하는 것
- 표본평균 Xbar가 μ_0보다 얼마나 커야 모평균 μ가 μ_0보다 크다고 할 수 있을 것인가?
- 표본평균은 표본의 선택에 의해 달라진다!
- 귀무가설 H_0 : μ = μ_0
- 귀무가설을 기각하기 위해선 Xbar가 큰 값이 나와야 한다.
- 귀무가설을 참이라 가정할 때, 랜덤하게 선택한 표본에서 지금의 Xbar가 나올 확률을 계산할 필요가 있다. 이 때, 확률이 낮다면 귀무가설이 참이 아니라고 판단한다.
- 대립가설 H_1 : μ > μ_0
- 귀무가설을 기각하기 위해선 Xbar가 큰 값이 나와야 한다.
- 확률이 낮다는 기준점이 필요하기 때문에 유의수준 alpha를 도입한다.
- P(Xbar ≥ k) ≤ alpha가 되는 k를 찾아야 한다.
- 표준정규확률변수로 변환한 것을 검정통계량이라고 한다.
- Z = Xbar - μ / (S / root(n)) ~ N(0, 1)
- P(Z ≥ z_alpha) = alpha
- 따라서 Xbar를 Z로 변환한 후 Z값이 z_alpha보다 큰지 검토
- 크다면 귀무가설을 기각하고, 그렇지 않다면 귀무가설을 채택한다.
- 검정의 단계
- H_0, H_1 설정
- 우의수준 alpha 설정
- 검정통계량 계산
- 기각역 또는 임계값 계산
- 주어진 데이터로부터 유의성 판정
- 대립가설
- 문제에서 검정하고자 하는 것이 무엇인지 파악이 필요하다.
- 대립가설 H_1 채택을 위한 통계적 증거 확보가 필요하다.
- 증거가 없으면 귀무가설 H_0를 채택한다.
- H_1 : μ > μ_0
- H_1 : μ > μ_0
- H_1 : μ ≠ μ_0
- 문제에서 검정하고자 하는 것이 무엇인지 파악이 필요하다.
- 검정통계량
- n ≥ 30인 경우
- 중심극한 정리 사용
- Z = Xbar - μ / (s / root(n)) ~ N(0, 1)
- 모집단이 정규 모집단이고, 모표준편차 σ가 주어진 경우
- Z = Xbar - μ / (σ / root(n)) ~ N(0, 1)
- n ≥ 30인 경우
엔트로피 (Entropy)
- 자기정보 (Self-information)
- i(A) = log_b(1 / P(A)) = -log_bP(A)
- A : 사건
- 확률이 높은 사건은 정보가 많지 않다.
- 정보의 단위
- b = 2 : bits
- b = e : nets
- b = 10 : hartleys
- 특성
- i(AB) = log_b(1 / P(A)P(B)) = log_b(1 / P(A)) + log_b(1 / P(B)) = i(A) + i(B)
- P(H) = 1/8, P(T) = 7/8
- i(H) = 3비트, i(T) = 0.193비트
- i(A) = log_b(1 / P(A)) = -log_bP(A)
- 엔트로피
- 자기 정보의 평균
- H(X) = sigma(P(A_j)i(A_j))j = -sigma(P(A_j)((log_2)P)(A_j))j
- 특성
- 0 ≤ H(X) ≤ ((log_2)K)
- K : 사건의 수
- 0 ≤ H(X) ≤ ((log_2)K)
- 활용
- 평균비트수 표현
- 데이터 압축에 사용
- 4가지 정보를 표현하는데 필요한 비트수는 일반적으로 2비트
- i(X)를 활용하는 경우
- 평균비트수
- 1 x 1/2 + 2 x 1/4 + 3 x 1/8 + 3 x 1/8 = 14/8 = 7/4 비트
- 평균비트수
- 자기 정보의 평균
- 교차 엔트로피
- 확률분포 P와 Q
- S = { A_j }
- P(A_j) : 확률분포 P에서 사건 A_j가 발생할 확률
- Q(A_j) : 확률분포 Q에서 사건 A_j가 발생할 확률
- i(A_j) : 확률분포 Q에서 사건 A_j의 자기정보
- i(A_j) = -(log_2)Q(A_j)
- 자기 정보는 A_j를 표현하는 비트수이다.
- 잘못된 확률분포 Q를 사용하게 되면, 실제 최적 비트수를 사용하지 못하게 된다.
- S = { A_j }
- H(P, Q)
- 집합 S상 확률분포 P에 대한 확률분포 Q의 교차 엔트로피
- 확률분포 P에서 i(A_j)의 평균
- H(P, Q) = sigma(P(A_j)i(A_j))j = -sigma(P(A_j)(log_2)Q(A_j))j = -sigma(P(x)(log_2)Q(x))x∈X
- 이 값은 정확한 확률분포 P를 사용했을 때의 비트수보다 크게 된다. 따라서 이 값은 P와 Q가 얼마나 비슷한지를 표현한다.
- 같으면 H(P, Q) = H(P)
- 다르면 H(P, Q) > H(P)
- Q(X)를 가정하고 코드를 부여한다.
- 평균비트수
- 3 x 1/2 + 3 x 1/4 + 2 x 1/8 + 1 x 1/8 = 21 / 8 비트
- 1.5배나 더 많은 비트를 사용해야 한다.
- 평균비트수
- 이 값은 정확한 확률분포 P를 사용했을 때의 비트수보다 크게 된다. 따라서 이 값은 P와 Q가 얼마나 비슷한지를 표현한다.
- H(P, Q) = sigma(P(A_j)i(A_j))j = -sigma(P(A_j)(log_2)Q(A_j))j = -sigma(P(x)(log_2)Q(x))x∈X
- 분류 문제에서의 손실함수
- 분류문제
- 주어진 대상이 A인지 아닌지 판단
- 주어진 대상이 A,B,C, ... 중 어느 것인지 판단
- 기계학습에선 주어진 대상이 각 그룹에 속할 확률을 제공한다.
- ex) [0.8, 0.2] : A일 확률 0.8, 아닐 확률 0.2
- 이 값이 정답과 얼마나 다른지 측정이 필요하다.
- 원하는 답 P = [p_1, p_2, ... , p_n], p_1 + p_2 + ... + p_n = 1
제시된 답 Q = [q_1, q_2, ... , q_n], q_1 + q_2 + ... + q_n = 1
- P와 Q가 얼마나 다른지에 대한 척도가 필요하다.
- 제곱합
- sigma(p_i - q_i)^2
- 확률이 다를수록 큰 값을 가지지만 학습 속도가 느리다.
- 교차 엔트로피 H(P, Q)
- 확률이 다를수록 큰 값을 가지며, 학습 속도가 빠르다.
- 분류 문제에서 주로 교차 엔트로피를 사용한다.
- 분류문제
- 확률분포 P와 Q
'AI > KDT 인공지능' 카테고리의 다른 글
[05/04] Git이란 무엇인가? (0) | 2021.05.04 |
---|---|
[05/04] Python으로 데이터 다루기 - Numpy (0) | 2021.05.04 |
[04/29] 인공지능 수학 - 확률과 확률분포 (0) | 2021.04.29 |
[04/28] 인공지능 수학 - 자료의 정리 (0) | 2021.04.28 |
[04/27] 인공지능 수학 - 미적분 (0) | 2021.04.27 |