본문 바로가기
책&강의 학습/통계학의 이해

통계학의 이해 Ⅰ- 9주차 분산과 표준편차

by 소한보 2021. 1. 24.

1.베르누이 시행과 확률변수

베르누이 시행

  1. 각 실험에서 발생가능한 결과는 단 2가지
    ex) 성공, 실패
  2. 각 실험이 독립적으로 수행
  3. 모든 실험에서 결과의 확률은 항상 동일

예제 10개의 제품 중 3개가 불량품

2개를 복원 추출하는 경우 -> 베르누이 시행
2개를 비복원 추출하는 경우 -> 베르누이 시행 X

모집단이 크고 표본크기가 상대적으로 크지 않은 경우,
비복원 추출도 베르누이 실험을 근사모형으로 사용 가능
-> 문제를 간단하게 하기 위해서

베르누이 확률변수

모수(성공할 확률)가 p인 베르누이 시행
X = {1, 성공 0, 실패} <- 지시함수

확률질량함수

$$ f(x) = P(X= x) = p^x(1-p)^(1-x), x = 0,1 $$
X~ B(p)로 표시

기대값

$$ E(X) = 0 X (1-p) +1 X p = p $$
$$ E(X^2) = 0^2 X (1-p) +1^2 X p = p $$
$$ Var(X) = p-p^2 = p(1-p) $$
$$ SD(X) = \sqrt(p(1-p))$$

2.이항분포

이항분포

성공할 확률이 p인 베르누이 실험은 n번 반복했을 때, 성공횟수(X)의 분포
$$X_i ~B(p)라고 할때$$
성공횟수 X는 n개의 베르누이 확률변수를 합으로 표시

기대값

$$ (X_i) = p, Var(X_i)= p(1-p) $$
$$ E(X) = E(X_1 + ... + X_n) = np $$
베르누이 시행은 독립시행 (공분산이 0)
Var(X) = Var(X_i + .. + X_n) = np(1-p)
$$ SD(X) = \sqrt(np(1-p)) $$

예제) 주사위 세번 던지기 : X = 1이 나온 횟수

일반식

$$ f(x) = (\frac{n}{x})p^x(1-p)^(n-x), x = 0,1,...,n$$
n과 p에 따라서 확률이 달라짐
분포의 특성을 완전히 결정하는 값. 모수
X ~ B(n,p)

예제) 항암제 완치율

어떤 암에 대한 기존 항암제 완치율 50%
어느 제약회사에서 새로운 항암제를 개발하여 항암제의 효과를 확인하기 위해 15명의 환자를 대상으로 임상시험
만약 새로운 항암제의 완치율이 기존과 같다면

  1. 8명이 완치될 확률은? P(X=8), 0.196
  2. 적어도 10명이상 치유될 확률? P(X>10), 0.151
    통계적 문제 : 환자 중 12명의 환자가 치유되었다면, 새로운 항암제의 효과가 기존 것보다 있다고 할 수 있는가?
    P(X≥12) = 0.018

예제) A가 젖혀질 확률이 0.4인 윷을 4번 던지고 B도 같은 확률을 가지는 윷을 6번 던질때, 두사람이 던진 윷 중 젖혀진 윷이 2개 이하일 확률은?

X : A가 던진 윷 중 젖혀진 윷의 수, X ~ B(4, 0.4)
Y : B가 던진 윷 중 젖혀진 윷의 수, Y ~ B(6, 0.4)
X + Y ≥ 2인 확륭은?

X ~ B(m,p), Y ~ B(n,p)이고 X와 Y가 독립이면 X+Y ~ B(m+n, p)

시행횟수가 많은 경우 어떻게 계산하는가?

다른 분포로 근사값을 구함

3.초기하분포

초기하분포

크기가 N인 모집단이 크기가 M과 N-M인 두 개의 부모집단으로 나누어진 경우 -> 유한모집단
n개의 표본을 비복원으로 추출할 떄, 부모집단(A)에서 추출될 표본 수의 분포 -> 각 표본의 추출은 독립적이지 않음

예제) 6개의 정상품과 4개의 불량품이 있는 상자에서 임의로 3개의 제품을 비복원 추출한 경우에 3개 중 1개가 불량품일 확률?

일반식

$$ \frac{(\frac{M}{n})(\frac{N-M}{n-x})}{(\frac{N}{n})}, x= max(0, n-N+M), ... min(n,M)$$
N이 크고 N에 비해 n이 상대적으로 작은 경우
비복원의 효과가 적기 때문에 베르누이 시행으로 근가 가능
초기하분포는 p = M/N인 이항분포로 근사

예) 10000개의 제품 중에서 7000개가 정상, 3000개가 불량이라면 3개를 비복원 추출에서 불량품이 1개일 확률

기댓값

초기하분포도 각 시행에서 A집단에서 추출되면 1, 다른 집단에처 추출되면 0으로 표시한 확률변수의 합
베르누이 시행과 다른점은 독립은 아니나 확률값은 같다.

$$ E(X_i) = \frac{M}{N} = p -> E(X) = n\frac{M}{N} = np $$
$$ E(X_i^2) = \frac{M}{N} = p -> var(X_i) = p- p^2 = p(1-p)= \frac{M}{N}\frac{N-M}{N}$$
출이 비복원으로 각각의 시행은 독립이 아님
$$ Var(X) =
$$ Cov(X_i, X_j) = E(X_i X_i)-E(X_i)E(X_j) $$
$$ E(X_i X_i) = P(X_i = 1, X_j = 1) = P(X_i = 1)P(X_j= 1|X_i = 1) = \frac{M}{N}\frac{M-1}{N-1}$$
$$ Cov(X_i, X_j) = \frac{M}{N}\frac{M-1}{N-1} - (\frac{M}{N})^2 = - \frac{M}{N}\frac{N-M}{N(N-1)} = \frac{p(1-p)}{N-1} ≤ 0 $$
$$ Var(X) = np(1-p) -n(n-1) \frac{p(1-p)}{N-1} = np(1-p)\frac{N-n)}{N-1} ≤np(1-p) $$
이항분포의 분산보다 초기하분포의 분산은 조금 더 작다
$$ \frac{N-n)}{N-1} 는 유한 모집단의 수정계수 ≤1 $$

예) 품질관리 OC curve : 50개의 전구들이 들어있는 상자에서 10개의 전구를 무작으로 선택하여 검사.

불량전구의 개수가 1개 이하면 이회사의 전구를 구매
만약 이상자에 5개의 불량품이 있을 때 구매할 확률은?
X = 10개 중 불량품의 수
k개의 불량품에 따라 확률을 OC curve라고 함
몇개의 표본을 추출한 것인지, 불량품이 몇개일때까지 우리가 구매할지 결정

예) 연못에 사는 물고기는 몇 마리?

꼬리표를 붙이 20마리의 물고기를 연못에 넣고 어느정도 지난 후 물고기 15마리를 잡았을 떄 꼬리표가 있는 물고기의 분포
비례식으로 풀어볼 수 있음

댓글