본문 바로가기
책&강의 학습/통계학의 이해

통계학의 이해 Ⅰ- 10주차 주요 이산확률분포

by 소한보 2021. 1. 25.

1. 포아송분포

사건의 발생건수와 같은 계수 자료를 모델링할때 많이 사용

포아송분포

이항분포에서 n이 커지면 계산하는데 어려움이 있음

  1. p가 작은 경우(0이 근처에 있는 경우)
  2. p가 큰경우 (1 근처에 있는 경우)
  3. p가 0.5에서 멀리 떨어져 있지 않은 경우

p가 아주 작은 값에 있는 경우 1번 경우에 대해서 살펴봄

X ~ B(n,p)
p가 매우 작으면 큰 x에 대한 확률은 무시할 정도로 작음

$$E(X) = \lambda = np라고 하면, p = \lamba/n$$

일반화

n이커지면
$$ f(x) = (\frac{n}{x})p^x(1-p)^(n-x) \simeq \frac{e^(-\lambda)\lambda^x}{x!} $$

발생가능성이 희박한 사건이 임의의 구간에서 평균적으로 λ번 발생
구간을 나누었을 때 각 구간의 발생빈도는 서로 독립(independent increment)
구간의 위치와 관계없이 동일 길이의 구간에서의 평균발생 빈도는 동일(stationary increment)
이 설징을 만족할때 확률분포 X는 포아송 분포를 따른다고 한다.
$$ X ~Pois(\lambda) $$

람다에 따라 확률분포의 모양이 결정됨

예) 반도체 생산공정

평균 500개 중 한개 정도가 불량품
불량품은 무작위로 발생
제작된 1500개 반도체 중 불량품이 2개 이하일 확륭은?

  • 반도체의 불량확률 p = 1/500
  • X: 1500개 반도체 중 불량품의 수

포아송 근사로 계상
λ = 1500/500 = 3
n이 아주 크고 p가 작은 경우에는 포아송 분포와 이항분포의 롹률이 약간밖에 차이나지 않음
p가 상대적으로 적으면 포아송근사가 잘 안됌
lambda 값이 5보다 적으면 포아송 근사를 사용해도 큰 문제가 없음

포아송분포의 성질

X ~ B(m,p), YB(n,p)이고 X와 Y가 독립이면 X+Y ~B(m+n, p)
$$X ~ Pois(\lamba_1), Y
pois(\lamba_2)이고 X,Y가 독립이면 $$
$$ X+Y ~ pois(\lamba_1 + \lamba_2) $$

E(X)=λ
Var(X)=λ

2.음이항분포

기하분포

성공할 확률이 p인 베르누이 시행을 성공할 때까지 시행하는 경우 실패(시행)횟수의 분포
$$ 확률질량함수 : f(x) = (1-p)^(x)p, x = 0,1,2 ...$$
X ~ Geo(p)
1항이 p이고 공비가 1-p인 등비급수의 형태
Y = X+1 : 시행횟수
$$ 시행횟수 : f_Y(y) = (1-p)^(y-1)p, y =1,2 ...$$

등비급수의 합

$$ S = \frac{a-ar^(x+1)}{1-r} $$

P(Y≤x) = P(X≤x-1) : x번째 실험 이전에 성공할 확률
$$ P(X≤x) = 1-(1-p)^(x+1) $$
$$ P(X≥x) = 1-P(X≤x-1) = (1-p)^(x) $$

예) 동전던지기

P(X≥x) : x+1번째 시행 이후에 성공(x번째까지의 실패)할 확률
$$= 1-P(X≤x-1) = (1-p)^x $$
x번쨰까지 실패했다고 할때, 다음(x+1번째)시행에서 성공확률
->조건부확률
$$ P(X=x|x≥x) = \frac{f_X(x)}{P(X≥x} = \frac{(1-p)^(x)p}{(1-p)^x}= p$$
x번 실패 했다고 해도 다음 시행에서 성공할 확률은 이 앞에 실패한 것은 기억하지 않고 처음 시행 때와 결과가 똑같다.
위 성징을 만족하는 것을 무기억성을 가진다고 함

Y에 대해서

P(Y≤x) = P(X≤x-1) : x번째 실험 이전에 성공할 확률
$$ P(Y>y)= 1-P(Y≤y) = (1-p)^y $$

예) 동전던지기 : 앞면이 나올때까지 동전 던지기

P(Y ≤2) : 2번이내에 끝날 확률 0.75
P(Y ≤y) ≥ 0.9를 만족하는 최소 y는? y ≥4

기댓값

E(X) = (1-p)/p
E(Y) = 1/p

음이항분포

성공할 확률이 p인 베르누이 시행을 r번 성공할 때까지 시행하는 경우 실패(시행)횟수의 분포
X : 실패횟수, Y: 시행횟수(Y = X+r)
Y = y라고 하면, y번째는 S
y-1번째까지 결과 : r-1개 S, y-r개 F
$$ f_Y(y) = (\frac{y-1}{r-1})p^(r-1)(1-p)^(y-r)p, y = r,r+1... $$
$$ f_Y(y) = (\frac{y-1}{r-1})p^r(1-p)^(y-r) $$

Y ~ NB(r,p)
X = x라고 하면, x+r번째 S,
x+r-1번째까지 결과 : r-1개 S, x개 F
$$ f(x) = (\frac{x+r-1}{r-1})p^r(1-p)^(x) x = 0,1,2, ...$$

예) 가위바위보

5명과 차례로 가위바위보 게임, 비기거나 지면 계속 게임을 진행하고 이기면 다음 사람과 게임
게임이 완료될 때까지 10회 이하로 가위바위보 할 확률
Y ~ NB(5,1/3)
P(Y≤10) = 0.213

기댓값

$$ X_i ~ Geo(P) X_i들은 서로 독립$$
E(X) = r(1-p)/p
E(Y) = r/p
계수자료 분석에서 포아송분포의 대안으로 사용가능

3. 다항분포

도수분포표

범주형자료 또는 범주화된 자료를 정리
각 범주에 몇개의 관측개체가 있는지 정리한 표

다항분포

각 시행에서 발생가는 결과는 k가지
각 시행에서 i번째 결과의 확률은 pi로 고정
각 시행은 독립적으로 수행

확률질량함수

$$ f(x_1,x_2...x_k) = \frac{n!}{x_1!,x_2!...x_k!}p_1^(x_1)p_2^(x_2)...p_k^(x_k) $$
$$ {\sum_{i=1}^{k}}x_i = n, {\sum_{i=1}^{k}}p_i = 1 $$

예) 멘델의 유전법칙

독립의 법칙 : 완두의 껍질모양(R,r) 색깔(Y,y)
RRYY, rryy인 완두 교배 1대를 자기수분시킨 2대의 발현비율
RY:Ry:rY:ry = 9:3:3:1
독립적으로 n개의 2대를 얻었을 때, (RY,Ry,rY,ry)에 속한 완두의 수를 (X1,X2,X3,X4)라고 하면

특정결과에만 관심 있는 경우
i번째 결과 Ri에만 관심 나머지의 결과를 묶음
$$ X_i ~ B(n,p_i) $$
$$ E(X_i) = np_i $$
$$ Var(X_i) = np_i(1-p_i) $$

i번째 결과 또는 j번째 (Ri∪Rj)에만 관심 두개를 더함
$$ Y = X_i + X_j ~ B(n, p_i+p_j) $$
$$ E(Y) = E(X_i + X_j)= n(p_i+p_j) $$
$$ Var(Y) = Var(X_i + X_j)= n(p_i+p_j)(1-(p_i+p_j))$$

Xi와 Xj와의 관계

상관계수로 확인
편의상 2회 시행을 했다고 가정
$$ Cov(X_11 + X_21, X_12 + X_22) $$
결합이 이뤄진 두 확률변수의 상관계수는 각각의 상관계수를 다 더한 것이라고 알려져 있음 따라서
$$ Cov(X_11,X_12) + Cov(X_11,X_22) + Cov(X_21,X_12) + Cov(X_21,X_22) $$
$$ 앞 첨자가 따른 경우는 독립이기 때문에 Cov(X_11,X_22), Cov(X_21,X_12)은 0 $$
$$ Cov(X_1,X_2) = {\sum_{i=1}^{n}}Cov(X_i1,X_i2)로 정리됨$$
일반화하면 아래와 같음
$$ Cov(X_i,X_j) = -np_ip_j $$

상관계수
$$ Cor(X_i,X_j) = -\sqrt(\frac{p_i p_j}{(1-p_i)(1-p_j)}) $$
$$ p_i/(1-p_i) : 오즈(odd) $$

$$ Var(X_i+ X_j) = n(p_i+ p_j)(1-(p_i+ p_j) $$

예) 맨델의 유적법칙

모양 (R,r)에만 관심있는 경우 R:r = 12:4 = 3:1
R의 개수 : Y = X1+X2 ~B(n, 0.75)
100갸의 완두에 대해 우성인자만 있는 경우와 열성인자만 있는 완두 수의 상관계수는?

p1 = 9/16 p4= 1/16
$$ Cov(X1,X4) = -100 X (9/16) X(1/16) = -5.625 $$
$$ Cor(X1,X4) = -\sqrt(\frac{(9/16) X(1/16)}{(7/16) X(15/16)}) = -0.2928 $$
둘 다 확률이 크면 상대적으로 큰 음의 상관관계를 갖음

댓글