1. 포아송분포
사건의 발생건수와 같은 계수 자료를 모델링할때 많이 사용
포아송분포
이항분포에서 n이 커지면 계산하는데 어려움이 있음
- p가 작은 경우(0이 근처에 있는 경우)
- p가 큰경우 (1 근처에 있는 경우)
- p가 0.5에서 멀리 떨어져 있지 않은 경우
p가 아주 작은 값에 있는 경우 1번 경우에 대해서 살펴봄
X ~ B(n,p)
p가 매우 작으면 큰 x에 대한 확률은 무시할 정도로 작음
$$E(X) = \lambda = np라고 하면, p = \lamba/n$$
일반화
n이커지면
$$ f(x) = (\frac{n}{x})p^x(1-p)^(n-x) \simeq \frac{e^(-\lambda)\lambda^x}{x!} $$
발생가능성이 희박한 사건이 임의의 구간에서 평균적으로 λ번 발생
구간을 나누었을 때 각 구간의 발생빈도는 서로 독립(independent increment)
구간의 위치와 관계없이 동일 길이의 구간에서의 평균발생 빈도는 동일(stationary increment)
이 설징을 만족할때 확률분포 X는 포아송 분포를 따른다고 한다.
$$ X ~Pois(\lambda) $$
람다에 따라 확률분포의 모양이 결정됨
예) 반도체 생산공정
평균 500개 중 한개 정도가 불량품
불량품은 무작위로 발생
제작된 1500개 반도체 중 불량품이 2개 이하일 확륭은?
- 반도체의 불량확률 p = 1/500
- X: 1500개 반도체 중 불량품의 수
포아송 근사로 계상
λ = 1500/500 = 3
n이 아주 크고 p가 작은 경우에는 포아송 분포와 이항분포의 롹률이 약간밖에 차이나지 않음
p가 상대적으로 적으면 포아송근사가 잘 안됌
lambda 값이 5보다 적으면 포아송 근사를 사용해도 큰 문제가 없음
포아송분포의 성질
X ~ B(m,p), YB(n,p)이고 X와 Y가 독립이면 X+Y ~B(m+n, p)pois(\lamba_2)이고 X,Y가 독립이면 $$
$$X ~ Pois(\lamba_1), Y
$$ X+Y ~ pois(\lamba_1 + \lamba_2) $$
E(X)=λ
Var(X)=λ
2.음이항분포
기하분포
성공할 확률이 p인 베르누이 시행을 성공할 때까지 시행하는 경우 실패(시행)횟수의 분포
$$ 확률질량함수 : f(x) = (1-p)^(x)p, x = 0,1,2 ...$$
X ~ Geo(p)
1항이 p이고 공비가 1-p인 등비급수의 형태
Y = X+1 : 시행횟수
$$ 시행횟수 : f_Y(y) = (1-p)^(y-1)p, y =1,2 ...$$
등비급수의 합
$$ S = \frac{a-ar^(x+1)}{1-r} $$
P(Y≤x) = P(X≤x-1) : x번째 실험 이전에 성공할 확률
$$ P(X≤x) = 1-(1-p)^(x+1) $$
$$ P(X≥x) = 1-P(X≤x-1) = (1-p)^(x) $$
예) 동전던지기
P(X≥x) : x+1번째 시행 이후에 성공(x번째까지의 실패)할 확률
$$= 1-P(X≤x-1) = (1-p)^x $$
x번쨰까지 실패했다고 할때, 다음(x+1번째)시행에서 성공확률
->조건부확률
$$ P(X=x|x≥x) = \frac{f_X(x)}{P(X≥x} = \frac{(1-p)^(x)p}{(1-p)^x}= p$$
x번 실패 했다고 해도 다음 시행에서 성공할 확률은 이 앞에 실패한 것은 기억하지 않고 처음 시행 때와 결과가 똑같다.
위 성징을 만족하는 것을 무기억성을 가진다고 함
Y에 대해서
P(Y≤x) = P(X≤x-1) : x번째 실험 이전에 성공할 확률
$$ P(Y>y)= 1-P(Y≤y) = (1-p)^y $$
예) 동전던지기 : 앞면이 나올때까지 동전 던지기
P(Y ≤2) : 2번이내에 끝날 확률 0.75
P(Y ≤y) ≥ 0.9를 만족하는 최소 y는? y ≥4
기댓값
E(X) = (1-p)/p
E(Y) = 1/p
음이항분포
성공할 확률이 p인 베르누이 시행을 r번 성공할 때까지 시행하는 경우 실패(시행)횟수의 분포
X : 실패횟수, Y: 시행횟수(Y = X+r)
Y = y라고 하면, y번째는 S
y-1번째까지 결과 : r-1개 S, y-r개 F
$$ f_Y(y) = (\frac{y-1}{r-1})p^(r-1)(1-p)^(y-r)p, y = r,r+1... $$
$$ f_Y(y) = (\frac{y-1}{r-1})p^r(1-p)^(y-r) $$
Y ~ NB(r,p)
X = x라고 하면, x+r번째 S,
x+r-1번째까지 결과 : r-1개 S, x개 F
$$ f(x) = (\frac{x+r-1}{r-1})p^r(1-p)^(x) x = 0,1,2, ...$$
예) 가위바위보
5명과 차례로 가위바위보 게임, 비기거나 지면 계속 게임을 진행하고 이기면 다음 사람과 게임
게임이 완료될 때까지 10회 이하로 가위바위보 할 확률
Y ~ NB(5,1/3)
P(Y≤10) = 0.213
기댓값
$$ X_i ~ Geo(P) X_i들은 서로 독립$$
E(X) = r(1-p)/p
E(Y) = r/p
계수자료 분석에서 포아송분포의 대안으로 사용가능
3. 다항분포
도수분포표
범주형자료 또는 범주화된 자료를 정리
각 범주에 몇개의 관측개체가 있는지 정리한 표
다항분포
각 시행에서 발생가는 결과는 k가지
각 시행에서 i번째 결과의 확률은 pi로 고정
각 시행은 독립적으로 수행
확률질량함수
$$ f(x_1,x_2...x_k) = \frac{n!}{x_1!,x_2!...x_k!}p_1^(x_1)p_2^(x_2)...p_k^(x_k) $$
$$ {\sum_{i=1}^{k}}x_i = n, {\sum_{i=1}^{k}}p_i = 1 $$
예) 멘델의 유전법칙
독립의 법칙 : 완두의 껍질모양(R,r) 색깔(Y,y)
RRYY, rryy인 완두 교배 1대를 자기수분시킨 2대의 발현비율
RY:Ry:rY:ry = 9:3:3:1
독립적으로 n개의 2대를 얻었을 때, (RY,Ry,rY,ry)에 속한 완두의 수를 (X1,X2,X3,X4)라고 하면
특정결과에만 관심 있는 경우
i번째 결과 Ri에만 관심 나머지의 결과를 묶음
$$ X_i ~ B(n,p_i) $$
$$ E(X_i) = np_i $$
$$ Var(X_i) = np_i(1-p_i) $$
i번째 결과 또는 j번째 (Ri∪Rj)에만 관심 두개를 더함
$$ Y = X_i + X_j ~ B(n, p_i+p_j) $$
$$ E(Y) = E(X_i + X_j)= n(p_i+p_j) $$
$$ Var(Y) = Var(X_i + X_j)= n(p_i+p_j)(1-(p_i+p_j))$$
Xi와 Xj와의 관계
상관계수로 확인
편의상 2회 시행을 했다고 가정
$$ Cov(X_11 + X_21, X_12 + X_22) $$
결합이 이뤄진 두 확률변수의 상관계수는 각각의 상관계수를 다 더한 것이라고 알려져 있음 따라서
$$ Cov(X_11,X_12) + Cov(X_11,X_22) + Cov(X_21,X_12) + Cov(X_21,X_22) $$
$$ 앞 첨자가 따른 경우는 독립이기 때문에 Cov(X_11,X_22), Cov(X_21,X_12)은 0 $$
$$ Cov(X_1,X_2) = {\sum_{i=1}^{n}}Cov(X_i1,X_i2)로 정리됨$$
일반화하면 아래와 같음
$$ Cov(X_i,X_j) = -np_ip_j $$
상관계수
$$ Cor(X_i,X_j) = -\sqrt(\frac{p_i p_j}{(1-p_i)(1-p_j)}) $$
$$ p_i/(1-p_i) : 오즈(odd) $$
$$ Var(X_i+ X_j) = n(p_i+ p_j)(1-(p_i+ p_j) $$
예) 맨델의 유적법칙
모양 (R,r)에만 관심있는 경우 R:r = 12:4 = 3:1
R의 개수 : Y = X1+X2 ~B(n, 0.75)
100갸의 완두에 대해 우성인자만 있는 경우와 열성인자만 있는 완두 수의 상관계수는?
p1 = 9/16 p4= 1/16
$$ Cov(X1,X4) = -100 X (9/16) X(1/16) = -5.625 $$
$$ Cor(X1,X4) = -\sqrt(\frac{(9/16) X(1/16)}{(7/16) X(15/16)}) = -0.2928 $$
둘 다 확률이 크면 상대적으로 큰 음의 상관관계를 갖음
'책&강의 학습 > 통계학의 이해' 카테고리의 다른 글
| 통계학의 이해 Ⅰ- 11주차 정규분포 (0) | 2021.01.31 |
|---|---|
| 통계학의 이해 Ⅰ- 9주차 분산과 표준편차 (0) | 2021.01.24 |
| 통계학의 이해 Ⅰ- 8주차 분산과 표준편차 (0) | 2021.01.10 |
| 통계학의 이해 Ⅰ- 7주차 확률변수와 확률분포 (0) | 2021.01.10 |
| 통계학의 이해 Ⅰ- 6주차 조건부확률 (0) | 2021.01.03 |
댓글