1. 분산과 표준편차
모분산
표본분산
표본의 크기는 n, 표본이 가질 수 있는 값은 {x1.. xk}
ni : 표본중 xi값을 가지는 표본의 수
$$s^2 = \frac{n-1}{n} \sum_{i=1}^{k}(x_i-\bar{x})^2p_i$$
pi = n/ni
n을 계속 크게하면
표본분산은 모분산으로 수렴
$$ \sigma^2 = \sum_{i=1}^{k}(x_i-\mu)^2f(x_i)$$
확률변수 X의 분산을 Var(X)로 표시
$$ Var(X) = \sum_{x}(x-\mu)^2f(x) = E((X-\mu)^2)$$
$$ g(X) = (X-\mu)^2의 기대값$$
$$Var(X) = E(X^2)-\mu^2 = E(X^2) - E(X)^2$$
$$ Var(X) = \sum_{x}(x-\mu)^2f(x) = E((X-\mu)^2)$$
표준편차
$$ \sigma = \sqrt{\sigma^2} = SD(X) $$
분산의 성질
- 상수는 영향을 주지 않음(위치의 이동은 분산에 영향을 주지 않는다)
- 분산은 측정단위으 제곱이기 때문에 a의 제곱을 곱함
$$ var(aX+b) = a^2Var(x) $$
$$ SD(aX+b) = |a|SD(X) $$
예) 균일분포
X ~ U(0,1) : Unifrom distribution 구간(0,1)에서 균등하게 분포 -> 균일분포
E(X) = 1/2
$$ E(X^2) = \int_{0}^{1}x^2dx= \frac{3}{1} -> Var(X) = \frac{12}{1}$$
2. 결합분포와 주변분포
두 확률변수의 확률구조를 설명하기 위한 결합분포
결합분포(joint distribution)
두개 이상의 확률변수들을 동시에 고려한 확률분포
두 이산확률변수 X,Y에 대해
$$ f(x,y) = P(X=x, Y= y)$$
f(x,y) : 결합확률질량함수
f(x,y) 또한 0~1사이 값을 갖음
연속확률변수의 경우
f(x,y) ≥ 0
부피는 = 1
주변분포(marginal distribution)
표본공간이 사건 B1 .. Bn으로 분할될때 사건 A의 확률
$$ P(A) = \sum_{i=1}^{n}P(A \cap B_i)$$
사건 A가 X = x, Bi가 Y= yi라고 하면
$$ P(A \cap B_i) = P(X= x, Y= y_{i}) $$
fX(x) : X의 주변확률질량함수
이산확률변수
$$f_{X}(x) = \sum f(x,y) $$
$$f_{Y}(y) = \sum f(x,y) $$
연속확률변수
$$f_{X}(x) = \int f(x,y)dy $$
$$f_{Y}(y) = \int f(x,y)dx $$
독립확률변수
사건 A와 B는 독립 P(A∩B) = P(A)P(B)
$$f(x,y) = f_X(x)f_Y(y)$$
결합분포에 0이 있는 경우 독립이 아님
x,y값이 별개인 경우 독립
3. 공분산과 상관계수
이산확률변수
$$E(X+Y) = \sum\sum(x+y)f(x,y) = E(X)+E(y)$$
$$E(Xy) = \sum\sum xyf(x,y) = E(X)E(Y) 단, X Y가 독립일때 $$
공분산
표본공분산
$$ c_{x,y} = \frac{n-1}{1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i - \bar{y}) $$
두확률변수 X와 Y의 공분산

공분산이 0일때 독립이 아닐 수 있음
기댓값정리
상수는 영향을 주지 않음
Cov(aX+b, cY+d) = abCov(X,y)
Var(X±Y) = Var(X) + Var(Y) ± 2Cov(X,Y)
X와 Y가 독립이면 Var(X±Y) = Var(X) + Var(Y)
상관계수
표준화 변수들의 공분산
$$ Cov(U,V) = E(UV) = \frac{\sigma_X \sigma_Y}{Cov(X,y)}$$
두 확률변수 X, Y의 상관계수
$$ \rho = Cor(X,Y) = \frac{\sqrt{Var(X)} \sqrt{Var(Y)}}{Cov(X,y)} $$
상관계수의 성질
- -1~1 사이
- 어떤 직선을 중심으로 확률(밀도)가 모여있을 수록 |p|는 1에 근접
- Y= aX+b이면 |ρXY| = 1
- Cor(aX+b, cY+d) = sign(a)sign(b)Cor(X,Y)
'책&강의 학습 > 통계학의 이해' 카테고리의 다른 글
| 통계학의 이해 Ⅰ- 10주차 주요 이산확률분포 (0) | 2021.01.25 |
|---|---|
| 통계학의 이해 Ⅰ- 9주차 분산과 표준편차 (0) | 2021.01.24 |
| 통계학의 이해 Ⅰ- 7주차 확률변수와 확률분포 (0) | 2021.01.10 |
| 통계학의 이해 Ⅰ- 6주차 조건부확률 (0) | 2021.01.03 |
| 통계학의 이해 Ⅰ- 5주차 확률의 기본개념과 원리 (0) | 2021.01.03 |
댓글