본문 바로가기
책&강의 학습/통계학의 이해

통계학의 이해 Ⅰ- 8주차 분산과 표준편차

by 소한보 2021. 1. 10.

1. 분산과 표준편차

모분산

표본분산
표본의 크기는 n, 표본이 가질 수 있는 값은 {x1.. xk}
ni : 표본중 xi값을 가지는 표본의 수
$$s^2 = \frac{n-1}{n} \sum_{i=1}^{k}(x_i-\bar{x})^2p_i$$
pi = n/ni

n을 계속 크게하면
표본분산은 모분산으로 수렴
$$ \sigma^2 = \sum_{i=1}^{k}(x_i-\mu)^2f(x_i)$$
확률변수 X의 분산을 Var(X)로 표시
$$ Var(X) = \sum_{x}(x-\mu)^2f(x) = E((X-\mu)^2)$$
$$ g(X) = (X-\mu)^2의 기대값$$
$$Var(X) = E(X^2)-\mu^2 = E(X^2) - E(X)^2$$

$$ Var(X) = \sum_{x}(x-\mu)^2f(x) = E((X-\mu)^2)$$

표준편차
$$ \sigma = \sqrt{\sigma^2} = SD(X) $$

분산의 성질

  • 상수는 영향을 주지 않음(위치의 이동은 분산에 영향을 주지 않는다)
  • 분산은 측정단위으 제곱이기 때문에 a의 제곱을 곱함
    $$ var(aX+b) = a^2Var(x) $$
    $$ SD(aX+b) = |a|SD(X) $$

예) 균일분포

X ~ U(0,1) : Unifrom distribution 구간(0,1)에서 균등하게 분포 -> 균일분포
E(X) = 1/2
$$ E(X^2) = \int_{0}^{1}x^2dx= \frac{3}{1} -> Var(X) = \frac{12}{1}$$

2. 결합분포와 주변분포

두 확률변수의 확률구조를 설명하기 위한 결합분포

결합분포(joint distribution)

두개 이상의 확률변수들을 동시에 고려한 확률분포
두 이산확률변수 X,Y에 대해
$$ f(x,y) = P(X=x, Y= y)$$
f(x,y) : 결합확률질량함수
f(x,y) 또한 0~1사이 값을 갖음

연속확률변수의 경우

f(x,y) ≥ 0
부피는 = 1

주변분포(marginal distribution)

표본공간이 사건 B1 .. Bn으로 분할될때 사건 A의 확률
$$ P(A) = \sum_{i=1}^{n}P(A \cap B_i)$$
사건 A가 X = x, Bi가 Y= yi라고 하면
$$ P(A \cap B_i) = P(X= x, Y= y_{i}) $$

fX(x) : X의 주변확률질량함수
이산확률변수
$$f_{X}(x) = \sum f(x,y) $$
$$f_{Y}(y) = \sum f(x,y) $$
연속확률변수
$$f_{X}(x) = \int f(x,y)dy $$
$$f_{Y}(y) = \int f(x,y)dx $$

독립확률변수

사건 A와 B는 독립 P(A∩B) = P(A)P(B)
$$f(x,y) = f_X(x)f_Y(y)$$
결합분포에 0이 있는 경우 독립이 아님
x,y값이 별개인 경우 독립

3. 공분산과 상관계수

이산확률변수
$$E(X+Y) = \sum\sum(x+y)f(x,y) = E(X)+E(y)$$
$$E(Xy) = \sum\sum xyf(x,y) = E(X)E(Y) 단, X Y가 독립일때 $$

공분산

표본공분산
$$ c_{x,y} = \frac{n-1}{1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i - \bar{y}) $$
두확률변수 X와 Y의 공분산

공분산이 0일때 독립이 아닐 수 있음

기댓값정리

상수는 영향을 주지 않음
Cov(aX+b, cY+d) = abCov(X,y)
Var(X±Y) = Var(X) + Var(Y) ± 2Cov(X,Y)
X와 Y가 독립이면 Var(X±Y) = Var(X) + Var(Y)

상관계수

표준화 변수들의 공분산
$$ Cov(U,V) = E(UV) = \frac{\sigma_X \sigma_Y}{Cov(X,y)}$$

두 확률변수 X, Y의 상관계수
$$ \rho = Cor(X,Y) = \frac{\sqrt{Var(X)} \sqrt{Var(Y)}}{Cov(X,y)} $$

상관계수의 성질

  • -1~1 사이
  • 어떤 직선을 중심으로 확률(밀도)가 모여있을 수록 |p|는 1에 근접
  • Y= aX+b이면 |ρXY| = 1
  • Cor(aX+b, cY+d) = sign(a)sign(b)Cor(X,Y)

댓글