본문 바로가기
책&강의 학습/통계학의 이해

통계학의 이해 Ⅰ- 7주차 확률변수와 확률분포

by 소한보 2021. 1. 10.

1. 확률변수란

확률변수

표본공간에서 정의된 실함수
표본공가에 있는 어떤 원소들을 숫자로 바꿔주는 역할을 함
불확실한 현상을 수학적으로 모형화 가능. 즉 계량화된 분석 가능

예시) 동전3개 던지기

X : 앞면의 수
Y : 앞면과 뒷면수의 차이

이산확률변수(Discrete random variable)

확률변수가 가질 수 있는 값들이 가산(countable) 또는 셀수 있는 경우
ex) 사고횟수

연속확률변수(Continous random variable)

가질 수 있는 값이 셀수 없이 많은 경우
ex) 수명, 신장, 체중

확률분포(Probability Distribution)

확률변수에 대해 어떤 사건이 일어날 확률을 계산할 수 있음
확률변수 값에 대해 확률을 표시한 것.
확률분포표 : 확률변수의 확률을 표로 표시한 것
모집단의 확률구조를 나타낸것.

2. 이산확률변수와 확률질량함수

확률질량함수(probability mass function)

$$f(x)=P(X=x)$$
확률변수 X를 강조
$$f_X(x)$$

예시) 젖혀진 윷이 나올때까지 던지기

x번 이전까지 실패하고 x번째 때 성공해야하는 구조를 가지므로
일반화하면 기하분포를 따름
$$f(x) = p(1-p)^{(x-1)}$$

확률질량함수의 성질

  • 가질수 있는 값이 0~1사이임
  • 모든 확률을 더하면 1
  • 임의의 a,b사이에 있을 확률은 그 사이값을 다 더하면 됨

누적분포함수(cumulative distribustion function)

$$P(X \leq x) = \sum_{(x_i \leq x)} f(x_i) = F(x), -\infty < x < \infty$$
누적분포함수에서 값이 상승하는 부분이 그 지점에서의 확률

확률변수의 변환

확률변수를 변환해도 확률변수

예시)

P(W=0) = 0.3
P(W=1) = 0.1+0.2 = 0.3
P(W=4) = 0.4

3. 연속확률변수와 확률밀도함수

확률밀도함수(probability density function)

전체면적은 1
f(x) = x에서의 높이(밀도)

예시) 0~12까지 숫자가 표시된 돌림판

X : 바늘이 지걱하는 위치
0~12사이에서 발생가능성이 동일

확률밀도함수에서의 확률

히스토그램의 면적 = 해당 구간에서의 비율(상대도수)
확률밀도함수의 면적 = 해당구간에서의 확률
X가 구간 [a,b]에 속할 확률
$$P(a \leq X \leq b) = \int_{a}^{b}f(x)dx$$
모든 x에 대해 P(X=x) = 0

x에서의 확률이 아니라 그 위치에서 상대적으로 얼마나 밀집되어 있는지를 나타낸 것

확률밀도함수의 성질

  • 모든 x에 대해 f(x) ≥ 0
  • 전체를 다 더하면 1
  • 임의의 a,b사이에 있을 확률은 a,b까지의 면적

누적분포함수(cumulative distribustion function)

$$P(X \leq x = \int_{-\infty}^{x}f(u)du = F(x)$$

이산확률변수의 누적분포와 달리 점프되는 값이 없음.
모든 지점에서는 확률은 0

확률변수의 기댓값

기댓값(expected value, expectation)

표본평균 : 관측된 값에 그 값이 표본에서 차치하는 비율을 곱해서 더 한 값
n이 계속 커지면, 표본-> 모집단, 표본평균 -> 모평균
$$ \bar{x} = \sum_{i} x_i p_i = \sum_{i} x_i f(x_i) = \mu $$

확률변수의 기댓값

확률변수에 대해 평균적으로 기대하는 값 = 모평균
확률분포의 무게중심.

이산확률변수 X의 기댓값

$$E(X) = \sum_{x}xf(x) = \mu $$

연속확률변수의 기댓값

$$E(x) = \int x(x)dx = \mu $$

변환된 변수의 기대값

$$ E(W) = \sum_{w}wf_W(w) $$
$$ E(W) = 0 x 0.3 + 1 x 0.3 + 4 x 0.4 = 1.9$$

확률변수 X의 함수 Y=g(X) 기대값

이산확률변수
$$ E(Y) = E(g(X)) = \sum_{x}g(x)f_X(x) $$
연속확률변수
$$ E(Y) = E(g(X)) = \int g(x)f_X(x)dx $$

예) X^2의 기대값

이산확률변수
$$ E(X^2) = \sum_{x}x^2f(x) $$
연속확률변수
$$ E(X^2) = \int x^2f(x)dx $$

기대값의 성질

  • 임의의 상수 a의 기대값
    E(a) = a
  • aX+b의 기대값
    $$E(aX+b) = \sum(ax+b)f(x)$$
    $$E(aX+b) = a\sum xf(x)+b = aE(X)+b $$
  • 임의의 함수 g1,g2에 대해
    E(g1(X)+g2(X) = E(g1(X)) + E(g2(X))

댓글