본문 바로가기
책&강의 학습/통계학의 이해

통계학의 이해 Ⅰ- 3주차 일변량 자료에 대한 수치적 기술통계

by 소한보 2021. 1. 3.

1.수치자료 분포의 중심위치

표본평균(Sample mean)

표본의 합을 표본크기로 나눈 값
편차의 합은 0 이상치에 민감함(robust함)

가중평균(Weighted mean)

표본에 가중치가 존재할때
$$\bar{x} = \frac{1}{W}\sum_{i=1}^{n}w_{i}x_{i}$$

기하평균(Geometric mean)

연평균증가율을 구할때 사용
$$\bar{x}_{G}=(\prod_{i=1}^{n}x_{i})^{1/n}$$

조화평균(Harmonic mean)

일정거리를 이동할때 평균 속도를 구할때 사용
$$\bar{x}_{H} = \frac{n}{1/x_{1}+1/x_{2}+\cdots +1/x_{n}}$$

2.수치자료의 대체중심위치

표본중앙값(Sample Median)

자료를 크기순서대로 나열했을 떄 중간에 있는 값
장점 : 극단값에 영향을 받지 않음
단점 : 모든 값을 사용하지 않음
평균과 중앙값의 차이가 크지 않은 경우 평균사용, 차이가 있다면 문제에 따라 결정

절사평균(Sample Trimmed mean)

하위 a%부터 상위a%까지의 자료를 이용해서 표본평균을 계산
p = a/100이면 p분위수
a = 0 이면 표본평균, a = 50이면 중앙값

실제사용 : n개 중 상하위 k개를 제외하고 표본평균
예) 올림픽 점수

표본최빈값(Sample Mode)

자료 중 빈도가 높은 값
여러개 혹은 없을 수도 있음
히스토그램에서 가장 높은 밀도 지점으로 확인가능

3.수치자료의 산포

산포(Dispersion)

자료들이 얼마나 퍼져있는 나타내는 측도
중심위치가 얼마나 안정적인지 확인가능

범위(range)

자료 중 가장 큰값과 가장 작은 값의 차이
최대값과 최소값에만 영향받으므로 이상치에 민감함

사분위간범위(Interquartile-Range)

사분위수 : 자료를 동일한 비율로 4등분 할때의 세 위치
사분위간 범위(IQR) : Q3 - Q1
계산 방법 : k = (n-1)p+1, p= 0.25, 0.5, 0.75
정수가 아닌경우 내삽법으로 값을 계산

상자그림(box plot)

Q1-1.5IQR, Q3+1.5IQR 보다 큰 값은 이상점으로 표시
데이터의 산포를 대략적을 파악 가능

표본분산(Sample Variance)

$$s^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}$$
n-1 : 자유도

표본표준편차(Sample Standard deviation)

$$s = \sqrt{s^{2}} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}$$

표준화

시험의 경우 난이도가 상이하므로 원점수 대신 표준화점수로 성적을 비교
$$z_{i} = \frac{x_{i}-\bar{x}}{S_{x}}$$
표준화된 값의 평균은 0, 분산은 1

변동계수

표준편차가 평균에 영향을 받는 경우 표준편차로만 비교하는 것은 적절하지 않을 수 있음
따라서 평균으로 표준편차를 보정.
100를 곱해서 %개념으로 표시하기도 함
예) 체중 100kg, 50kg가 10kg씩 감량하는 경우
$$CV = \frac{s}{\bar{x}}$$

4.수치자료의 형태

심한 왜도, 첨도의 경우 이상치가 있을 가능성이 높음
정규분포의 경우 왜도=0, 첨도=3
Jacque-Bera검정
JB값이 클수록 정규성을 따르지 않음
$$JB = \frac{n}{6}{b_{1}+\frac{(b_{2}-3)^{2}}{4}}$$

왜도(Skewness)

자료가 대칭적으로 분포되어 있는지 한쪽으로 기울어져 있는지에 대한 측도
많이 떨어진 값들이 3승한 값에 영향을 많이 받음
평균에서 크면 양수, 작으면 음수가 나옴
꼬리가 긴경우를 heavy tail이라고 함
오른쪽꼬리분포(+), 왼쪽꼬리분포(-)
피어슨의 왜도
$$\sqrt{{b_{1}}} = \frac{1}{n-1}\sum_{i=1}^{n}(\frac{x_{i}-\bar{x}}{s})^{3}$$

첨도(kurtosis)

양쪼 꼬리가 얼마나 두터운지를 나타내는 값
꼬리가 길수록 값이 커짐
피어슨의 첨도
$${b_{2}} = \frac{1}{n-1}\sum_{i=1}^{n}(\frac{x_{i}-\bar{x}}{s})^{4}$$
정규분포의 경우 이론적으로 첨도는 3이므로 3이 기준이 되므로 -3을 함
$${b_{2}} = \frac{1}{n-1}\sum_{i=1}^{n}(\frac{x_{i}-\bar{x}}{s})^{4}-3$$

댓글