1.수치자료 분포의 중심위치
표본평균(Sample mean)
표본의 합을 표본크기로 나눈 값
편차의 합은 0 이상치에 민감함(robust함)
가중평균(Weighted mean)
표본에 가중치가 존재할때
$$\bar{x} = \frac{1}{W}\sum_{i=1}^{n}w_{i}x_{i}$$
기하평균(Geometric mean)
연평균증가율을 구할때 사용
$$\bar{x}_{G}=(\prod_{i=1}^{n}x_{i})^{1/n}$$
조화평균(Harmonic mean)
일정거리를 이동할때 평균 속도를 구할때 사용
$$\bar{x}_{H} = \frac{n}{1/x_{1}+1/x_{2}+\cdots +1/x_{n}}$$
2.수치자료의 대체중심위치
표본중앙값(Sample Median)
자료를 크기순서대로 나열했을 떄 중간에 있는 값
장점 : 극단값에 영향을 받지 않음
단점 : 모든 값을 사용하지 않음
평균과 중앙값의 차이가 크지 않은 경우 평균사용, 차이가 있다면 문제에 따라 결정
절사평균(Sample Trimmed mean)
하위 a%부터 상위a%까지의 자료를 이용해서 표본평균을 계산
p = a/100이면 p분위수
a = 0 이면 표본평균, a = 50이면 중앙값
실제사용 : n개 중 상하위 k개를 제외하고 표본평균
예) 올림픽 점수
표본최빈값(Sample Mode)
자료 중 빈도가 높은 값
여러개 혹은 없을 수도 있음
히스토그램에서 가장 높은 밀도 지점으로 확인가능
3.수치자료의 산포
산포(Dispersion)
자료들이 얼마나 퍼져있는 나타내는 측도
중심위치가 얼마나 안정적인지 확인가능
범위(range)
자료 중 가장 큰값과 가장 작은 값의 차이
최대값과 최소값에만 영향받으므로 이상치에 민감함
사분위간범위(Interquartile-Range)
사분위수 : 자료를 동일한 비율로 4등분 할때의 세 위치
사분위간 범위(IQR) : Q3 - Q1
계산 방법 : k = (n-1)p+1, p= 0.25, 0.5, 0.75
정수가 아닌경우 내삽법으로 값을 계산
상자그림(box plot)
Q1-1.5IQR, Q3+1.5IQR 보다 큰 값은 이상점으로 표시
데이터의 산포를 대략적을 파악 가능
표본분산(Sample Variance)
$$s^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}$$
n-1 : 자유도
표본표준편차(Sample Standard deviation)
$$s = \sqrt{s^{2}} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}$$
표준화
시험의 경우 난이도가 상이하므로 원점수 대신 표준화점수로 성적을 비교
$$z_{i} = \frac{x_{i}-\bar{x}}{S_{x}}$$
표준화된 값의 평균은 0, 분산은 1
변동계수
표준편차가 평균에 영향을 받는 경우 표준편차로만 비교하는 것은 적절하지 않을 수 있음
따라서 평균으로 표준편차를 보정.
100를 곱해서 %개념으로 표시하기도 함
예) 체중 100kg, 50kg가 10kg씩 감량하는 경우
$$CV = \frac{s}{\bar{x}}$$
4.수치자료의 형태
심한 왜도, 첨도의 경우 이상치가 있을 가능성이 높음
정규분포의 경우 왜도=0, 첨도=3
Jacque-Bera검정
JB값이 클수록 정규성을 따르지 않음
$$JB = \frac{n}{6}{b_{1}+\frac{(b_{2}-3)^{2}}{4}}$$
왜도(Skewness)
자료가 대칭적으로 분포되어 있는지 한쪽으로 기울어져 있는지에 대한 측도
많이 떨어진 값들이 3승한 값에 영향을 많이 받음
평균에서 크면 양수, 작으면 음수가 나옴
꼬리가 긴경우를 heavy tail이라고 함
오른쪽꼬리분포(+), 왼쪽꼬리분포(-)
피어슨의 왜도
$$\sqrt{{b_{1}}} = \frac{1}{n-1}\sum_{i=1}^{n}(\frac{x_{i}-\bar{x}}{s})^{3}$$
첨도(kurtosis)
양쪼 꼬리가 얼마나 두터운지를 나타내는 값
꼬리가 길수록 값이 커짐
피어슨의 첨도
$${b_{2}} = \frac{1}{n-1}\sum_{i=1}^{n}(\frac{x_{i}-\bar{x}}{s})^{4}$$
정규분포의 경우 이론적으로 첨도는 3이므로 3이 기준이 되므로 -3을 함
$${b_{2}} = \frac{1}{n-1}\sum_{i=1}^{n}(\frac{x_{i}-\bar{x}}{s})^{4}-3$$
'책&강의 학습 > 통계학의 이해' 카테고리의 다른 글
| 통계학의 이해 Ⅰ- 8주차 분산과 표준편차 (0) | 2021.01.10 |
|---|---|
| 통계학의 이해 Ⅰ- 7주차 확률변수와 확률분포 (0) | 2021.01.10 |
| 통계학의 이해 Ⅰ- 6주차 조건부확률 (0) | 2021.01.03 |
| 통계학의 이해 Ⅰ- 5주차 확률의 기본개념과 원리 (0) | 2021.01.03 |
| 통계학의 이해 Ⅰ- 4주차 다변량 자료 기술통계 (0) | 2021.01.03 |
댓글