I. t – test
1. 개요
(1) 두 집단간의 평균이 통계적으로 유의미한 차이를 보이고 있는지의 여부를 검증할 때 사용되는 분석방법
(2) 모집단의 분산이나 표준편차를 알지 못할 때 표본분산으로 검정
(3) 통상적으로 표본의 크기가 30이상이면 표준정규분포와 비슷하다고 본다
(4) 모 표준편차를 모르거나 표본의 크기가 30미만이면 주로 사용하지만 모집단이 정규분포를 따른다는 가정이 있다면 표본의 크기에 관계없이 t-분포 사용가능
(5) 표본의 크기가 커질수록 중심극한의 정리에 따라 평균이 0에 가까워진다.
2. 정규성 검정
(1) 데이터 분포가 정규분포를 따르는지 검정
(2) 중심극한 정리에 따라 표본의 크기가 30이 넘으면 정규분포를 따른다고 가정하기 때문에 30개 미만의 데이터에 검사적용
(3) 정규성 검정 종류
1) 보통 표본의 크기가 30이상이면 중심극한 정리에 따라 표본집단은 정규성을 따른다고 본다
2) 표본의 크기가 10이상 30미만일 때 정규성 검정
3) 표본의 크기가 10미만일 때는 비모수 검정 시행
4) Shaprio-Wilks test
① 표본수(n)가 2000 미만인 데이터에 적합한 정규성 검정
② 데이터가 정규 분포에서 추출되었다는 귀무가설을 검정
③ 함수: stats.shapiro(data)
i. shapiro-test statisitic과 p-value반환
ii. p-value > 0.05: 정규성 성립
5) Kolmogorove-Smirnov test: 표본수(n)가 2000 초과인 데이터에 적합한 정규성 검정
① 함수: stats.ks_2samp(data1, data2, alternative='two-sided', mode='auto')
i. 2 개 표본에 대한 Kolmogorov-Smirnov 통계량을 계산
ii. 2 개의 독립적인 표본이 동일한 연속분포에서 추출된다는 귀무가설에 대한 양측 검정
iii. alternative='two-sided'/ 'less'/ 'greater': 귀무가설에 대한 양측 또는 단측검증 설정
iv. mode: p- 값을 계산하는 데 사용되는 방법을 정의
v. p-value가 0.05보다 크면 두 표본이 동일한 분포를 가진다는 뜻, 정규성 성립
6) Quantile-Quantile plot (Graphic test)
① 정규분포를 따르는지 판단하는 시각적 분석 방법
② 분석할 데이터 종류가 많지 않다면, QQplot을 통해 시각적으로 확인해보는게 가장 간단하며 직관적
③ Q-Q plot: 잔차의 정규성 확인 그래프
④ stats.probplot(data, plot=plt)
⑤ plot=plt: 기준이되는 직선 그래프 그려주기
⑥ QQplot 의 점들이 직선상에 놓이면 자료가 해당 분포를 잘 따르거나 두 모집단 분포가 같다고 해석할 수 있다.
3. 등분산성 확인
(1) 정규분포를 따르는 두 집단의 분산이 같은지 확인하는 검정
(2) scipy에서 제공하는 함수
1) fligner(집단1, 집단2...): scipy.stats.fligner
2) levene(집단1, 집단2...): scipy.stats.levene
3) bartlett(집단1, 집단2...): scipy.stats.bartlett – 비모수 검정에 사용
4) p-value가 0.05보다 크면 등분산성 성립
4. 단일표본검정(one - sample t-test)
(1) 하나의 집단에 대한 표본평균이 예측된 모평균과 동일 여부를 검정
(2) 하나의 모집단의 평균값을 특정 값과 비교하는 경우 사용하는 통계적 분석방법
(3) 종류
1) 단측검정: 모수 값이 ‘~보다 크다’ 혹은 ‘~보다 작다’와 같이 한쪽으로의 방향성을 갖는 경우 수행되는 검정방법
2) 양측검정: 모수 값이 ‘~이다’ 혹은 ‘~이 아니다’와 같이 방향성이 없는 경우 수행되는 검정방법
(4) 자유도가 (n-1)인 t검정 통계량: $$t=\frac{\overline{X}-\mu}{\frac{s}{\sqrt{n}}}$$
5. 이(독립)표본 검정(independent sample t-test)
(1) 서로 독립적인 두 개의 집단에 대하여 모수(모평균)의 값이 같은 값을 갖는지 통계적으로 검정하는 방법
(2) 조건
1) 두 집단은 정규분포를 따른다.
2) 두 집단의 분산이 같아야 한다. (등분산성)
3) 그래서 이표본 t-test 전에 정규성과 등분산성 확인작업이 선행되어야 한다.
(3) stats.ttest_ind(집단1, 집단2, equal_var=True/False)
1) t값과 p-value를 반환
2) equal_var=True: 등분산성 만족(디폴트 값), 생략가능
3) 정규성은 따르는데 등분산성을 만족하지 않는다면 equal_var= False로 t-test검정 가능
☞ 등분산이 만족되지 않으면 자유도를 수정하여 근사적인 방법으로 독립표본 T 검정을 시행하는 원리
6. 대응표본 검정(paired t-test)
(1) 동일한 대상에 대해 두 가지 관측치가 있는 경우 이를 비교하여 차이가 있는지 검정할 때 사용
(2) 집단 간 비교가 아니므로 등분산성 검정을 할 필요가 없다.
(3) 주로 실험 전후의 효과를 비교하기 위해 사용
(4) 예를 들어, 새로운 정책이 시행된 후의 부동산 가격의 전후 변화
(5) stats.ttest_rel(이전데이터, 이후데이터): t값과 p-value반환
data_mann = stats.mannwhitneyu(df1.jikwon_pay, df2.jikwon_pay)
print(data_mann)
[참고] 정규성 검정 (Normality Test) :: BioinformaticsAndMe (tistory.com)
상관분석 (0) | 2021.03.12 |
---|---|
분산분석(ANOVA) (0) | 2021.03.10 |
교차분석(카이제곱분석) (0) | 2021.03.07 |
통계분석 - 추정과 가설검정 (0) | 2021.03.07 |
통계분석 - 통계 개념 (0) | 2021.03.07 |