(1) 기댓값, 분산, 표준편차
1) 기댓값
① 특정 사건이 시행되었을 때 확률변수 X가 취할 수 있는 값의 평균
② 확률변수 X의 값과 그 X가 발생할 확률의 곱들의 합
③ 관측될 것이라고 기대되는 관측 값에 대한 평균이라서 기댓값이라고 한다.
④ 확률변수의 평균(모평균)은 통계분석의 중요한 추론의 대상
2) 분산(variance)
① 데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도
② 편차 제곱의 평균
※ 편차(difference) = 변량 – 평균: 평균과의 차이, 모든 편차의 합은 0
③ 분산 값이 클수록 데이터 값이 평균으로부터 떨어짐 정도(퍼짐의 정도)가 커진다.
④ 분산이 작을수록 분포가 고르다.
⑤ 사실 분산을 숫자로 표시하긴 하지만, 그 숫자를 보고 어느정도 퍼짐이 있는지 추측하기 어려워 보통은 산점도 그래프(Scatter plot)를 사용하여 분산의 퍼짐 정도를 확인한다.
⑥ 확률변수의 분산
i. 확률변수가 취할 수 있는 값들이 그 중심(모평균)에서 얼마나 떨어져 있는지를 측정하는 척도
ii. 이미 측정 되어있는 값에 대한 것이 아니고 앞으로 측정 또는 관측될 가능성이 있는 값들에 대한 척도
3) 표준편차(Standard Deviation)
① 자료의 산포도를 나타내는 수치로 분산의 양의 제곱근
② 제공해서 값이 부풀려진 분산을 제곱근해서 다시 원래 크기로 만든다.
③ 기존 자료와 단위 통일을 위해 사용
(2) 첨도와 왜도
1) 첨도(Kurtosis)
① 확률분포의 뾰족한 정도를 나타내는 측도
② 3에 가까울수록 정규분포 모양을 갖는다
③ 정규분포의 첨도를 보통 0으로 나타내기 위해 첨도 값에서 3을 빼서 사용
④
2) 왜도(skewness)
① 확률분포의 비대칭 정도를 나타내는 측도
② 왜도 값이 0인 경우에 정규분포와 유사한 모습으로 평균, 중앙값, 최빈값이 모두 같다.
③
(3) 공분산과 상관계수
1) 공분산(covariance)
① 두 확률변수 X, Y의 상관 정도를 나타내는 값
② 하나의 확률변수가 증가할 때 다른 확률변수가 증가하는지 혹은 감소하는지 알 수 있다.
③
④
⑤
⑥ 두 확률변수 X, Y가 독립이면
2) 상관계수(Correlation)
① 두 변량 X, Y 사이의 상관관계의 정도를 나타내는 수치(계수)
② 공분산은 0을 기준으로 양 또는 음의 상관정도만 파악 가능하고 어느 정도의 선형성을 갖는지는 알 수 없다.
③ 상관계수는 -1과 1사의 값을 가지며 선형성 정도를 보여줌
④
⑤ 상관계수의 분석
i. 완전 비례
ii. 완전 반비례
iii. 관계없음 = 두 확률변수 X, Y가 독립
t – test (0) | 2021.03.09 |
---|---|
교차분석(카이제곱분석) (0) | 2021.03.07 |
통계분석 - 추정과 가설검정 (0) | 2021.03.07 |
통계분석 - 확률과 확률분포 (0) | 2021.03.07 |
통계분석 (0) | 2021.03.06 |