상세 컨텐츠

본문 제목

통계분석 - 통계 개념

데이터분석 by파이썬

by evaseo 2021. 3. 7. 14:20

본문

 

(1)     기댓값, 분산, 표준편차

1)       기댓값

        특정 사건이 시행되었을 때 확률변수 X가 취할 수 있는 값의 평균

        확률변수 X의 값과 그 X가 발생할 확률의 곱들의 합

        관측될 것이라고 기대되는 관측 값에 대한 평균이라서 기댓값이라고 한다.

        확률변수의 평균(모평균)은 통계분석의 중요한 추론의 대상

 

2)       분산(variance)

        데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도

        편차 제곱의 평균

 

     편차(difference) = 변량 평균: 평균과의 차이, 모든 편차의 합은 0

 

        분산 값이 클수록 데이터 값이 평균으로부터 떨어짐 정도(퍼짐의 정도)가 커진다.

        분산이 작을수록 분포가 고르다.

        사실 분산을 숫자로 표시하긴 하지만, 그 숫자를 보고 어느정도 퍼짐이 있는지 추측하기 어려워 보통은 산점도 그래프(Scatter plot)를 사용하여 분산의 퍼짐 정도를 확인한다.

        확률변수의 분산

i.     확률변수가 취할 수 있는 값들이 그 중심(모평균)에서 얼마나 떨어져 있는지를 측정하는 척도

ii.    이미 측정 되어있는 값에 대한 것이 아니고 앞으로 측정 또는 관측될 가능성이 있는 값들에 대한 척도

 

3)       표준편차(Standard Deviation)

        자료의 산포도를 나타내는 수치로 분산의 양의 제곱근

        제공해서 값이 부풀려진 분산을 제곱근해서 다시 원래 크기로 만든다.

        기존 자료와 단위 통일을 위해 사용

 

(2)     첨도와 왜도

1)       첨도(Kurtosis)

        확률분포의 뾰족한 정도를 나타내는 측도

        3에 가까울수록 정규분포 모양을 갖는다

        정규분포의 첨도를 보통 0으로 나타내기 위해 첨도 값에서 3을 빼서 사용

       


2)       왜도(skewness)

        확률분포의 비대칭 정도를 나타내는 측도

        왜도 값이 0인 경우에 정규분포와 유사한 모습으로 평균, 중앙값, 최빈값이 모두 같다.

         


(3)     공분산과 상관계수

1)       공분산(covariance)

        두 확률변수 X, Y의 상관 정도를 나타내는 값

        하나의 확률변수가 증가할 때 다른 확률변수가 증가하는지 혹은 감소하는지 알 수 있다.

       

       

       

        두 확률변수 X, Y가 독립이면

 


2)       상관계수(Correlation)

        두 변량 X, Y 사이의 상관관계의 정도를 나타내는 수치(계수)

        공분산은 0을 기준으로 양 또는 음의 상관정도만 파악 가능하고 어느 정도의 선형성을 갖는지는 알 수 없다.

        상관계수는 -1 1사의 값을 가지며 선형성 정도를 보여줌

       

        상관계수의 분석

i.    완전 비례

ii.   완전 반비례

iii.  관계없음 = 두 확률변수 X, Y가 독립


 

'데이터분석 by파이썬' 카테고리의 다른 글

t – test  (0) 2021.03.09
교차분석(카이제곱분석)  (0) 2021.03.07
통계분석 - 추정과 가설검정  (0) 2021.03.07
통계분석 - 확률과 확률분포  (0) 2021.03.07
통계분석  (0) 2021.03.06

관련글 더보기