통계분석 - 통계 개념

데이터분석 by파이썬

by evaseo 2021. 3. 7. 14:20

(1) 기댓값, 분산, 표준편차

１) 기댓값

① 특정 사건이 시행되었을 때 확률변수 X가 취할 수 있는 값의 평균

② 확률변수 X의 값과 그 X가 발생할 확률의 곱들의 합

③ 관측될 것이라고 기대되는 관측 값에 대한 평균이라서 기댓값이라고 한다.

④ 확률변수의 평균(모평균)은 통계분석의 중요한 추론의 대상

２) 분산(variance)

① 데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도

② 편차 제곱의 평균

※ 편차(difference) = 변량 – 평균: 평균과의 차이, 모든 편차의 합은 0

③ 분산 값이 클수록 데이터 값이 평균으로부터 떨어짐 정도(퍼짐의 정도)가 커진다.

④ 분산이 작을수록 분포가 고르다.

⑤ 사실 분산을 숫자로 표시하긴 하지만, 그 숫자를 보고 어느정도 퍼짐이 있는지 추측하기 어려워 보통은 산점도 그래프(Scatter plot)를 사용하여 분산의 퍼짐 정도를 확인한다.

⑥ 확률변수의 분산

i. 확률변수가 취할 수 있는 값들이 그 중심(모평균)에서 얼마나 떨어져 있는지를 측정하는 척도

ii. 이미 측정 되어있는 값에 대한 것이 아니고 앞으로 측정 또는 관측될 가능성이 있는 값들에 대한 척도

３) 표준편차(Standard Deviation)

① 자료의 산포도를 나타내는 수치로 분산의 양의 제곱근

② 제공해서 값이 부풀려진 분산을 제곱근해서 다시 원래 크기로 만든다.

③ 기존 자료와 단위 통일을 위해 사용

(2) 첨도와 왜도

１) 첨도(Kurtosis)

① 확률분포의 뾰족한 정도를 나타내는 측도

② 3에 가까울수록 정규분포 모양을 갖는다

③ 정규분포의 첨도를 보통 0으로 나타내기 위해 첨도 값에서 3을 빼서 사용

④

２) 왜도(skewness)

① 확률분포의 비대칭 정도를 나타내는 측도

② 왜도 값이 0인 경우에 정규분포와 유사한 모습으로 평균, 중앙값, 최빈값이 모두 같다.

③

(3) 공분산과 상관계수

１) 공분산(covariance)

① 두 확률변수 X, Y의 상관 정도를 나타내는 값

② 하나의 확률변수가 증가할 때 다른 확률변수가 증가하는지 혹은 감소하는지 알 수 있다.

③

④

⑤

⑥ 두 확률변수 X, Y가 독립이면

２) 상관계수(Correlation)

① 두 변량 X, Y 사이의 상관관계의 정도를 나타내는 수치(계수)

② 공분산은 0을 기준으로 양 또는 음의 상관정도만 파악 가능하고 어느 정도의 선형성을 갖는지는 알 수 없다.

③ 상관계수는 -1과 1사의 값을 가지며 선형성 정도를 보여줌

④

⑤ 상관계수의 분석

i. 완전 비례

ii. 완전 반비례

iii. 관계없음 = 두 확률변수 X, Y가 독립

'데이터분석 by파이썬' 카테고리의 다른 글

t – test (0)	2021.03.09
교차분석(카이제곱분석) (0)	2021.03.07
통계분석 - 추정과 가설검정 (0)	2021.03.07
통계분석 - 확률과 확률분포 (0)	2021.03.07
통계분석 (0)	2021.03.06

데이터공부기록

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'데이터분석 by파이썬' 카테고리의 다른 글

관련글 더보기

추가 정보

인기글

최신글

티스토리툴바