데이터공부기록

고정 헤더 영역

글 제목

메뉴 레이어

데이터공부기록

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 분류 전체보기 (58)
    • Django (14)
    • Python (26)
    • 데이터분석 by파이썬 (16)
    • 머신러닝 정리 (2)

검색 레이어

데이터공부기록

검색 영역

컨텐츠 검색

전체 글

  • 회귀분석 - 6. 일반형 선형회귀(GLM, Generalized Linear Regression)

    2021.12.06 by evaseo

  • 분류(Classification) 평가지표

    2021.06.16 by evaseo

  • 회귀(regression) 평가

    2021.06.06 by evaseo

  • 2. 사이킷런(scikit-learn)

    2021.06.06 by evaseo

  • 1. 머신러닝 개요

    2021.06.02 by evaseo

  • 회귀분석 - 5. 회귀분석 사용 함수

    2021.06.01 by evaseo

  • 회귀분석 - 4. 회귀분석 결과 해석

    2021.06.01 by evaseo

  • 회귀분석 - 3. 유의성 검증, 결정계수

    2021.06.01 by evaseo

회귀분석 - 6. 일반형 선형회귀(GLM, Generalized Linear Regression)

1. 일반화 선형회귀: 기존의 선형 회귀 모형에서 종속변수의 분포를 정규분포 포함한 여러분포로 확장하고, 기존 종속변수 평균과 독립변수의 선형 관계를 종속변수 평균의 함수와 독립변수의 선형 관계로 확장한 모형 2. 구성요소 (1) 확률요소(Random Component) 1) 종속변수의 확률분포를 규정하는 성분 2) GLM에서는 종속변수의 확률분포를 지수족(Exponential Family) 분포로 확장 (2) 선형예측자(Linear predictor, 체계적 성분): 종속변수의 기대값을 정의하는 독립변수들 간의 선형결합 (3) 연결함수(Link Function): 선형 예측자와 종속변수의 평균을 연결해주는 함수 g(μ) = X·B (4) 지수족 분포의 정준 연결 canonical link 종속변수분포 ..

데이터분석 by파이썬 2021. 12. 6. 16:39

분류(Classification) 평가지표

1. 분류모형 성과평가 (1) 분류분석이 내놓은 답과 실제 정답이 어느 정도 일치하는지를 판단 (2) 일반화, 효율성, 정확성을 기준으로 모형 평가 방법이 필요 1) 일반화: 다른 데이터에서도 안정적으로 적용 가능여부 2) 효율성: 모형의 계산 양에 비한 모형의 성능 고려 3) 정확성: 구축된 모형의 분류 정확성 (3) 오분류표, 오차행렬(혼동행렬, Confusion Matrix) 1) 분류분석 후 예측한 값과 실제 값의 차이를 교차 표 형태로 정리한 것 2) 실제 값과 예측치의 값에 대한 옳고 그름을 표로 나타낸 것 3) 분류의 예측 오류가 얼마인지와 더불어 어떠한 유형의 예측 오류가 발생하는지 나타내는 지표 4) 분류오차의 정확한 추정치를 얻기 위해서 평가용(test) 데이터로부터 계산되어 얻은 표 ..

데이터분석 by파이썬 2021. 6. 16. 19:01

회귀(regression) 평가

d

데이터분석 by파이썬 2021. 6. 6. 19:51

2. 사이킷런(scikit-learn)

대표적인 파이썬 ML 라이브러리 특징 1. 쉽고 가장 파이썬스러운 API 제공 2. 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API 제공 3. 오랜기간 실전 환경에서 검증되었으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리 설치 1. Anaconda를 설치하면 기본적으로 사이킷런도 함께 설치됨 2. 별도 설치시엔 pip와 conda 명령어를 통해 설치 3. conda 명령어로 설치 시엔 사이킷런 구동에 필요한 넘파이나 사이파이 등의 다양한 라이브러리를 동시 설치가 가능 용어정리 1. 하이퍼 파라미터 (1) 머신러닝 알고리즘별 최적의 학습을 위해 직접 입력하는 파라미터들을 통칭 (2) 알고리즘의 성능을 튜닝 2. Estimator 클래스 (1) 지도학습의 모든 알고리즘(분..

머신러닝 정리 2021. 6. 6. 18:50

1. 머신러닝 개요

배경: 현실세계의 매우 복잡한 조건으로 인해 기존의 소프트웨어 코드만으로는 해결하기 어려웠던 많은 문제점들을 해결하기 위해 필요성 대두 머신러닝(Machine Learning) 1. 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법을 통칭 2. 머신러닝 알고리즘: 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터 내의 패턴을 스스로 인지하고 신뢰도있는 예측 결과를 도출 3. 머신러닝이 데이터를 관통하는 패턴을 학습하고, 이를 기반한 예측을 수행하면서 데이터 분석 영역에 새로운 혁신을 가져옴 4. 데이터에 매우 의존적이라는 것이 단점 - garbage in, garbage out 머신러닝 모델 구축 프로..

머신러닝 정리 2021. 6. 2. 17:59

회귀분석 - 5. 회귀분석 사용 함수

1. 모델 無: from sklearn.datasets import make_regression (1) make_regression( n_samples = 100 , n_features = 100, bias = 0.0 , coef = False/True) (2) 0이 아닌 회귀 변수가 있는 (잠재적으로 편향된) 임의 선형 회귀 모델을 적용하여 생성 (3) n_samples 1) 기본값 = 100 2) 샘플 수 (4) n_features 1) 기본값 = 100 2) 독립변수 개수 (5) bias = 0.0: y 절편 (6) coef = True 1) 기울기 2) 디폴트 값 False (7) 반환값 1) X ndarray of shape (n_samples, n_features) ① 입력 샘플 ② 2차원 m..

데이터분석 by파이썬 2021. 6. 1. 23:30

회귀분석 - 4. 회귀분석 결과 해석

1. 회귀분석 결과 해석 (1) coef: 추정치 1) Intercepter의 coef: y절편 2) 변수의 coef: 변수의 회귀계수(기울기) (2) std err: 표준오차 (3) t: t-value 1) 독립변수와 종속변수 간에 선형관계(관련성)가 존재하는 정도 2) t-통계량 = 회귀계수/표준오차 (4) P>| t |: p-value (5) Intercept에서는 coef만 보고 변수는 각 항목들에 집중해서 봐야함 (6) R-squared: 결정계수 (7) Adj. R-squared: 수정된 결정계수 (8) F-statistic: F-통계량 1) 원래는 두 집단 간의 분산의 차이를 확인할 때 사용 2) 변수의 t값을 제곱한 값 3) 회귀계수가 큰 경우 분산의 차이도 커지므로 F-값도 크게 나옴 ①..

데이터분석 by파이썬 2021. 6. 1. 16:47

회귀분석 - 3. 유의성 검증, 결정계수

1. 회귀모형의 통계적 유의성 검증 (1) F-검정으로 확인 (2) F – statistic(F-통계량)이 크다 1) 기울기(회귀계수)가 크다 2) 가파르다 3) 변수 간에 유의미한 인과관계가 존재 p-value < 0.05 4) F값이 0에서 얼마나 가까운지를 확률적으로 측정한 값 p-value는 상대적으로 작아진다(반비례) 2. 회귀계수의 유의성 검증 (1) t-검정으로 확인 (2) t-통계량 = 회귀계수/표준오차 (3) t-통계량이 크다 = 표준오차가 작다, 회귀계수가 크다 = 유의미한 인과관계 검증 3. 모형의 설명력 (1) 회귀선에 데이터들이 밀접하게 분포하고 있는지를 나타내는 것 (2) 인과관계의 정도(강도)를 알 수 있다. (3) 설명력이 좋다 = 데이터들의 분포가 회귀선에 밀접하게 분포한다..

데이터분석 by파이썬 2021. 6. 1. 16:47

추가 정보

인기글

최신글

페이징

이전
1 2 3 4 ··· 8
다음
TISTORY
데이터공부기록 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바