본문 바로가기

cs,코딩,알고리즘/<파이썬 머신러닝 완벽 가이드>스터디

(11)
회귀(Regression) 지도 학습: 데이터 분석의 목적이 명확하게 정의된 형태의 특정 필드 값을 구하는 것-> 분석하고 지식을 도출하는 것이 목적 분류: 속성값이 범주형-> 데이터의 실체가 어디에 속하는지 예측(그룹은 각각의 특성으로 정의되어있다.) 회귀: 속성값이 숫자(연속형)-> (여러 개의 독입변수와 한개의 종속변수 간의 상관관계를 알아내고 예측하는 것 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법 =>머신러닝 회귀 예측의 핵심: 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것 https://jjrm.tistory.com/18 #4. 머신러닝 야학_4일차(지도학습) 머신러닝 분류 지도학습 이해하기 과거의 데이터로부터 학습해서 결과 예측을 하게끔 도와준다(지..
사이킷런 Linear Regression_보스턴 주택 가격 예측 Linear Regression 클래스 :오차제곱합을 최소화해 OLS추정방식으로 구현한 클래스 fit()메서드로 x,y배열 입력 받으면 w(회귀계수)를 coef_속성에 저장 선형 회귀의 다중 공선성 문제 일반적으로 선형회귀는 입력피처의 독립성에 많은 영향을 받는다 피처 간의 상관관계가 매우 높은 경우 분산이 매우 커져서 오류에 민감해져 => 상관관계가 높은 피처가 많은 경우 독립적인 중요한 피처만 남긴다 회귀 평가지표 평가는 실제값와 예측값의 차이를 기반으로 실제값이랑 예측값을 그냥 빼버리면 상쇄가 된다->절대값 평균이나, 제곱, 제곱에 루트씌운 평균값을 구한다 MAE : Mean Absolute Error. 실제 값과 예측값의 차이를 절댓값으로 반환해 평균한것 MSE(=RSS) : Mean Square..
분류 머신러닝 알고리즘(SMOTE, LightGBM을 이용)_신용사기검출 몇주를 안했더니 말하는 감자가 되었다..... ADsP준비하면서 비슷한 용어들도 나와서 그나마 감을 다시 잡는데에는 시간이 얼마 안걸린것 같기도... 지도 학습: 데이터 분석의 목적이 명확하게 정의된 형태의 특정 필드 값을 구하는 것-> 분석하고 지식을 도출하는 것이 목적 분류: 속성값이 범주형-> 데이터의 실체가 어디에 속하는지 예측(그룹은 각각의 특성으로 정의되어있다.) 그래서 오늘 할 분류 실습은, 신용카드 데이터를 사용해서 신용카드 사기 검출을 분류하는 실습 ->성능 평가 결과 로지스틱 회귀와 LightGBM 모델 모두 변환 전과 후를 비교 신용 사기 검출 https://www.kaggle.com/mlg-ulb/creditcardfraud/version/3 Credit Card Fraud Dete..
분류 머신러닝 알고리즘-결정트리(시각화와 과적합) 명시적인 정답이 있는 데이터를 다룰 때에는 지도학습, 데이터의 피처와 레이블값(결정값, 클래스값)을 머신러닝 알고리즘으로 학습하는 것이 분류 => "기존 데이터가 어떤 레이블에 속하는지!" 결정트리 Base. 직관적인 이해 -결정 트리(Decision Tree, 의사결정트리, 의사결정나무라고도 함)는 분류(Classification)와 회귀(Regression) 모두 가능한 지도 학습 모델 -스무고개 하듯, if/else구문처럼 예/아니오 질문을 이어가며 학습한다. -다른 모델들과 다르게 결과를 시각적으로 읽기 쉬운 형태로 나타나는 것이 장정 => 대출을 원하는 사람이 신용평가를 하고 싶을 때(실질적으로 분류하는 경우에 자주 사용) 매, 펭귄, 돌고래, 곰을 구분한다고 생각해봅시다. 매와 펭귄은 날개를 ..
지도학습 분류 모델 평가지표 기계학습에서 모델이나 패턴의 분류 성능 평가에 사용되는 지표들. 어느 모델이든 간에 발전을 위한 feedback은 현재 모델의 performance를 올바르게 평가하는 것에서부터 시작한다. 분류를 편가하는 지표는 실제값과 예측값의 오차평균값이 아니다. 이러한 정확도만 가지고 판단했다가는 잘못된 평가결과가 나타날 수 있다. '긍정/부정'의 이진 분류도 존재하지만, 여러개의 결정 클래스 값을 가지는 멀티분류로 나뉠 수 있다. 모델의 분류 True Positive(TP) : 실제 True인 정답을 True라고 (정답)예측 False Positive(FP) : 실제 False인 정답을 True라고 (오답)예측 False Negative(FN) : 실제 True인 정답을 False라고 (오답)예측 True Neg..
피마 인디언 당뇨병 예측 머신러닝의 프로세스: 데이터 세트 가공.변환-> 모델 만들고 학습/예측-> 평가 오차행렬(Negative와 Positive 값을 가지는 실제 클래스 값과 예측 클래스 값이 True와 False에 따라 TN, FP, FN, TP오 나뉘는 행렬)을 기반으로 예측 성능을 평가. 이때 사용되는 분류 평가 지표는 positive 데이터 세트에 초점을 둔 정밀도(Precision)와 재현율(Recall), 이 둘을 결합한 F1 스코어, AUC가 있다. 이번에 사용할 데이터 세트는 피마지역의 인디언 당뇨병(Type-2) 데이터 세트. (고립된 지역에서 인디언 고유의 혈통이 지속되어왔지만 20세기 후반 서구화가 되며 식습관의 변화로 많은 당뇨환자가 생겨났다) www.kaggle.com/uciml/pima-indians..
2. 사이킷런-붓꽃 품종 분류하기 2. 사이킷런의 기반 프레임 워크 이해하기 사이킷런에서는 분류 알고리즘을 구현한 클래스를 Classifier로, 회귀 알고리즘을 구현한 클래스를 Regressor로 지칭하고, 이 둘을 합쳐 Estimator 클래스라고 부른다.(지도학습의 모든 알고리즘을 구현한 클래스를 통칭함) 이 Estimator 클래스는 fit()과 predcict()만을 이용해 간단하게 학습과 예측 결과를 반환한다. Scikit-learn class 구현 클래스 Estimator (분류+회귀) 학습: fit() 예측: predict() Classifier (분류) DecisionTreeClassifier RandomForestClassifier GradientBoostingClassifer GaussianNB SVC Regresso..
2. 사이킷런으로 시작하는 머신러닝(1)붓꽃분류 붓꽃 보자마자 생각난 것은 머신러닝 분류....(예전에 생활코딩들을 때 붓꽃예제를 분류의 예시로 이런이런 원리로 분류한다~~ 이런식으로만 하고 넘어가셨는데 어떻게 기억해냈지..ㅋㅋ) ->(아이리시꽃_머신러닝_지도학습_분류 게시글) https://jjrm.tistory.com/46 #2. Orange3 지도학습(2) 이전에는 종속변수가 범주형이 아닌 숫자형일 때 컴퓨터를 학습시키는 방법을 알아봤다(회귀) 4.1. 분류문제 소개 범주형 데이터(categorical)를 다루는 학습방법은 분류!(classification) 예제)아이리스 jjrm.tistory.com 사실 머신러닝하면 요즘은 다들 텐서플로우 같은 전문 라이브러리를 사용하니까.. 사이킷런은 처음 들어보는 라이브러리다.(가장 많이 사용된다고는 함)..