지도 학습: 데이터 분석의 목적이 명확하게 정의된 형태의 특정 필드 값을 구하는 것-> 분석하고 지식을 도출하는 것이 목적
분류: 속성값이 범주형-> 데이터의 실체가 어디에 속하는지 예측(그룹은 각각의 특성으로 정의되어있다.)
회귀: 속성값이 숫자(연속형)-> (여러 개의 독입변수와 한개의 종속변수 간의 상관관계를 알아내고 예측하는 것
데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법
=>머신러닝 회귀 예측의 핵심: 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것
#4. 머신러닝 야학_4일차(지도학습)
머신러닝 분류 지도학습 이해하기 과거의 데이터로부터 학습해서 결과 예측을 하게끔 도와준다(지금까지 했던 손톱, 레몬에이드 카페) => 충분히 많은 데이터, 독립변수와 종속변수의 관계가 명
jjrm.tistory.com
회귀
회귀계수 선형, 비선형의 여부에 따라 선형회귀, 비선형회귀
독립변수의 개수에 따라 단일회귀(1개), 다중회귀(여러개)
-> 이때 선형회귀는 실제값이랑 예측값의 차이(오류의 제곱합)를 최소화하는 직선형 회귀선을 최적화하는 방식
1. 단순회귀로 회귀 이해하기
: 독립변수 1, 종속변수 1인 선형 회귀
주택 가격이 주택의 크기로만 결정이 된다면, 일반적으로 주택의 크기가 크면 가격이 높아지는 경향이 있기 때문에 주택 가격은 주택 크기에 대해 선형(직선 형태)의 관계로 표현 가능
실제 값과 회귀 모델의 차이에 따른 오류 값을 남은 오류, 즉 잔차라고 부름
최소제곱법: 각 값(실제값)과 그래프 값(예측값) 차이를 각각 제곱해서 더한 뒤에 데이터의 갯수로 나누어줘
->최적의 회귀 모델을 만든다는 것은 바로 전체 데이터의 잔차(오류 값) 합이 최소가 되는 모델을 만든다는 의미 + 동시에 오류 값 합이 최소가 될 수 있는 최적의 회귀 계수를 찾는다는 의미
<맨 밑 RSS수식>
이 RSS는 비용이며 w 변수(회귀 계수)로 구성되는 RSS를 비용 함수라고 한다. 머신러닝 회귀 알고리즘은 데이터를 계속 학습하면서 이 비용 함수가 반환하는 값(즉, 오류 값)을 지속해서 감소시키고 최종적으로는 더 이상 감소하지 않는 최소의 오류 값을 구하는 것. 그래서 비용 함수를 손실 함수라고도 한다
2. 오차 최소화하기
w가 조금이라도 커지거나 작아지면 기울기가 바귀기 때문에 데이터와의 거리가 기하급수적으로 늘기 떄문에 2차함수의 형태가 나온다
결굴 w값을 global optimum(기울기가 0인 값에서 최대값혹흔 최소값이 만들어지는 이 지점)으로 만들어야 하는데, 바꿔줄 수 있는 아이는 기울기!
=>최적의 w를 찾기 위해서는 반복적으로 기울기를 움직여봐야 한다(경사하강법)
경사하강법: cost를 줄이기 위해서 기울기를 계산하여 변수의 값을 변경해나가는 방법 (점진적으로 반복적인 계산을 통해 W 파라미터 값을 업데이트하면서 오류 값이 최소가 되는 W 파라미터를 구하는 방식)
w와 b의 기울기는 미분을 통해 컨트롤한다
'cs,코딩,알고리즘 > <파이썬 머신러닝 완벽 가이드>스터디' 카테고리의 다른 글
사이킷런 Linear Regression_보스턴 주택 가격 예측 (0) | 2021.11.15 |
---|---|
분류 머신러닝 알고리즘(SMOTE, LightGBM을 이용)_신용사기검출 (0) | 2021.11.09 |
분류 머신러닝 알고리즘-결정트리(시각화와 과적합) (0) | 2021.10.04 |
지도학습 분류 모델 평가지표 (0) | 2021.09.27 |
피마 인디언 당뇨병 예측 (0) | 2021.09.25 |