1. 앞부분 복습
과거 원인과 결과에 따른 데이터를 가지고 컴퓨터를 학습시키는 거는 지도학습.(이때 종속변수가 양적, 범주형(후보가 유한)이어야해)
많은 양의 독립변수와 종속변수 데이터를 컴퓨터에 학습시키면 컴퓨터는 모델을 만들어내. 그 모델에 미래 독립변수를 넣으면 예측해서 종속변수가 나오는 거임
추가로 종속변수가 양적이냐 범주형이냐에 따라 학습의 방법이 달라. 양적은 회귀의 방법을, 범주형은 분류의 방법으로.
->데이터에 따라 좋은 모델을 만들 수 있는 방법도 여러개고 학습방법에 따라서도 모델의 성능이 가지각색임.
2. 지도학습의 기본방법
Linear regression의 학습방법으로 모델을 만들고, 독립변수와 참고하고 싶은 (날짜만 있는) 데이터를 불러오면 됨
그리고 prediction을 이용해서 독립변수에 따른 종속변수 예측값을 구할 수 있음
=>결국 학습시기기 위해서 필요한 가장 기본적인 골격은 1. 학습시키려는 데이터가 있어야해(원과 결과로 나눠져 있어야해) 2. 그 데이터로 만들어진 모델에 예측하고 싶은 데이터를 넣으면 예측된 결과가 나옴. 그 결과를 통해 의사결정을 할 수 있음
확실히 오렌지는 그림이 그려져 있어서 시각적으로 보기가 너무 편하다.
3-1. 보다 현실적인 사례
대충 변수간 관계를 컴퓨터가 지어서 공식을 만들었다...는 애기
3-2. 경쟁시키기(컴퓨터의 학습방법을 선택하기 위해)
원리를 오렌지3로 이해해보자!
=>file에 저 boston-housing price 업로드하고 Linear Regression(종속변수가 숫자형이므로!!!! )를 통해 원인변수와 종속변수간 관계를 학습시켜 모델로 만들고 모델과 예측하고 싶은 원인데이터를 prediction으로 연결!!
두번째 학습방법인 Neural Network를 사용
그러면 다른 학습방법들은 어떨까라는 의문이...든당
근데 성능 좋은 걸(차이를 적게 내는 예측 모델) 찾는게 또 어려울 거 같기도...
3-3. 평가하기
저 표의 원리는 '오차 제곱의 평균 MSE(Mean Squared Error)이 작을 수록 좋다!'임
결국 어떤 모델을 사용할지 비교하고 평가하기 위한 지표는 (R)MSE임.
3-4. 공정하게 평가하기
지금가지 배운 것 : 독립변수와 종속변수를 가지고 컴퓨터에게 학습시키고 그걸 바탕으로 모델을 만들면 이후에 원인 변수를 가지고 결과 변수를 예측하게 됨
=>이때 우리가 만든 모델이 얼마나 잘 작동하는지 보려면, 원본의 결과와 모델을 통해 예측된 경과를 비교하면 된다는것
근데 문제는 Train data를 가지고 모델을 만들고 그 값으로 예측을 했었기에.... 제대로된 test를 하기 위해서는 test data를 가지고 예측값을 을 측정해야지(train data로는 모델을 만들고)
=>각각의 학습방법을 모르는데도 비교,평가를 통해 최적의 학습방법을 찾아 가장 좋은 모델을 뽑아낼 수 있는 틀을 알게 됬다고 해야하낭
겁쟁이한테는 진입장벽 낮은 거부터 시작해서 이해시키는게 맞는거 같다하하
'cs,코딩,알고리즘 > 생활코딩(머신러닝기초)' 카테고리의 다른 글
#2. Orange3 지도학습(2) (0) | 2021.08.23 |
---|---|
코딩애플-텐서플로우 딥러닝 기초(1) (0) | 2021.08.19 |
#2. Orange3 3,4일차 - 통계와 시각화&머신러닝 (0) | 2021.08.03 |
#1. Orange3 1,2일차 - OT및 설치와 기본 사용법, 표 다루기 (0) | 2021.08.02 |
#5. 머신러닝 야학_5일차(비지도학습, 강화학습) (0) | 2021.07.24 |