본문 바로가기

cs,코딩,알고리즘/생활코딩(머신러닝기초)

#2. Orange3 3,4일차 - 통계와 시각화&머신러닝

728x90

통계과 시각화

boxplot

내가 사용하는 데이터

아무리 어렵고 복잡하더라고 평균, 중앙값, 최빈값등(대푯값)으로 데이터의 성격을 지정하고자해) 

이때 정보를 시각화 하는게 boxplot

 

scatter plot

오렌지 3를 통해서 통계적인 정보를 얻을 수 있고 그 정보를 시각화할 수 있다. 요얘기!

판매량과 상관이 있는 열을 찾기 위해서는 판매량과 함게 변하는 데이터를 찾아야해. 서로 변하는 정도에 따른 상관을 알려주는게 scatterplot

 

산점도

왼쪽 상단에 데이터를 정하면 알 수 있다.

독립변수와 종속변수의 관계를 그래프로 보여주는 산점도=>이것을 통해 독립변수에 따른 종속변수를 예측할 수 있게 된다

 

경영통계에서 배운 거 복습하는 느낌이었다.(안다고 쉽게 보지 말 것!) 결국 데이터를 가지고 의미있는 통찰력을 얻는 과목이 통계구나를 또 새삼스럽게 느꼈다. 계산하는거 무섭다고 겁냈었는데 피할 수 없게 된 거 같다 겁내지,,말아야지..!..

 

머신러닝(오렌지3로 머신러닝을 다루는 방법)

원인과 결과를 기계가 스스로 파악할 수 있게 해주는 방법이 없을까?

원인과 결과를 기게에게 학습시켜서 그 둘의 관계를 공식으로 만들어낼 수 있게끔.

=>지도학습의 회귀라는 도구를 사용해서 온도를 입력하면 판매량이 출력되는 공식을 만들고자

(이전 것 정리: 우선 과거의 데이터가 있어야 하고 그 데이터를 독립, 종속변수로 나눌 줄 알아야 하고 그 변수들을 컴퓨터에게 학습시키면 그 관계를 설명할 수 있는 공식을 만들어. 그 공식을 모델이라고 함. 좋은 모델링 되려면 데이터가 많을 수록 정확해진다.)

.

 

보이고 싶지 않은 열은 skip, 그냥 보이게만 둘 열은 meta, 예측하고자 하는 열(종속변수)은 target, 독립변수는 feature로 지정

즉 feature조 지정한 특징들을 학습시켜서 우리가 원하는 target을 구하는 것!

그러면 어떻게 학습시켜야할까??

우리가 나타내는 변수들은 관계가 있어서 '선'(linear) 의 형태로 나타날 거임. linear regretion을 통해 모델을 만들어야해.

이후 prediction으로 미래 날씨에 따른 판매량을 예측해.

이때 linear regretion으로 얻은 모델을 입력하고 미래의 종속변수를 예측할 수 있는 독립변수를 입력해.

우오어......신기하다.. 눈에 너무 잘보여서 하기도 쉬웠고 재미있었다. 오렌지3 지도학습까지 듣고 좀 더 깊게 유튜브로도 알아봐야겠다는 생각도 든다. 코딩을 안해서 그런가ㅋㅋㅋㅋㅋ정말 편하게 봤다..ㅋㅋㅋㅋ