stop0729 2021. 3. 28. 22:37

현대 통계학을 이루는 큰 축

현업에서 더 많이쓰이는 알고리즘

 

여러개의 독립변수와 한개의 종속변수 간의 상관관계를 모델링 하는 기법을 통칭

 

Y = W1X1 + W2X2 + W3X3 + ... + WnXn

 

Y는 종속 변수 (결정값)

X는 독립 변수 (feature값)

W는 회귀 계수 (독립변수의 값에 영향을 미침)

 

머신러닝 회귀 예측의 핵심은 주어진 피처와 결정값 데이터 기반에서 학습을 통해 최적의 회귀계수를 찾아내는 것이다.

 

 

회귀는 회귀계수의 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러가지 유형으로.

회귀계수의 결합방식에 따라 선형회귀와 비선형회귀로 나눠짐. 대부분의 정형 데이터에는 선형회귀가 훨신 예측 성능이 좋다.

 

분류는 결과값이 카테고리값이 나옴( 0 또는 1)

회귀는 결과값이 연속값이 나옴(1.325, 15.2)

 

선형 회귀의 종류 :

규제를 적용하지 않은 모델. RSS(Residual Sum of Squares)를 최소화할수 있도록 회귀계수를 최적화함.

 

릿지

 

라쏘

 

엘라스틱넷

 

로지스틱 회귀 : 이름은 회귄데, 결과값은 이산값을 나타냄. 분류에 많이쓰이는 회귀 알고리즘.

 

 

최적의 회귀 모델을 만든다는 것을 바로 전체 데이터의 오류값의 합이 최소가 되는 모델을 만든다는 의미.

오류값 합이 최소가 될 수 있는 최적의 회귀 계수(절편과 기울기)를 찾는다는 의미