선형 회귀와 같은 선형 모델들은 일반적으로 데이터 변환을 어떻게 하냐에따라 예측성능이 많이 달라진다. 선형 모델들은 일반적으로 피쳐와 타겟간에 선형적인 관계가 있다고 가정하고 만들어지기 때문에, 데이터 셋트가 정규분포 되어있다고 가정을 기반으로 만들어진 알고리즘들이 많다. 따라서 우리는 데이터들을 모델에 맞게 변환시켜줄 필요가 있다.
- 타깃값을 반드시 정규 분포를 가져야한다. 이를 위해 주로 로그 변환을 한다.
- 피쳐값도 주로 로그변환을 한다. standardScaler를 사용, MinMaxscaler를 사용.
스케일링/정규화를 수행항 데이터에 다시 다항특성을 적용한다.( 스케일링 정규화가 효과가 없을시)
그다음에도 안되면 피쳐값에 로그변환을 한다. 다항특성을 하면 피쳐값이 많아져서 과적합이 일어나기 때문
일반적으로 원-핫 인코딩을 적용한다. ( 카테고리값에 따른 상관관계가 없게 하기 위해 )
minmax - none, poly
standard - none, poly
log - none
poly는 과적합의 가능성이 높기에 보통 성능이 준수한 log변환을 피쳐값에도 많이 적용한다.