stop0729 2021. 2. 28. 01:06

레이블 인코딩

 

문자열 데이털 속성을 입력받지 않으며 모든 데이터는 숫자형으로 표현되여야 한다.

 

문자형 카테고리형 속성은 모두 숫자값으로 변환/인코딩 되야 한다.

 

레이블 인코딩 :

[tv, 냉장고, 전자렌지. 컴퓨터] -> [0,1,3,2]

 

요런식으로 변환시켜주는데, 숫자로 변환됨에 따라 크기등의 서로 연관성이 생기는 문제가 발생.

 

원핫 인코딩 : 

[tv, 냉장고, 전자렌지. 컴퓨터] -> [(1,0,0,0),(0,1,0,0),(0,0,0,1),(0,0,1,0)]

 

 

 

 

피쳐 스케일링 

 

표준화 : x_new = (x-평균)/표준편차

평균이 0이고 분산이 1인 가우시안 정규분포를 가진값으로 변환

-> StandarScaler

 

정규화 :  x_new = (x-최솟값)/(최댓값-최솟값)

서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념. [0,1]

-> MinMaxScaler