머신러닝/인프런
전처리
stop0729
2021. 2. 28. 01:06
레이블 인코딩
문자열 데이털 속성을 입력받지 않으며 모든 데이터는 숫자형으로 표현되여야 한다.
문자형 카테고리형 속성은 모두 숫자값으로 변환/인코딩 되야 한다.
레이블 인코딩 :
[tv, 냉장고, 전자렌지. 컴퓨터] -> [0,1,3,2]
요런식으로 변환시켜주는데, 숫자로 변환됨에 따라 크기등의 서로 연관성이 생기는 문제가 발생.
원핫 인코딩 :
[tv, 냉장고, 전자렌지. 컴퓨터] -> [(1,0,0,0),(0,1,0,0),(0,0,0,1),(0,0,1,0)]
피쳐 스케일링
표준화 : x_new = (x-평균)/표준편차
평균이 0이고 분산이 1인 가우시안 정규분포를 가진값으로 변환
-> StandarScaler
정규화 : x_new = (x-최솟값)/(최댓값-최솟값)
서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념. [0,1]
-> MinMaxScaler