데이터 포인트들을 별개의 군집으로 그룹화 하는것을 의미합니다. 유사성이 높은 데이터들을 동일한 그룹으로 분류하고 서로 다른 군집들이 상이성을 가지도록 그룹화 합니다.
고객 맞춤, 세분화
image 검출, 트랙킹
이상 검출
어떻게 유사성을 정의할 수 있을까 ?
K-Means - centroid
Mean Shift - centroid
Gaussian Mixture Model
DBSCAN - 데이터의 밀도에 따라서
K-Means Clusterning. 군집 중심점 기반
- 일반적인 가장 많이 활용되는 알고리즘. 쉽고 간결. 대용량 데이터에도 활용이 가능하다.
- 거리 기반 알고리즘. 속성의 개수가 많을수록 군집화 정확도가 떨어진다. 반복을 수행하는데, 반복 횟수가 많을수록 수행시간이 느려진다. 이상치 데이터에 취약하다.
군집화 평가 지표 - 실루엣 계수
평균 실루엣 크기가 1에 가까울수록 좋지만, 개별 군집의 평균값의 편차가 크지 않아야 한다.
'머신러닝 > 인프런' 카테고리의 다른 글
Mean Shift 군집화 (0) | 2021.08.03 |
---|---|
특이값 분해 - SVD (0) | 2021.07.20 |
LDA (0) | 2021.07.16 |
차원 축소(PCA만) (0) | 2021.07.11 |
회귀 트리 (0) | 2021.05.16 |