studying data

문제의 본질을 꿰뚫어 해결책을 찾는 법을 공부합니다

콤퓨타 공부/통계

[통계 공부] k-Means 클러스터링

study_data study_data 2021. 9. 8. 17:28

k-Means는 가장 널리 사용되는 클러스터링 방법입니다. k-Means는 k개의 평균이라는 뜻인데 군집의 평균인 중심점을 구할 수 있는 것이죠. 사례를 중심점이 가장 가까운 군집에 포함시킵니다. 

장점 단점
k만 정해주면 되므로 간단
거리를 정할 수 잇고, 중심점 주변에 사례들이 몰려있는 경우에 사용할 수 있음
소수의 사례만 무작위로 뽑아 클러스터링할 수도 있음
(미니배치 k-Means)
초기값에 따라 결과가 달라질 수 있음
연속변수에만 적용가능
블록하지 않은 모양의 군집에는 성능이 떠러짐
군집 수 결정이 어려움
이상값에 크게 영향을 받음

극단치가 있는 경우에는 k-Means를 쓰기 전에 미리 먼저 빼줘야 합니다. 이상값에 영향을 크게 받기 때문이죠. PCA, NMP, MDS는 차원축소 방법이라 변수의 수를 줄이는 것이고 k-Means는 비슷한 것끼리 묶는 군집분석이라는 점에서 차이가 있습니다. PCA는 -가 있고 NMP는 +나 0만 가지기 때문에 해석이 매우 쉽습니다. MDS는 거리를 유지하는 것이죠. 거리를 최대한 작은 차원으로 표현해주는 것입니다.