k-Means는 가장 널리 사용되는 클러스터링 방법입니다. k-Means는 k개의 평균이라는 뜻인데 군집의 평균인 중심점을 구할 수 있는 것이죠. 사례를 중심점이 가장 가까운 군집에 포함시킵니다.
장점 | 단점 |
k만 정해주면 되므로 간단 거리를 정할 수 잇고, 중심점 주변에 사례들이 몰려있는 경우에 사용할 수 있음 소수의 사례만 무작위로 뽑아 클러스터링할 수도 있음 (미니배치 k-Means) |
초기값에 따라 결과가 달라질 수 있음 연속변수에만 적용가능 블록하지 않은 모양의 군집에는 성능이 떠러짐 군집 수 결정이 어려움 이상값에 크게 영향을 받음 |
극단치가 있는 경우에는 k-Means를 쓰기 전에 미리 먼저 빼줘야 합니다. 이상값에 영향을 크게 받기 때문이죠. PCA, NMP, MDS는 차원축소 방법이라 변수의 수를 줄이는 것이고 k-Means는 비슷한 것끼리 묶는 군집분석이라는 점에서 차이가 있습니다. PCA는 -가 있고 NMP는 +나 0만 가지기 때문에 해석이 매우 쉽습니다. MDS는 거리를 유지하는 것이죠. 거리를 최대한 작은 차원으로 표현해주는 것입니다.
'콤퓨타 공부 > 통계' 카테고리의 다른 글
[통계 공부] 비지도 학습(unsupervised learning) (0) | 2021.09.08 |
---|---|
[통계 공부] 로지스틱 회귀분석과 상호작용 (0) | 2021.09.08 |
[통계 공부] 상호작용 - 거짓말 대회 (0) | 2021.09.08 |
[통계 공부] 상호작용(interaction) (0) | 2021.09.08 |
[통계 공부] 회귀분석을 통한 예측 (0) | 2021.08.23 |