[통계 공부] k-Means 클러스터링

콤퓨타 공부/통계

[통계 공부] k-Means 클러스터링

study_data 2021. 9. 8. 17:28

k-Means는 가장 널리 사용되는 클러스터링 방법입니다. k-Means는 k개의 평균이라는 뜻인데 군집의 평균인 중심점을 구할 수 있는 것이죠. 사례를 중심점이 가장 가까운 군집에 포함시킵니다.

장점	단점
k만 정해주면 되므로 간단 거리를 정할 수 잇고, 중심점 주변에 사례들이 몰려있는 경우에 사용할 수 있음 소수의 사례만 무작위로 뽑아 클러스터링할 수도 있음 (미니배치 k-Means)	초기값에 따라 결과가 달라질 수 있음 연속변수에만 적용가능 블록하지 않은 모양의 군집에는 성능이 떠러짐 군집 수 결정이 어려움 이상값에 크게 영향을 받음

극단치가 있는 경우에는 k-Means를 쓰기 전에 미리 먼저 빼줘야 합니다. 이상값에 영향을 크게 받기 때문이죠. PCA, NMP, MDS는 차원축소 방법이라 변수의 수를 줄이는 것이고 k-Means는 비슷한 것끼리 묶는 군집분석이라는 점에서 차이가 있습니다. PCA는 -가 있고 NMP는 +나 0만 가지기 때문에 해석이 매우 쉽습니다. MDS는 거리를 유지하는 것이죠. 거리를 최대한 작은 차원으로 표현해주는 것입니다.

저작자표시 비영리 (새창열림)

'콤퓨타 공부 > 통계' 카테고리의 다른 글

[통계 공부] 비지도 학습(unsupervised learning) (1)	2021.09.08
[통계 공부] 로지스틱 회귀분석과 상호작용 (1)	2021.09.08
[통계 공부] 상호작용 - 거짓말 대회 (2)	2021.09.08
[통계 공부] 상호작용(interaction) (1)	2021.09.08
[통계 공부] 회귀분석을 통한 예측 (1)	2021.08.23

현재글[통계 공부] k-Means 클러스터링

사회학 전공자의 콤퓨타 공부

다정하고 정확하게 데이터를 들여다볼 줄 아는 사람이 되고 싶어요

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

사회학 전공자의 콤퓨타 공부

[통계 공부] k-Means 클러스터링

'콤퓨타 공부 > 통계' 카테고리의 다른 글

'콤퓨타 공부/통계'의 다른글

티스토리툴바

[통계 공부] k-Means 클러스터링

'콤퓨타 공부 > 통계' 카테고리의 다른 글

'콤퓨타 공부/통계'의 다른글

관련글

티스토리툴바