studying data

문제의 본질을 꿰뚫어 해결책을 찾는 법을 공부합니다

콤퓨타 공부/통계

[통계 공부] 비지도 학습(unsupervised learning)

study_data study_data 2021. 9. 8. 14:33

주어진 데이터의 내재적 구조를 분석하는데 유용한 틀입니다. 지도학습과 달리 데이터 자체에 정답이 없다는 것이 특징이죠. 종류를 찾아보자면 차원축소와 군집분석이 있습니다.

예를 들어 주식데이터로 살펴볼까요? 주가 경향성을 찾아본다고 하면 네이버와 카카오 주식가격이 같이 떨어진 경우를 생각해봅시다. 네이버와 카카오가 같은 업종이기 때문에 같은 업종이라 비슷한 계열이 하락한다고 하면 이것을 예측하는 것은 지도학습이 됩니다. 있는 데이터 중에서 네이버와 비슷한 주식을 찾아내 업종별로 묶을 수도 있겠죠. 그러나 비슷하다는 기준은 어떻게 정하느냐에 따라 다양할 수 있습니다. 목적과 상황에 따라 적절한 방법이 있어요. 

비지도학습은 따로 분석을 하지 않아도 된다는 점에서 강점이 있습니다. 물론 그 설계과정에서 어려움이 있지만 결과를 가지고 분석하느라 고생하지 않아도 되는 것이죠! 기존의 회귀분석에서 곱하고 더하고 빼고 했던 것과는 약간 차이가 있습니다. 해석 없이 쓰고 결과를 보면 되니까 훨씬 유용해요.


차원축소(Dimensionality Reduction)

데이터에서의 차원은 변수의 수입니다. 차원이 크면 시각화, 이해, 분석이 어려워집니다. 그래서 차원을 줄이는 다양한 기법들을 차원축소라고 합니다. 

주성분 분석(Principal Component Analysis)

총점을 구하는 것과 기본적인 아이디어는 같습니다. 예를 들어 우리가 사물을 볼 때를 생각해볼까요? 정면으로 보기도 하고 위에서 보기도 하고 옆에서 보이기도 합니다. 어떤 관점에서 보느냐에 따라 정보가 달라지겠죠? 그 사물의 정보를 가장 많이 보여주는 각도가 있을 수 있습니다. 그래프도 마찬가지에요. 여러 방향에서 볼 수 있죠! 아래 그래프가 만약 사람들이라고 해볼까요? 여기서 내 친구 한 명을 찾아야 합니다. 그렇다면 어디서 봐야 시야가 가장 넓게 잘 볼 수 있을까요? 오른쪽 하단에서 왼쪽 상단을 보는 방향이 가장 잘 보이겠죠? 분산이 가장 잘 보이겠네요! (참고. 분산은 중심을 기준으로 퍼져있는 정도입니다)