studying data

문제의 본질을 꿰뚫어 해결책을 찾는 법을 공부합니다

파이썬 5

[증권데이터] 신호와 소음 찾기 강의소개

수집과정 FinanceDataReader, requests로 원하는 정보를 수집하고 Beautifulsoup5으로 분석하고 복잡한 데이터의 경우 tqdm을 활용할 수 있습니다. 그리고 pandas를 통해서 다양한 테이블을 수집하고 크롬개발자도구를 이해하면 복잡한 데이터도 간단하게 수집할 수 있습니다. 전처리와 분석 판다스의 필터 기능을 이용해 여러 칼럼을 한번에 전처리하고 판다스의 melt를 통해 tidy data를 만들 수 있습니다. merge와 concat의 차이점과 활용방법을 알아보기도 합니다. 그리고 groupby와 pivot_table, crosstab, value_counts를 통한 통계적인 계산도 가능합니다. 시각화 시각화에서는 동적, 정적인 도구를 모두 사용합니다. Matplotlib, P..

[통계 공부] 비지도 학습(unsupervised learning)

주어진 데이터의 내재적 구조를 분석하는데 유용한 틀입니다. 지도학습과 달리 데이터 자체에 정답이 없다는 것이 특징이죠. 종류를 찾아보자면 차원축소와 군집분석이 있습니다. 예를 들어 주식데이터로 살펴볼까요? 주가 경향성을 찾아본다고 하면 네이버와 카카오 주식가격이 같이 떨어진 경우를 생각해봅시다. 네이버와 카카오가 같은 업종이기 때문에 같은 업종이라 비슷한 계열이 하락한다고 하면 이것을 예측하는 것은 지도학습이 됩니다. 있는 데이터 중에서 네이버와 비슷한 주식을 찾아내 업종별로 묶을 수도 있겠죠. 그러나 비슷하다는 기준은 어떻게 정하느냐에 따라 다양할 수 있습니다. 목적과 상황에 따라 적절한 방법이 있어요. 비지도학습은 따로 분석을 하지 않아도 된다는 점에서 강점이 있습니다. 물론 그 설계과정에서 어려움이..

[통계 공부] 로지스틱 회귀분석과 상호작용

A/B 테스팅 데이터를 다운받아 분석을 해보십시오. 독립변수는 weekend와 group을 사용하고 종속변수는 click으로 하여 로지스틱 회귀분석을 해보세요. 모형 1은 click ~ weekend + group로, 모형 2는 click ~ weekend + group + weekend:group으로 분석하세요. 1. AIC와 BIC로 비교할 때 어떤 모형이 더 나은 모형입니까? 정답: 모형 2 해설: 맞다/틀리다 둘 중에 하나로 나눠져야 정확도를 평가할 수 있습니다. 로지스틱 회귀분석은 확률을 예측하기 때문에 맞다/틀리다로 나뉘지가 않습니다. 그래서 문턱값을 기준으로 나누는 것입니다. # 데이터 열기 df = pd.read_excel('abtest.xlsx') # 모형1 from statsmodels..

[통계 공부] 상호작용 - 거짓말 대회

거짓말대회 데이터를 다운받아 회귀분석을 해보세요. 대회 순위(Position)를 종속변수로 하고 창의성(Creativity)과 초보 여부(Novice)를 독립변수로 하여 회귀분석을 해보세요. 이때 상호작용항을 포함시켜 분석하십시오. 1. 상호작용을 고려했을 때 경험자(Novice == 0)는 창의성의 기울기가 얼마입니까? 정답: -0.0349 해설: Position = 3.5618 - 0.0349*Creativity + 1.4920*Novice - 0.0366*Creativity*Novice Novice에 0을 대입하는 경우(경험자), Position = 3.5618 - 0.0349*Creativity 따라서 기울기는 -0.0349 import pandas as pd df = pd.read_excel('..

[통계 공부] 상호작용(interaction)

두 독립변수의 곱으로 이뤄진 항(xm)을 의미합니다. 상호작용은 다른 변수에 의해 기울기가 바뀌는 것을 뜻하죠. 예를 들어 영어를 잘 할 필요가 있는 직무라면 토익 점수와의 관계 그래프가 가파르게 나타날테지만 딱히 업무가 영어 사용과 관련이 없는 경우에는 기울기가 완만하게 나타날 수 있습니다. 상호작용은 쉽게 생각하면 독립변수 2가지를 곱하는 것과 같습니다. 그래서 관계식을 쓸 때는 : 을 사용합니다. 관계식에서 x*m은 x+m+x : m 으로 표현할 수 있습니다. 예를 들어 Learning Style이 있습니다. 언어형은 말로 풀어서 설명하는 것이고 시각형은 그림으로 풀어서 공부하는 것이에요. 사람에 따라 어떤 방법이 더 효과적인지는 다를 수도 있죠. 여기서 학습방법은 xm에 해당합니다. 그러면 후기에..