studying data

문제의 본질을 꿰뚫어 해결책을 찾는 법을 공부합니다

2021/08/23 5

[통계 공부] 회귀분석을 통한 예측

제동거리 데이터를 다운받아 speed를 독립변수로 dist를 종속변수로 회귀분석을 해보십시오. 이 모형을 이용하여 speed = 20일 때 dist를 예측하면 얼마입니까? 1. 엑셀 파일을 열어줍니다 speed = pd.read_excel('speed.xlsx') speed.head() 2. 회귀분석(ols)를 import하고 '종속변수~독립변수'를 입력합니다. from statsmodels.formula.api import ols p = ols('dist ~ speed', speed).fit() p.summary() 3. 데이터프레임에 예제값을 넣어 예측합니다. new_df = pd.DataFrame({'speed': [20]}) p.predict(new_df) # 0 61.06908 # dtype: ..

[통계 공부] 회귀분석: 임신기간과 신생아 체중

1. Wgt는 신생아의 체중(g), Gest는 임신 기간(주)을 나타냅니다. 임신기간을 독립변수, 신생아의 체중을 종속변수로 회귀분석을 하려면 관계식을 어떻게 써야 합니까? 정답: Wgt ~ Gest / 설명: 관계식은 '종속변수 ~ 독립변수'와 같이 씁니다. 종속변수는 독립변수에 따라 달라지는 변수를 말합니다. 2. 임신기간을 독립변수, 신생아의 체중을 종속변수로 회귀분석을 실시해보세요. 절편은 얼마입니까? 아래 표는 이하 질문들의 답변도 되기 때문에 색깔별로 표기해뒀습니다. import pandas as pd bs = pd.read_excel('birthsmokers.xlsx') from statsmodels.formula.api import ols ols('Wgt ~ Gest', bs).fit()...

[통계 공부] 상관분석: 피부암과 위도의 상관관계

1. Mort 변수는 천만명 당 피부암 사망자 수 입니다. Lat는 위도(latitude)를 나타냅니다. 피부암 사망자 수와 위도의 피어슨 상관 계수를 구해보세요. import pandas as pd import pingouin as pg sc = pd.read_excel('skincancer.xlsx') pg.corr(sc.Mort, sc.Lat) # 피어슨 상관계수(r) = -0.824518 2. 위의 상관계수의 95% 신뢰구간은 무엇입니까? 정답: -0.9, -0.71 3. 모집단에서 상관계수는 어떤 범위에 있습니까? 정답: - ~ - 4. 위의 상관계수의 p-value는 얼마입니까? 정답: 0.05보다 작다(p < .05) / 해설: 분석 결과에서 p-val이 p-value입니다. e-13은 10..

[통계 공부] 분산 분석: 우울증의 치료효과

1. 변수 TRT에는 몇 가지 종류의 값이 있습니까? import pandas as pd dp = pd.read_excel('depression.xlsx') dp.TRT.unique() # array(['A', 'B', 'C'], dtype=object) 2. TRT 변수는 치료방법, y 변수는 치료효과를 나타냅니다. 치료방법에 따라 치료효과의 평균 차이를 검증하려면 어떤 방법을 사용해야합니까? 정답: 분산분석 / 해설: 세 집단 이상의 평균을 비교하려면 분산분석을 실시해야 합니다. 3. 치료효과의 등분산성을 검증해보세요. 치료방법들 사이에 치료효과의 분산은 같습니까(유의수준 5%)? import pingouin as pg pg.homoscedasticity(dv='y', group='TRT', data..

[통계 공부] 두 집단의 평균 비교: 흡연과 신생아 체중

1. 변수 Smoke에는 몇 가지 종류의 값이 있습니까? import pandas as pd bs = pd.read_excel('birthsmokers.xlsx') bs.Smoke.unique() #array(['yes', 'no'], dtype=object) 2. Smoke는 산모의 흡연 여부를 나타냅니다(S는 대문자). Wgt는 신생아의 체중을 나타냅니다(W는 대문자). 흡연자 산모(Smoke == 'yes')가 낳은 신생아 체중의 평균은 얼마입니까? smoker = bs[bs.Smoke == 'yes'] non_smoker = bs[bs.Smoke == 'no'] smoker.Wgt.mean() #2973.625 3. 비흡연자 산모가 낳은 신생아 체중의 평균은 얼마입니까? non_smoker.Wgt..