1. 변수 Smoke에는 몇 가지 종류의 값이 있습니까?
import pandas as pd
bs = pd.read_excel('birthsmokers.xlsx')
bs.Smoke.unique() #array(['yes', 'no'], dtype=object)
2. Smoke는 산모의 흡연 여부를 나타냅니다(S는 대문자). Wgt는 신생아의 체중을 나타냅니다(W는 대문자). 흡연자 산모(Smoke == 'yes')가 낳은 신생아 체중의 평균은 얼마입니까?
smoker = bs[bs.Smoke == 'yes']
non_smoker = bs[bs.Smoke == 'no']
smoker.Wgt.mean() #2973.625
3. 비흡연자 산모가 낳은 신생아 체중의 평균은 얼마입니까?
non_smoker.Wgt.mean() #3066.125
4. 위의 두 문제의 결과로 볼 때, 표본에서 흡연자 산모가 낳은 신생아와 비흡연자 산모가 낳은 신생아 중 어느 쪽의 체중 평균이 높습니까?
정답: 비흡연자 산모가 낳은 신생아 체중의 평균이 높다
5. 흡연자와 비흡연자 두 집단의 신생아 체중 평균을 비교하려면 독립표본 t-검정을 쓰면 되겠습니까?
정답: 예 / 해설: 독립표본 t-검정은 두 집단의 평균을 비교할 때 사용하는 방법입니다.
6. 흡연자와 비흡연자 두 집단의 신생아 체중 평균을 비교하는 독립표본 t-검정을 실시해보세요. p-value는 얼마입니까?
import pingouin as pg
pg.ttest(smoker.Wgt, non_smoker.Wgt) #0.46011
# 분석 결과에서 p-val이 p-value입니다.
7. 위의 p-value는 .05보다 작습니까?
정답: 크다(p > .05) / 해설: p-value는 .46입니다. .05와 비교하면 큽니다.
8. 위의 경우에는 귀무가설을 기각합니까(유의수준 5%)?
정답: 기각하지 않는다 / 해설: 통계적 가설검정에서 유의수준이 5%일 경우 p-value가 .05보다 작으면(p < .05) 귀무가설을 기각합니다.
9. 위의 경우에는 어떤 결론을 내릴 수 있겠습니까?
정답: 결론을 유보한다 / 해설: 독립표본 t-검정의 귀무가설은 "두 집단의 평균이 같다"입니다.
- 귀무가설을 기각하면: 모집단에서 두 집단의 평균이 다르다라고 볼 수 있습니다.
- 귀무가설을 기각하지 못하면: 모집단에서 두 집단의 평균 차이에 대해 결론을 유보합니다. 즉, 같을 수도 다를 수도 있습니다.
10. 위의 분석에서 두 집단 평균 차이의 95% 신뢰구간은 얼마입니까?
import pingouin as pg
pg.ttest(smoker.Wgt, non_smoker.Wgt) #[-344.95, 159.95]
# 독립표본 t 검정 결과에서 CI95%은 95% 신뢰구간을 나타냅니다.
# 이는 모집단의 평균 차이에 대한 구간 추정입니다.
11. 위의 신뢰구간에 따르면 모집단에서 두 집단의 평균 차이는 어떤 범위에 있겠습니까?
정답: - ~ + / 해설: 95% 신뢰구간은 -344.95 ~ 159.95 입니다.
12. 신뢰구간으로 볼 때 흡연자와 비흡연자의 신생아 체중 평균에 대해 어떤 결론을 내릴 수 있습니까?
정답: 한 집단의 평균이 더 작을 수도 있고(-), 더 클 수도 있다(+) / 해설: 신뢰구간의 해석은 다음과 같습니다.
- ~ -: 한 집단의 평균이 어쨌든 더 작다(-)
- ~ +: 한 집단의 평균이 더 작을 수도 있고(-), 더 클 수도 있다(+)
+ ~ +: 한 집단의 평균이 어쨌든 더 크다(+)
13. 두 집단의 평균은 표준편차에 비해 얼마나 차이가 납니까?
import pingouin as pg
pg.ttest(smoker.Wgt, non_smoker.Wgt) #0.264562
#독립표본 t-검정의 결과에서 cohen-d는 Cohen의 d라는 효과 크기 표시 방법입니다.
#Cohen의 d는 표준편차에 비해 두 집단의 평균이 얼마나 다른가를 나타냅니다.
14. 이 문제에서 흡연자와 비흡연자의 신생아 체중 평균 차이에 대해 결론을 내리고자 한다면 어떻게 해야하겠습니까?
정답: 표본을 더 많이 모은다 / 해설: 동일한 효과 크기라도 표본의 크기가 작으면 p-value가 크고, 표본의 크기가 크면 p-value는 작아집니다. 만약 표본의 크기가 작아 p-value가 크게 나오면 두 집단의 평균 차이에 대해 결론을 내릴 수 없습니다. 꼭 결론을 내야하는 경우라면 더 많은 표본을 모아야 합니다.
파일을 다운받아 문제를 풀 수 있습니다
'콤퓨타 공부 > 통계' 카테고리의 다른 글
[통계 공부] 상호작용(interaction) (0) | 2021.09.08 |
---|---|
[통계 공부] 회귀분석을 통한 예측 (0) | 2021.08.23 |
[통계 공부] 회귀분석: 임신기간과 신생아 체중 (0) | 2021.08.23 |
[통계 공부] 상관분석: 피부암과 위도의 상관관계 (0) | 2021.08.23 |
[통계 공부] 분산 분석: 우울증의 치료효과 (0) | 2021.08.23 |