studying data

문제의 본질을 꿰뚫어 해결책을 찾는 법을 공부합니다

콤퓨타 공부/통계

[통계 공부] 두 집단의 평균 비교: 흡연과 신생아 체중

study_data 2021. 8. 23. 11:14

 

1. 변수 Smoke에는 몇 가지 종류의 값이 있습니까?

import pandas as pd
bs = pd.read_excel('birthsmokers.xlsx')

bs.Smoke.unique()                             #array(['yes', 'no'], dtype=object)

 

2. Smoke는 산모의 흡연 여부를 나타냅니다(S는 대문자). Wgt는 신생아의 체중을 나타냅니다(W는 대문자). 흡연자 산모(Smoke == 'yes')가 낳은 신생아 체중의 평균은 얼마입니까?

smoker = bs[bs.Smoke == 'yes']
non_smoker = bs[bs.Smoke == 'no']

smoker.Wgt.mean()                       #2973.625

 

3. 비흡연자 산모가 낳은 신생아 체중의 평균은 얼마입니까?

non_smoker.Wgt.mean()              #3066.125

 

4. 위의 두 문제의 결과로 볼 때, 표본에서 흡연자 산모가 낳은 신생아와 비흡연자 산모가 낳은 신생아 중 어느 쪽의 체중 평균이 높습니까?

정답: 비흡연자 산모가 낳은 신생아 체중의 평균이 높다

 

5. 흡연자와 비흡연자 두 집단의 신생아 체중 평균을 비교하려면 독립표본 t-검정을 쓰면 되겠습니까?

정답: 예 / 해설: 독립표본 t-검정은 두 집단의 평균을 비교할 때 사용하는 방법입니다.

 

6. 흡연자와 비흡연자 두 집단의 신생아 체중 평균을 비교하는 독립표본 t-검정을 실시해보세요. p-value는 얼마입니까?

import pingouin as pg
pg.ttest(smoker.Wgt, non_smoker.Wgt)   #0.46011

# 분석 결과에서 p-val이 p-value입니다.

 

7. 위의 p-value는 .05보다 작습니까?

정답: 크다(p > .05) / 해설: p-value는 .46입니다. .05와 비교하면 큽니다.

 

8. 위의 경우에는 귀무가설을 기각합니까(유의수준 5%)?

정답: 기각하지 않는다 / 해설: 통계적 가설검정에서 유의수준이 5%일 경우 p-value가 .05보다 작으면(p < .05) 귀무가설을 기각합니다.

 

9. 위의 경우에는 어떤 결론을 내릴 수 있겠습니까?

정답: 결론을 유보한다 / 해설: 독립표본 t-검정의 귀무가설은 "두 집단의 평균이 같다"입니다.
- 귀무가설을 기각하면: 모집단에서 두 집단의 평균이 다르다라고 볼 수 있습니다.
- 귀무가설을 기각하지 못하면: 모집단에서 두 집단의 평균 차이에 대해 결론을 유보합니다. 즉, 같을 수도 다를 수도 있습니다.

 

10. 위의 분석에서 두 집단 평균 차이의 95% 신뢰구간은 얼마입니까?

import pingouin as pg
pg.ttest(smoker.Wgt, non_smoker.Wgt)   #[-344.95, 159.95]

# 독립표본 t 검정 결과에서 CI95%은 95% 신뢰구간을 나타냅니다.
# 이는 모집단의 평균 차이에 대한 구간 추정입니다.

 

11. 위의 신뢰구간에 따르면 모집단에서 두 집단의 평균 차이는 어떤 범위에 있겠습니까?

정답: - ~ + / 해설: 95% 신뢰구간은 -344.95 ~ 159.95 입니다.

 

12. 신뢰구간으로 볼 때 흡연자와 비흡연자의 신생아 체중 평균에 대해 어떤 결론을 내릴 수 있습니까?

정답: 한 집단의 평균이 더 작을 수도 있고(-), 더 클 수도 있다(+) / 해설: 신뢰구간의 해석은 다음과 같습니다.
- ~ -: 한 집단의 평균이 어쨌든 더 작다(-)
- ~ +: 한 집단의 평균이 더 작을 수도 있고(-), 더 클 수도 있다(+)
+ ~ +: 한 집단의 평균이 어쨌든 더 크다(+)

 

13. 두 집단의 평균은 표준편차에 비해 얼마나 차이가 납니까?

import pingouin as pg
pg.ttest(smoker.Wgt, non_smoker.Wgt)   #0.264562

#독립표본 t-검정의 결과에서 cohen-d는 Cohen의 d라는 효과 크기 표시 방법입니다.
#Cohen의 d는 표준편차에 비해 두 집단의 평균이 얼마나 다른가를 나타냅니다.

 

14. 이 문제에서 흡연자와 비흡연자의 신생아 체중 평균 차이에 대해 결론을 내리고자 한다면 어떻게 해야하겠습니까?

정답: 표본을 더 많이 모은다 / 해설: 동일한 효과 크기라도 표본의 크기가 작으면 p-value가 크고, 표본의 크기가 크면 p-value는 작아집니다. 만약 표본의 크기가 작아 p-value가 크게 나오면 두 집단의 평균 차이에 대해 결론을 내릴 수 없습니다. 꼭 결론을 내야하는 경우라면 더 많은 표본을 모아야 합니다.

birthsmokers.xlsx
0.01MB

파일을 다운받아 문제를 풀 수 있습니다