studying data

문제의 본질을 꿰뚫어 해결책을 찾는 법을 공부합니다

콤퓨타 공부/통계

[통계 공부] 분산 분석: 우울증의 치료효과

study_data 2021. 8. 23. 11:35

1. 변수 TRT에는 몇 가지 종류의 값이 있습니까?

import pandas as pd
dp = pd.read_excel('depression.xlsx')
dp.TRT.unique()

# array(['A', 'B', 'C'], dtype=object)

 

2. TRT 변수는 치료방법, y 변수는 치료효과를 나타냅니다. 치료방법에 따라 치료효과의 평균 차이를 검증하려면 어떤 방법을 사용해야합니까?

정답: 분산분석 / 해설: 세 집단 이상의 평균을 비교하려면 분산분석을 실시해야 합니다.

 

3. 치료효과의 등분산성을 검증해보세요. 치료방법들 사이에 치료효과의 분산은 같습니까(유의수준 5%)?

import pingouin as pg
pg.homoscedasticity(dv='y', group='TRT', data=dp)

# 정답: 분산이 다르다
# 등분산성 검정의 귀무가설은 "모든 집단의 분산이 같다"입니다.
# 분석 결과에서 pval이 p-value입니다.
# p-value가 .05보다 작으면 귀무가설을 기각하고 분산이 다르다는 결론을 내립니다.
# equal_var를 보아도 됩니다.
# equal_var가 False이면 분산이 다르다고 할 수 있습니다.

 

4. 등분산성 검정 결과로 볼 때 어떤 함수로 분산분석을 하는 것이 적절합니까?

정답: pg.welch_anova / 해설: 집단 간 분산이 같으면 pg.anova, 다르면 pg.welch_anova를 사용합니다. 이 경우는 분산이 다릅니다.

 

5. 치료방법에 따른 치료효과의 평균 차이를 분산 분석으로 검증해보세요. p-value는 얼마입니까?

pg.welch_anova(dv='y',between='TRT', data=dp)

# 분산분석 결과에서 p-unc가 p-value입니다.

 

6. 분산분석 결과에 대해 어떤 결론을 내릴 수 있습니까(유의수준 5%)?

정답: 어떤 집단의 평균은 다르다 / 해설: 분산분석의 귀무가설은 "모든 집단의 평균이 같다"입니다.
유의수준 5%에서는 p-value < .05이면 귀무가설을 기각합니다. 귀무가설을 기각하면 "어떤 집단의 평균은 다르다"라는 결론을 내립니다. 그렇지 않으면 결론을 유보합니다. p-value는 .006입니다.

 

7. 이 분석에는 사후 검정이 필요합니까?

정답: 예 / 해설: 분산 분석에서 "어떤 집단의 평균은 다르다"라는 결론이 나온 경우, 사후 검정을 하여 평균이 다른 집단을 찾습니다.

 

8. 이 분석에서는 어떤 사후 검정 방법을 사용하는 것이 적절합니까?

정답: Games-Howell 검정 / 해설: 앞에서 등분산성 검정에서 "각 집단의 분산이 다르다"는 결론을 내렸습니다.
- 각 집단의 분산이 같은 경우: Tukey HSD
- 각 집단의 분산이 다른 경우: Games-Howell 검정

 

9. 사후검정을 실시해보세요. 어떤 집단 사이의 평균에 통계적으로 유의한 차이가 있습니까(유의수준 5%)?

pg.pairwise_gameshowell(dv='y', between='TRT', data=dp)

# 정답: A와 B

# Tuckey HSD의 경우 pg.pairwise_tuckey를 사용하면 됩니다.
# 사후 검정은 두 집단 씩 짝을 지어 비교합니다.
# 결과표에서 A와 B가 비교하는 두 집단이고, pval이 p-value입니다.
# 유의수준 5%에서 p-value가 .05보다 작으면 "두 집단의 평균이 다르다"라는 결론을 내릴 수 있습니다.


depression.xlsx
0.01MB

자료를 다운받아 문제를 풀 수 있습니다