📈 ANOVA
單因子 ANOVA / Kruskal-Wallis + 事後比較
什麼是 ANOVA?
ANOVA(Analysis of Variance,變異數分析)是用來比較三組或以上平均值是否有顯著差異的統計方法。雖然名字叫「變異數分析」,但它真正在比的是平均值——透過分析變異數的來源來判斷組間差異是否超出組內隨機波動。
ANOVA 的核心邏輯:把資料的總變異拆成兩部分——組間變異(Between-group)和組內變異(Within-group)。如果組間變異遠大於組內變異,代表不同組的平均值確實有差別,不太可能只是隨機波動造成的。
這個比值就是 F 統計量 = MS_between / MS_within。F 值越大,表示組間差異越不可能只是偶然。F = 1 左右代表組間和組內變異差不多,即「各組看起來差不多」。
ANOVA 的基本假設
- 獨立性:各觀測值彼此獨立(最重要的假設,違反後果最嚴重)
- 常態性:各組資料來自常態分佈(樣本數大時較不敏感)
- 等變異數(Homogeneity of Variance):各組的變異數大致相等。可用 Levene's test 檢驗。若違反,可考慮 Welch's ANOVA 或 Kruskal-Wallis。
ANOVA vs T 檢定
很多初學者會問:「我有三組資料,可以做三次 T 檢定嗎?」答案是不建議。原因在於多重比較問題(Multiple Comparison Problem)。
每次做 T 檢定時,你接受 5% 的犯錯風險(alpha = 0.05)。三組兩兩比較需要做 3 次檢定,至少犯一次第一型錯誤的機率是 1 - (0.95)^3 ≈ 14.3%,遠超原本的 5%。如果是 5 組,兩兩比較需要 10 次,整體錯誤率飆升到約 40%。
ANOVA 用一次 F 檢定就能回答「這幾組裡面至少有一對不一樣嗎?」,把整體的第一型錯誤率控制在 5%。這就是為什麼三組以上一定要先跑 ANOVA,而不是直接兩兩 T 檢定。
什麼時候用 T 檢定,什麼時候用 ANOVA?
| 情境 | 方法 |
|---|---|
| 比較 2 組平均值 | T 檢定 |
| 比較 3 組以上平均值 | 單因子 ANOVA |
| 2 組但資料嚴重偏態 | Wilcoxon / Mann-Whitney |
| 3 組以上但資料非常態 | Kruskal-Wallis |
Kruskal-Wallis:非常態資料的救星
如果你的資料明顯不符合常態分佈(例如嚴重偏態、有大量離群值、或是順序資料),可以改用 Kruskal-Wallis H 檢定。它是 ANOVA 的無母數(non-parametric)替代方案,不假設常態分佈,而是比較各組的等級(rank)分佈。
代價是:在資料真的服從常態分佈時,Kruskal-Wallis 的檢定力略低於 ANOVA(大約損失 5% 的效率)。所以如果資料大致常態,還是優先用 ANOVA。
事後比較怎麼看
ANOVA 的 F 檢定如果顯著(p < 0.05),它只告訴你「至少有一對組別不一樣」,但沒有告訴你是哪一對。這時候就需要事後比較(Post-hoc Test)。
Tukey HSD(Honestly Significant Difference)
最常用的事後比較方法。它同時比較所有可能的兩兩配對,並且透過修正來控制整體的第一型錯誤率。適用於各組樣本數相等(或接近)的情境。
Tukey HSD 的結果會告訴你每一對組別之間:平均值差異是多少、95% 信賴區間、以及調整後的 p 值。如果信賴區間不包含 0(或 p < 0.05),代表該配對有顯著差異。
效果量:Eta-squared
ANOVA 中最常報告的效果量是 Eta-squared (η²) = SS_between / SS_total,代表「組別因子能解釋多少比例的總變異」。
- η² ≈ 0.01:小效果(組別只解釋 1% 的變異)
- η² ≈ 0.06:中效果
- η² ≈ 0.14:大效果
需注意 η² 傾向高估效果量(因為它包含了隨機誤差的貢獻)。更保守的指標是 Partial η² 或 ω²(omega-squared),後者在論文中越來越常被要求。
報告寫法範例
「三組受試者的反應時間有顯著差異,F(2, 87) = 6.42, p = .003, η² = .13。Tukey HSD 事後比較顯示:A 組(M = 342 ms)顯著快於 C 組(M = 398 ms, p = .002),A 組與 B 組(M = 365 ms, p = .18)及 B 組與 C 組(p = .07)之間則無顯著差異。」
此工具永久免費。若它幫你節省了時間,考慮請作者喝杯咖啡。
☕ 請我喝杯咖啡