什麼是 ANOVA？

ANOVA（Analysis of Variance，變異數分析）是用來比較三組或以上平均值是否有顯著差異的統計方法。雖然名字叫「變異數分析」，但它真正在比的是平均值——透過分析變異數的來源來判斷組間差異是否超出組內隨機波動。

ANOVA 的核心邏輯：把資料的總變異拆成兩部分——組間變異（Between-group）和組內變異（Within-group）。如果組間變異遠大於組內變異，代表不同組的平均值確實有差別，不太可能只是隨機波動造成的。

這個比值就是 F 統計量 = MS_between / MS_within。F 值越大，表示組間差異越不可能只是偶然。F = 1 左右代表組間和組內變異差不多，即「各組看起來差不多」。

ANOVA 的基本假設

獨立性：各觀測值彼此獨立（最重要的假設，違反後果最嚴重）
常態性：各組資料來自常態分佈（樣本數大時較不敏感）
等變異數（Homogeneity of Variance）：各組的變異數大致相等。可用 Levene's test 檢驗。若違反，可考慮 Welch's ANOVA 或 Kruskal-Wallis。

ANOVA vs T 檢定

很多初學者會問：「我有三組資料，可以做三次 T 檢定嗎？」答案是不建議。原因在於多重比較問題（Multiple Comparison Problem）。

每次做 T 檢定時，你接受 5% 的犯錯風險（alpha = 0.05）。三組兩兩比較需要做 3 次檢定，至少犯一次第一型錯誤的機率是 1 - (0.95)^3 ≈ 14.3%，遠超原本的 5%。如果是 5 組，兩兩比較需要 10 次，整體錯誤率飆升到約 40%。

ANOVA 用一次 F 檢定就能回答「這幾組裡面至少有一對不一樣嗎？」，把整體的第一型錯誤率控制在 5%。這就是為什麼三組以上一定要先跑 ANOVA，而不是直接兩兩 T 檢定。

什麼時候用 T 檢定，什麼時候用 ANOVA？

情境	方法
比較 2 組平均值	T 檢定
比較 3 組以上平均值	單因子 ANOVA
2 組但資料嚴重偏態	Wilcoxon / Mann-Whitney
3 組以上但資料非常態	Kruskal-Wallis

Kruskal-Wallis：非常態資料的救星

如果你的資料明顯不符合常態分佈（例如嚴重偏態、有大量離群值、或是順序資料），可以改用 Kruskal-Wallis H 檢定。它是 ANOVA 的無母數（non-parametric）替代方案，不假設常態分佈，而是比較各組的等級（rank）分佈。

代價是：在資料真的服從常態分佈時，Kruskal-Wallis 的檢定力略低於 ANOVA（大約損失 5% 的效率）。所以如果資料大致常態，還是優先用 ANOVA。

事後比較怎麼看

ANOVA 的 F 檢定如果顯著（p < 0.05），它只告訴你「至少有一對組別不一樣」，但沒有告訴你是哪一對。這時候就需要事後比較（Post-hoc Test）。

Tukey HSD（Honestly Significant Difference）

最常用的事後比較方法。它同時比較所有可能的兩兩配對，並且透過修正來控制整體的第一型錯誤率。適用於各組樣本數相等（或接近）的情境。

Tukey HSD 的結果會告訴你每一對組別之間：平均值差異是多少、95% 信賴區間、以及調整後的 p 值。如果信賴區間不包含 0（或 p < 0.05），代表該配對有顯著差異。

效果量：Eta-squared

ANOVA 中最常報告的效果量是 Eta-squared (η²) = SS_between / SS_total，代表「組別因子能解釋多少比例的總變異」。

η² ≈ 0.01：小效果（組別只解釋 1% 的變異）
η² ≈ 0.06：中效果
η² ≈ 0.14：大效果

需注意 η² 傾向高估效果量（因為它包含了隨機誤差的貢獻）。更保守的指標是 Partial η² 或 ω²（omega-squared），後者在論文中越來越常被要求。

報告寫法範例

「三組受試者的反應時間有顯著差異，F(2, 87) = 6.42, p = .003, η² = .13。Tukey HSD 事後比較顯示：A 組（M = 342 ms）顯著快於 C 組（M = 398 ms, p = .002），A 組與 B 組（M = 365 ms, p = .18）及 B 組與 C 組（p = .07）之間則無顯著差異。」

此工具永久免費。若它幫你節省了時間，考慮請作者喝杯咖啡。

☕ 請我喝杯咖啡

📈 ANOVA