⚖️ T 檢定
獨立/配對/Welch t 檢定 + 效果量
什麼是 T 檢定?
T 檢定(T-test)是最常用的推論統計方法之一,用來判斷兩組資料的平均值是否有統計顯著差異。它的核心邏輯是:計算兩組平均值的差距,然後除以這個差距的「不確定性」(標準誤),得到 t 統計量。t 值越大,代表差異相對於隨機變異越明顯。
T 檢定的基本假設包括:(1) 資料為連續型變數;(2) 觀測值彼此獨立;(3) 各組資料大致呈常態分佈(樣本數大於 30 時,根據中央極限定理,此假設較不嚴格);(4) 對經典 Student's t 檢定而言,兩組的變異數應相等(等變異數假設)。
三種 T 檢定的差異
獨立樣本 T 檢定(Independent Samples T-test)
用於比較兩組不同受試者的平均值。例如:實驗組 vs. 對照組、男性 vs. 女性、藥物 A vs. 藥物 B。這是最常見的情境。
前提是兩組資料來自不同的個體,彼此完全獨立。如果你的實驗設計是同一批人分別測量兩個條件,那就不該用獨立樣本——那是配對樣本的場景。
配對樣本 T 檢定(Paired Samples T-test)
用於比較同一組受試者在兩個條件下的平均值。例如:治療前 vs. 治療後、左手 vs. 右手、同一受試者在兩種實驗條件下的表現。
配對設計的優勢在於:它消除了受試者之間的個體差異,統計檢定力(statistical power)通常比獨立樣本高。計算時,先算出每對觀測值的差值,再檢定這些差值的平均值是否顯著不為零。
Welch T 檢定(Welch's T-test)
當兩組的變異數不相等時(違反等變異數假設),經典的 Student's t 檢定會失準。Welch T 檢定修正了自由度的計算,不要求兩組變異數相等,因此更加穩健。
實務建議:許多統計學家(包括知名的 Ruxton, 2006)建議預設就用 Welch T 檢定,因為當變異數確實相等時,Welch 和 Student's t 的結果幾乎一模一樣;但當變異數不等時,Student's t 可能會給出錯誤結論。用 Welch 就是「穩賺不賠」。
如何解讀 p 值與效果量
p 值到底是什麼?
p 值是「假設兩組母群平均值真的相等(虛無假設為真),你觀察到目前這樣或更極端差異的機率」。注意幾個常見誤解:
- p 值不是「差異為真的機率」。p = 0.03 不代表「有 97% 的機率兩組真的不同」。
- p < 0.05 不代表效果很大。樣本數夠大時,極微小的差異也能產生顯著的 p 值。一個 p = 0.001 但 Cohen's d = 0.05 的結果,統計上顯著但實務上完全沒意義。
- p > 0.05 不代表「沒有差異」。它只代表你的資料無法提供足夠的證據拒絕虛無假設。可能是真的沒差,也可能是你的樣本數太小、檢定力不夠。
效果量:Cohen's d
正因為 p 值容易被樣本大小左右,我們需要效果量(Effect Size)來衡量差異的「實際大小」。Cohen's d 是最常用的效果量指標:
d = (M1 - M2) / SD_pooled
Cohen(1988)的經驗法則:
- d = 0.2:小效果——差異存在但不容易用肉眼察覺
- d = 0.5:中效果——差異明顯可辨
- d = 0.8:大效果——差異非常顯著
但這些只是粗略的參考。不同領域有不同的標準:在藥理學中 d = 0.3 可能已經很有臨床意義,在教育研究中 d = 0.5 可能才算有意義。永遠結合你的專業領域來解讀效果量。
完整報告範例
好的 T 檢定報告應包含:t 統計量、自由度、p 值、效果量、兩組的平均值和標準差。例如:
「實驗組(M = 78.4, SD = 12.3, n = 45)的測驗成績顯著高於對照組(M = 71.2, SD = 11.8, n = 42),t(85) = 2.81, p = .006, Cohen's d = 0.60。」
這種寫法讓讀者同時看到:差異的方向(實驗組高)、差異的精確數值、統計顯著性、效果大小。比只寫「p < 0.05,有顯著差異」資訊量大得多。
常見錯誤提醒
- 多重比較問題:如果你有三組以上,不要兩兩做 T 檢定。做三次比較時,至少一次犯第一型錯誤的機率升高到約 14%(不是 5%)。這時候應該改用 ANOVA。
- 混淆獨立與配對:同一受試者的前後測資料用獨立樣本 T 檢定是錯的,會浪費統計檢定力,也違反獨立性假設。
- 忽略假設檢查:跑 T 檢定前,至少看一下資料的分佈(直方圖或 Q-Q plot)。如果明顯偏態且樣本小,考慮用 Wilcoxon 檢定等無母數替代方案。
此工具永久免費。若它幫你節省了時間,考慮請作者喝杯咖啡。
☕ 請我喝杯咖啡