⚖️ T 檢定

獨立/配對/Welch t 檢定 + 效果量

什麼是 T 檢定?

T 檢定(T-test)是最常用的推論統計方法之一,用來判斷兩組資料的平均值是否有統計顯著差異。它的核心邏輯是:計算兩組平均值的差距,然後除以這個差距的「不確定性」(標準誤),得到 t 統計量。t 值越大,代表差異相對於隨機變異越明顯。

T 檢定的基本假設包括:(1) 資料為連續型變數;(2) 觀測值彼此獨立;(3) 各組資料大致呈常態分佈(樣本數大於 30 時,根據中央極限定理,此假設較不嚴格);(4) 對經典 Student's t 檢定而言,兩組的變異數應相等(等變異數假設)。

三種 T 檢定的差異

獨立樣本 T 檢定(Independent Samples T-test)

用於比較兩組不同受試者的平均值。例如:實驗組 vs. 對照組、男性 vs. 女性、藥物 A vs. 藥物 B。這是最常見的情境。

前提是兩組資料來自不同的個體,彼此完全獨立。如果你的實驗設計是同一批人分別測量兩個條件,那就不該用獨立樣本——那是配對樣本的場景。

配對樣本 T 檢定(Paired Samples T-test)

用於比較同一組受試者在兩個條件下的平均值。例如:治療前 vs. 治療後、左手 vs. 右手、同一受試者在兩種實驗條件下的表現。

配對設計的優勢在於:它消除了受試者之間的個體差異,統計檢定力(statistical power)通常比獨立樣本高。計算時,先算出每對觀測值的差值,再檢定這些差值的平均值是否顯著不為零。

Welch T 檢定(Welch's T-test)

當兩組的變異數不相等時(違反等變異數假設),經典的 Student's t 檢定會失準。Welch T 檢定修正了自由度的計算,不要求兩組變異數相等,因此更加穩健。

實務建議:許多統計學家(包括知名的 Ruxton, 2006)建議預設就用 Welch T 檢定,因為當變異數確實相等時,Welch 和 Student's t 的結果幾乎一模一樣;但當變異數不等時,Student's t 可能會給出錯誤結論。用 Welch 就是「穩賺不賠」。

如何解讀 p 值與效果量

p 值到底是什麼?

p 值是「假設兩組母群平均值真的相等(虛無假設為真),你觀察到目前這樣或更極端差異的機率」。注意幾個常見誤解:

效果量:Cohen's d

正因為 p 值容易被樣本大小左右,我們需要效果量(Effect Size)來衡量差異的「實際大小」。Cohen's d 是最常用的效果量指標:

d = (M1 - M2) / SD_pooled

Cohen(1988)的經驗法則:

但這些只是粗略的參考。不同領域有不同的標準:在藥理學中 d = 0.3 可能已經很有臨床意義,在教育研究中 d = 0.5 可能才算有意義。永遠結合你的專業領域來解讀效果量

完整報告範例

好的 T 檢定報告應包含:t 統計量、自由度、p 值、效果量、兩組的平均值和標準差。例如:

「實驗組(M = 78.4, SD = 12.3, n = 45)的測驗成績顯著高於對照組(M = 71.2, SD = 11.8, n = 42),t(85) = 2.81, p = .006, Cohen's d = 0.60。」

這種寫法讓讀者同時看到:差異的方向(實驗組高)、差異的精確數值、統計顯著性、效果大小。比只寫「p < 0.05,有顯著差異」資訊量大得多。

常見錯誤提醒

此工具永久免費。若它幫你節省了時間,考慮請作者喝杯咖啡。

☕ 請我喝杯咖啡