什麼是 T 檢定？

T 檢定（T-test）是最常用的推論統計方法之一，用來判斷兩組資料的平均值是否有統計顯著差異。它的核心邏輯是：計算兩組平均值的差距，然後除以這個差距的「不確定性」（標準誤），得到 t 統計量。t 值越大，代表差異相對於隨機變異越明顯。

T 檢定的基本假設包括：(1) 資料為連續型變數；(2) 觀測值彼此獨立；(3) 各組資料大致呈常態分佈（樣本數大於 30 時，根據中央極限定理，此假設較不嚴格）；(4) 對經典 Student's t 檢定而言，兩組的變異數應相等（等變異數假設）。

三種 T 檢定的差異

用於比較兩組不同受試者的平均值。例如：實驗組 vs. 對照組、男性 vs. 女性、藥物 A vs. 藥物 B。這是最常見的情境。

前提是兩組資料來自不同的個體，彼此完全獨立。如果你的實驗設計是同一批人分別測量兩個條件，那就不該用獨立樣本——那是配對樣本的場景。

用於比較同一組受試者在兩個條件下的平均值。例如：治療前 vs. 治療後、左手 vs. 右手、同一受試者在兩種實驗條件下的表現。

配對設計的優勢在於：它消除了受試者之間的個體差異，統計檢定力（statistical power）通常比獨立樣本高。計算時，先算出每對觀測值的差值，再檢定這些差值的平均值是否顯著不為零。

當兩組的變異數不相等時（違反等變異數假設），經典的 Student's t 檢定會失準。Welch T 檢定修正了自由度的計算，不要求兩組變異數相等，因此更加穩健。

實務建議：許多統計學家（包括知名的 Ruxton, 2006）建議預設就用 Welch T 檢定，因為當變異數確實相等時，Welch 和 Student's t 的結果幾乎一模一樣；但當變異數不等時，Student's t 可能會給出錯誤結論。用 Welch 就是「穩賺不賠」。

p 值是「假設兩組母群平均值真的相等（虛無假設為真），你觀察到目前這樣或更極端差異的機率」。注意幾個常見誤解：

p 值不是「差異為真的機率」。p = 0.03 不代表「有 97% 的機率兩組真的不同」。
p < 0.05 不代表效果很大。樣本數夠大時，極微小的差異也能產生顯著的 p 值。一個 p = 0.001 但 Cohen's d = 0.05 的結果，統計上顯著但實務上完全沒意義。
p > 0.05 不代表「沒有差異」。它只代表你的資料無法提供足夠的證據拒絕虛無假設。可能是真的沒差，也可能是你的樣本數太小、檢定力不夠。

正因為 p 值容易被樣本大小左右，我們需要效果量（Effect Size）來衡量差異的「實際大小」。Cohen's d 是最常用的效果量指標：

d = (M1 - M2) / SD_pooled

Cohen（1988）的經驗法則：

但這些只是粗略的參考。不同領域有不同的標準：在藥理學中 d = 0.3 可能已經很有臨床意義，在教育研究中 d = 0.5 可能才算有意義。永遠結合你的專業領域來解讀效果量。

好的 T 檢定報告應包含：t 統計量、自由度、p 值、效果量、兩組的平均值和標準差。例如：

「實驗組（M = 78.4, SD = 12.3, n = 45）的測驗成績顯著高於對照組（M = 71.2, SD = 11.8, n = 42），t(85) = 2.81, p = .006, Cohen's d = 0.60。」

這種寫法讓讀者同時看到：差異的方向（實驗組高）、差異的精確數值、統計顯著性、效果大小。比只寫「p < 0.05，有顯著差異」資訊量大得多。

多重比較問題：如果你有三組以上，不要兩兩做 T 檢定。做三次比較時，至少一次犯第一型錯誤的機率升高到約 14%（不是 5%）。這時候應該改用 ANOVA。
混淆獨立與配對：同一受試者的前後測資料用獨立樣本 T 檢定是錯的，會浪費統計檢定力，也違反獨立性假設。
忽略假設檢查：跑 T 檢定前，至少看一下資料的分佈（直方圖或 Q-Q plot）。如果明顯偏態且樣本小，考慮用 Wilcoxon 檢定等無母數替代方案。

此工具永久免費。若它幫你節省了時間，考慮請作者喝杯咖啡。