🔗 相關分析

Pearson 相關 + 散佈圖 + 迴歸線

什麼是相關分析?

相關分析衡量的是兩個變數之間線性關聯的強度與方向。它用一個數值——相關係數(correlation coefficient, r)——來摘要兩個變數共同變動的模式。

相關係數的範圍是 -1 到 +1

相關強度的經驗法則

根據 Cohen(1988)的分類:

|r| 範圍強度實務意義
0.10 – 0.29弱相關關聯存在但不明顯,單獨看可能察覺不到
0.30 – 0.49中度相關關聯可辨識,有一定預測價值
0.50 – 1.00強相關關聯明確,兩變數密切連動

但同樣地,這些門檻因領域而異。在心理學中 r = 0.3 已算不錯,在物理實驗中 r = 0.9 可能才及格。永遠結合研究情境來解讀

另一個實用指標是 r²(決定係數),代表「X 能解釋 Y 變異的比例」。例如 r = 0.5 時,r² = 0.25,意味著 X 只能解釋 Y 的 25% 變異,還有 75% 的變異來自其他因素。這個角度通常比直接看 r 更能幫助你判斷關聯的實際意義。

Pearson vs Spearman

Pearson 相關係數(Pearson's r)

衡量兩個連續變數之間的線性關係。它的假設是:

適用場景:身高 vs. 體重、年齡 vs. 血壓、劑量 vs. 反應等兩個連續變數的關聯分析。

Spearman 等級相關係數(Spearman's rho, ρ)

衡量兩個變數之間的單調關係(monotonic relationship)。它不看原始數值,而是先將資料轉換為等級(rank),再計算等級之間的 Pearson 相關。因此:

怎麼選?

簡單的決策流程:

  1. 兩個變數都是連續型且大致常態?→ 先用 Pearson
  2. 有一個是順序型(ordinal)?→ 用 Spearman
  3. 散佈圖看起來是曲線而非直線?→ 用 Spearman(或考慮非線性迴歸)
  4. 有明顯離群值且無法合理移除?→ 用 Spearman
  5. 不確定?→ 兩者都跑,比較結果。如果差異不大,報告 Pearson;如果差異很大,代表線性假設或常態假設有問題,報告 Spearman 並說明原因。

相關不等於因果

這是統計學中最重要也最常被忽略的原則:Correlation does not imply causation(相關不代表因果)

即使你發現冰淇淋銷量和溺水事件數有很高的正相關(r = 0.85),也不代表吃冰淇淋會導致溺水。真正的原因是第三個變數——氣溫(天氣熱時冰淇淋賣得好,同時也更多人去游泳)。這種現象叫做混淆變數(Confounding Variable)

為什麼相關不等於因果?

如何控制混淆變數?

如果你懷疑有混淆變數 Z,可以使用偏相關(Partial Correlation):在統計上「控制」Z 的影響後,再看 X 和 Y 是否仍然相關。如果控制 Z 後相關消失,那原本的相關很可能是 Z 造成的假象。

要建立因果關係,最可靠的方法是隨機對照實驗(RCT)。觀察性研究中看到的相關永遠只能是「關聯」,要格外小心不要過度詮釋。

報告寫法範例

「BMI 與收縮壓之間存在中度正相關,r(148) = .42, p < .001。然而,此為橫斷面觀察資料,無法推論因果方向。控制年齡與性別後,偏相關係數為 r = .35, p < .001,顯示關聯仍然存在。」

這種寫法明確交代了:相關的方向和強度、統計顯著性、研究設計的限制、以及控制混淆變數後的結果。

此工具永久免費。若它幫你節省了時間,考慮請作者喝杯咖啡。

☕ 請我喝杯咖啡