線性迴歸 — Lab Grimoire

自變數 X

依變數 Y

信賴水準

什麼是線性迴歸？

線性迴歸是統計學中最基礎且最廣泛使用的建模技術之一。它試圖用一條直線來描述兩個變數之間的關係：

y = mx + b

其中 y 是依變數（反應變數），x 是自變數（預測變數），m 是斜率（代表 x 每變動一個單位時 y 的平均變化量），b 是截距（x = 0 時 y 的預測值）。

簡單線性迴歸使用最小平方法（Ordinary Least Squares, OLS）來找到最佳擬合線——也就是使所有觀測點到迴歸線的垂直距離平方和最小的那條線。這個方法之所以受歡迎，是因為它在滿足基本假設時能提供最佳線性無偏估計（BLUE）。

如何解讀 R²

R²（決定係數）衡量的是模型解釋了多少依變數的變異。它的值介於 0 到 1 之間：

R² = 0.90：模型解釋了 90% 的數據變異，擬合非常好
R² = 0.50：模型解釋了一半的變異，可能存在其他重要的預測變數
R² = 0.10：模型僅解釋了 10% 的變異，線性關係很弱

但請注意幾個常見陷阱：

R² 高不代表因果關係。兩個變數可能因為共同的第三變數而呈現高相關。
增加預測變數永遠會讓 R² 上升。這就是為什麼多元迴歸中應使用 調整後 R²（Adjusted R²），它會對不必要的變數進行懲罰。
不同領域的「好」R² 標準不同。在物理實驗中 R² = 0.95 可能偏低；在行為科學中 R² = 0.30 已算相當不錯。

殘差分析的重要性

殘差（Residuals）是每個觀測值與模型預測值之間的差異。殘差分析是驗證迴歸模型是否合理的關鍵步驟。你應該檢查以下幾點：

線性假設：殘差 vs. 擬合值的散佈圖應該呈隨機分布，沒有明顯的曲線模式。如果你看到 U 型或倒 U 型，代表真實關係可能是非線性的，需要考慮多項式迴歸或變數轉換。
同質變異數（Homoscedasticity）：殘差的散佈程度應該在整個 x 範圍內保持一致。如果殘差呈現「喇叭狀」（隨著 x 增大而變大或變小），就違反了同質變異數假設，可能需要加權最小平方法或對 y 做對數轉換。
常態性：殘差應大致服從常態分佈。可以透過 Q-Q 圖或 Shapiro-Wilk 檢定來評估。對於大樣本（n > 30），根據中央極限定理，即使殘差略偏離常態，推論仍然穩健。

信賴區間 vs. 預測區間

迴歸分析中有兩種重要的區間估計：

信賴區間（Confidence Interval）：反映的是迴歸線本身的不確定性，也就是「平均值」在某個 x 值處的可能範圍。
預測區間（Prediction Interval）：反映的是單一新觀測值的不確定性，通常比信賴區間更寬，因為它同時包含了迴歸線的不確定性和個體變異。

常見錯誤

外推（Extrapolation）：不要用模型預測超出原始數據範圍的 x 值。在觀測範圍之外，真實的關係可能完全不同。
忽略離群值：單一的離群值可能大幅影響迴歸線的斜率和截距。務必先用殘差圖和 Cook's Distance 識別高影響力的觀測值。
混淆相關與因果：統計上的顯著線性關係不等於 x 「造成」了 y 的變化。建立因果推論需要實驗設計或嚴謹的因果推斷方法。

此工具永久免費。若它幫你節省了時間，考慮請作者喝杯咖啡。

☕ 請我喝杯咖啡