📈 線性迴歸
簡單線性迴歸 + 信賴帶 + 殘差圖
什麼是線性迴歸?
線性迴歸是統計學中最基礎且最廣泛使用的建模技術之一。它試圖用一條直線來描述兩個變數之間的關係:
y = mx + b
其中 y 是依變數(反應變數),x 是自變數(預測變數),m 是斜率(代表 x 每變動一個單位時 y 的平均變化量),b 是截距(x = 0 時 y 的預測值)。
簡單線性迴歸使用最小平方法(Ordinary Least Squares, OLS)來找到最佳擬合線——也就是使所有觀測點到迴歸線的垂直距離平方和最小的那條線。這個方法之所以受歡迎,是因為它在滿足基本假設時能提供最佳線性無偏估計(BLUE)。
如何解讀 R²
R²(決定係數)衡量的是模型解釋了多少依變數的變異。它的值介於 0 到 1 之間:
- R² = 0.90:模型解釋了 90% 的數據變異,擬合非常好
- R² = 0.50:模型解釋了一半的變異,可能存在其他重要的預測變數
- R² = 0.10:模型僅解釋了 10% 的變異,線性關係很弱
但請注意幾個常見陷阱:
- R² 高不代表因果關係。兩個變數可能因為共同的第三變數而呈現高相關。
- 增加預測變數永遠會讓 R² 上升。這就是為什麼多元迴歸中應使用 調整後 R²(Adjusted R²),它會對不必要的變數進行懲罰。
- 不同領域的「好」R² 標準不同。在物理實驗中 R² = 0.95 可能偏低;在行為科學中 R² = 0.30 已算相當不錯。
殘差分析的重要性
殘差(Residuals)是每個觀測值與模型預測值之間的差異。殘差分析是驗證迴歸模型是否合理的關鍵步驟。你應該檢查以下幾點:
- 線性假設:殘差 vs. 擬合值的散佈圖應該呈隨機分布,沒有明顯的曲線模式。如果你看到 U 型或倒 U 型,代表真實關係可能是非線性的,需要考慮多項式迴歸或變數轉換。
- 同質變異數(Homoscedasticity):殘差的散佈程度應該在整個 x 範圍內保持一致。如果殘差呈現「喇叭狀」(隨著 x 增大而變大或變小),就違反了同質變異數假設,可能需要加權最小平方法或對 y 做對數轉換。
- 常態性:殘差應大致服從常態分佈。可以透過 Q-Q 圖或 Shapiro-Wilk 檢定來評估。對於大樣本(n > 30),根據中央極限定理,即使殘差略偏離常態,推論仍然穩健。
信賴區間 vs. 預測區間
迴歸分析中有兩種重要的區間估計:
- 信賴區間(Confidence Interval):反映的是迴歸線本身的不確定性,也就是「平均值」在某個 x 值處的可能範圍。
- 預測區間(Prediction Interval):反映的是單一新觀測值的不確定性,通常比信賴區間更寬,因為它同時包含了迴歸線的不確定性和個體變異。
常見錯誤
- 外推(Extrapolation):不要用模型預測超出原始數據範圍的 x 值。在觀測範圍之外,真實的關係可能完全不同。
- 忽略離群值:單一的離群值可能大幅影響迴歸線的斜率和截距。務必先用殘差圖和 Cook's Distance 識別高影響力的觀測值。
- 混淆相關與因果:統計上的顯著線性關係不等於 x 「造成」了 y 的變化。建立因果推論需要實驗設計或嚴謹的因果推斷方法。
此工具永久免費。若它幫你節省了時間,考慮請作者喝杯咖啡。
☕ 請我喝杯咖啡