在機器學習中,模型預測誤差可以分解為三個主要部分:偏差(Bias)、變異(Variance)與不可約誤差(Irreducible Error)。這三者之間的平衡關係被稱為「偏差-變異權衡」。
偏差反映的是模型預測值與真實值的偏離程度。
來自模型假設與資料生成過程不符(例如使用線性模型處理非線性問題)
偏差高表示模型無法學會資料的真實結構 → 欠擬合
變異指的是模型對於不同訓練資料的敏感程度。
若模型在不同訓練集上有很大差異 → 變異高 → 過擬合
變異高時泛化能力差,容易記住訓練集中的雜訊
即使使用完美的模型,某些不可控制的資料雜訊仍會導致預測誤差。
例如測量誤差、隨機變異、未知影響因子等
此誤差無法透過模型調整而改善
這個公式說明了要最小化預測誤差,我們必須同時考量偏差與變異的平衡。
欠擬合
高
低
使用更複雜模型、更多特徵
過擬合
正則化、剪枝、簡化模型
最佳模型
適中
使用交叉驗證確認泛化能力
偏差-變異權衡幫助我們理解為什麼模型太簡單或太複雜都會導致不佳的預測效能。良好的模型設計與選擇策略(如交叉驗證與正則化)應追求在兩者間找到最佳平衡。
Last updated 2 months ago
預測誤差 │\ │ \ │ \ │ \ Irreducible │ \ Bias^2 │ \__ + │ \ Variance │ \___/ └──────────────────── 模型複雜度 ↑