Curse_of_Dimensionality.md

維度詛咒(Curse of Dimensionality)是指隨著資料維度(特徵數量)增加,資料分析與建模變得越來越困難的現象。這是機器學習與資料探勘中一個經常面對的挑戰。


1. 問題來源

  • 資料點在高維空間中會變得非常稀疏

  • 距離度量失效:在高維空間中,資料點之間的距離差異變得不明顯,導致像 KNN、SVM 這類依賴距離的模型效果變差

  • 維度增加會導致模型需要指數級資料量來保持泛化能力 → 模型容易過擬合


2. 實際影響

A. 分類與回歸模型表現不穩定

  • 高維資料導致模型學習雜訊而非模式

  • 訓練資料不足以涵蓋所有可能組合 → 泛化差

B. 資料視覺化困難

  • 無法直接在 2D/3D 中觀察資料結構

  • 降維後可能失去某些資訊

C. 相似度計算無效

  • 在高維空間中,最大與最小距離的比例趨近於 1 → 無法區分近與遠的樣本


3. 對策與解法

降維(Dimensionality Reduction)

  • PCA / t-SNE / UMAP:將資料映射到較低維空間以保留主要變異

  • Autoencoder:神經網路方式進行特徵壓縮

特徵選擇(Feature Selection)

  • 移除不相關或冗餘的特徵,保留有助模型預測的部分

  • 可搭配 Lasso、RFE、基於樹的特徵重要性

建模策略調整

  • 使用對高維更穩定的模型(如樹模型、嵌入式模型)

  • 增加資料量或使用正則化防止過擬合


4. 數學直覺(舉例)

在一個 1 維區間 [0,1] 中,100 個點已很密集。但若換到 10 維空間的 [0,1]^10,這 100 個點在體積為 1 的空間中分布就極度稀疏。

換句話說:維度每多 1,資料點需求量呈指數成長。


5. 小結

問題
原因
解法

模型過擬合

特徵太多,樣本太少

特徵選擇、正則化、收集更多資料

計算資源消耗大

高維空間複雜度高

降維、精簡模型結構

分群/距離無效

距離集中現象

使用核技巧、改用角度相似度


維度詛咒提醒我們「特徵不是越多越好」,尤其在樣本數有限時,更應關注特徵的品質與代表性,而非盲目堆疊維度。

Last updated