3.Dimensionality_Reduction

降維(Dimensionality Reduction)是一種將高維資料轉換為較低維度表示的技術,其目的是在保留重要資訊的同時,減少計算負擔、消除雜訊、促進視覺化或提升模型效能。


1. 為什麼要降維?

  • 資料視覺化:將高維度資料轉為 2D 或 3D,幫助人眼觀察結構與群集

  • 避免維度詛咒(curse of dimensionality):高維資料會導致距離計算失真、模型過擬合

  • 加快演算法效率:減少特徵數量可提升訓練與推論速度

  • 去除冗餘與雜訊特徵


2. 降維方法分類

A. 線性方法

  • PCA(主成分分析):透過最大化變異數找出資料主軸

  • LDA(線性判別分析):考慮類別資訊,找出分群最佳區分軸(屬於監督式降維)

B. 非線性方法

  • t-SNE:保留局部鄰近關係,適合群集視覺化

  • UMAP:保留局部與全域結構,速度快、可用於後續建模

C. 特徵選擇(非嵌入式降維)

  • 透過 Wrapper / Filter / Embedded 方法選出重要特徵,雖不是轉換資料空間,但亦屬降維策略


3. 各方法比較

方法
類型
保留結構
可解釋性
可用於建模
適合視覺化
效率

PCA

線性

全域

有限

LDA

監督式

類別區分

t-SNE

非線性

局部

UMAP

非線性

局部+全域

是(部分)


4. 實務建議

  • 若要進行視覺化 → 推薦使用 t-SNEUMAP

  • 若要降維後用於機器學習模型 → 優先考慮 PCAUMAP

  • 若資料已具標籤分類 → 可考慮 LDA(監督式降維)

  • 若目的是刪除冗餘特徵 → 也可使用 Wrapper / Embedded 方法進行特徵選擇


5. 延伸學習

  • 你可以在本章節後閱讀各降維方法的個別檔案:

    • PCA.md

    • LDA.md

    • tSNE.md

    • UMAP.md

Last updated