5.Unsupervised_Learning
Unsupervised Learning 是在沒有標籤資料的情況下,探索資料內在結構的一種學習方法。其目的是發現樣本間的潛在模式、群組或表示方式,常應用於探索性資料分析與特徵壓縮。
1. 主要任務類型
A. 聚類(Clustering)
將資料自動劃分為數個群集
常見應用:顧客分群、影像分類前處理、生物分型
B. 降維(Dimensionality Reduction)
將高維資料壓縮為低維度空間,保留主要資訊
常見應用:視覺化、特徵預處理、雜訊過濾
C. 關聯規則學習(Association Rule Learning)
發掘資料中的共現關係(如購物籃分析)
常見應用:推薦系統、關聯性行銷
2. 常見演算法
聚類
K-Means
Hierarchical Clustering(階層式)
DBSCAN(密度為基礎)
Gaussian Mixture Model (GMM)
降維
PCA(主成分分析)
t-SNE
UMAP
Autoencoder(神經網路型態)
關聯規則
Apriori
FP-Growth
3. 使用場景
沒有標籤資料可供訓練時(如新資料探索)
特徵太多,需先降維再餵入監督模型
需進行資料壓縮或視覺化呈現
4. 聚類模型評估指標
由於沒有「真實標籤」,常用以下內部評估指標:
Silhouette Score
Davies-Bouldin Index
Calinski-Harabasz Index
可視化:降維後觀察分群分布
5. 工具與套件
scikit-learn
: 提供大部分非監督模型與評估工具umap-learn
,tsne
,hdbscan
: 進階降維與分群工具mlxtend
: 關聯分析(Apriori, FP-Growth)
6. 延伸子章節
Clustering/KMeans.md
Clustering/DBSCAN.md
Dimensionality Reduction/PCA.md
Dimensionality Reduction/tSNE.md
Unsupervised Learning 是資料分析的重要起點,適合在對資料未知或無標註的情況下挖掘潛在規律,也常作為監督式學習的前置處理步驟。
Last updated