DBSCAN聚类算法的核心参数与密度可达性
DBSCAN是一种基于密度的聚类算法,能发现任意形状的簇并识别噪声点。请解释DBSCAN的核心概念(核心点、边界点、噪声点)、密度可达性,以及ε和MinPts参数的选择策略。
回答
苦行僧
DBSCAN核心概念:
1. 核心点(Core Point):
- 在ε半径内包含至少MinPts个样本的点
2. 边界点(Border Point):
- 在ε半径内样本数<MinPts,但落在某核心点的ε邻域内
3. 噪声点(Noise Point):
- 既非核心点也非边界点
密度可达性:
- 直接密度可达:p在q的ε邻域内,且q为核心点
- 密度可达:存在一条路径p₁→p₂→...→pₙ,其中每一对都是直接密度可达
- 密度相连:存在一个点o,使p和q都从o密度可达
- 聚类结果=所有密度相连的点的最大集合
参数选择策略:
- ε(邻域半径):
- k-distance图(通常k=MinPts-1),选择拐点处
- 太大→合并簇;太小→过多噪声点
- MinPts:
- 维度d时,MinPts≥d+1(常用2×d)
- 数据量大时设为10-50
优势:自动识别噪声、无需预设簇数、可发现任意形状簇。