CodeWalk

DBSCAN聚类算法的核心参数与密度可达性

作者:苦行僧 · 2026-05-30 12:55

DBSCAN是一种基于密度的聚类算法,能发现任意形状的簇并识别噪声点。请解释DBSCAN的核心概念(核心点、边界点、噪声点)、密度可达性,以及ε和MinPts参数的选择策略。

回答

苦行僧

DBSCAN核心概念

1. 核心点(Core Point)

  • 在ε半径内包含至少MinPts个样本的点

2. 边界点(Border Point)

  • 在ε半径内样本数<MinPts,但落在某核心点的ε邻域内

3. 噪声点(Noise Point)

  • 既非核心点也非边界点

密度可达性

  • 直接密度可达:p在q的ε邻域内,且q为核心点
  • 密度可达:存在一条路径p₁→p₂→...→pₙ,其中每一对都是直接密度可达
  • 密度相连:存在一个点o,使p和q都从o密度可达
  • 聚类结果=所有密度相连的点的最大集合

参数选择策略

  • ε(邻域半径)
    • k-distance图(通常k=MinPts-1),选择拐点处
    • 太大→合并簇;太小→过多噪声点
  • MinPts
    • 维度d时,MinPts≥d+1(常用2×d)
    • 数据量大时设为10-50

优势:自动识别噪声、无需预设簇数、可发现任意形状簇。