如何平衡局部与全局结构的保留?
核心机制
n_neighbors参数定义了UMAP在构建图结构时,每个样本点考虑的"近邻"数量。该参数直接影响数据空间中局部密度的感知范围,进而影响降维后拓扑结构的连贯性。
关键影响维度
参数特征 | 低值(如5-10) | 中值(如15-30) | 高值(如50-100) |
---|---|---|---|
局部细节 | 突出小尺度簇 | 平衡细节与整体 | 模糊局部结构 |
噪声敏感度 | 易受噪声干扰 | 中等鲁棒性 | 抑制噪声影响 |
计算效率 | 较低复杂度 | 平衡速度 | 显著增加耗时 |
全局连通性 | 可能割裂大簇 | 保持合理连通 | 强化全局连续性 |
选择依据
实践建议
local_connectivity
注:参数选择需结合具体数据分布,建议通过二维可视化观察不同参数组合的嵌入效果,重点关注稀疏区域的连通性与密集区域的分界清晰度。