“查找点聚类”工具可基于点要素的空间分布识别周围噪点内的点要素聚类。
示例
此工具的使用示例如下所示:
- 一家研究一种特殊害虫传播疾病组织希望识别其研究区域内开始治疗和消灭这些害虫的位置。 分析人员拥有一个点数据集,表示研究区域内已感染和未感染的家庭。 分析人员使用“查找点聚类”工具查找最大已感染家庭聚类。
- 灾难响应组织需要确定在发生自然灾难后部署其救援和撤离资源的位置。 分析人员使用“查找点聚类”工具识别提及该事件的地理定位推特聚类。 该组织使用聚类大小和位置绘制受影响区域地图并安排救灾工作。
用法说明
“查找点聚类”工具包含对输入要素、聚类设置和结果图层的配置。
输入要素
输入要素组包含输入图层参数,该图层中的点要素将根据其空间分布按聚类进行分组。
要素计数将显示在图层名称下方。 计数将包含图层中的所有要素,已使用过滤器进行移除的要素除外。 环境设置(例如处理范围)不会反映在要素计数中。
注:
Web 墨卡托投影不适用于空间分析。 如果输入图层的空间参考系为 WGS 1984 Web 墨卡托(辅助球体),则数据将转换为地理坐标系,以在分析中使用弦距离。
聚类设置
聚类设置组包含以下参数:
- 聚类方法用于指定将用于标识聚类的方法。
- 定义距离 (DBSCAN) - 通过在指定搜索距离内进行搜索识别聚类。 当所有有意义的聚类密度相似时,此方法适合。
- 自调整 (HDBSCAN) - 使用一系列距离将不同密度的聚类与稀疏噪点分离。 此方法为最具数据驱动性的聚类方法,因此不需要搜索距离。
- 多比例 (OPTICS) - 使用相邻要素和可达图之间的距离识别聚类。 该方法首先确定所有点的最小可达距离。 最小可达距离指从点到其最近相邻要素的距离,搜索尚未访问该相邻要素。 在确定所有点的最小可达距离后,工具将构造可达图。 可达图用于绘制每个点的可达顺序及其可达距离,从而呈现点的聚类结构。 该方法然后使用聚类敏感度值识别聚类。 OPTICS 方法与 HDBSCAN 方法相似,可以识别密度不同的聚类。
- 每个聚类的最少点数指将一组点视为聚类时所用的最少点数。 通常,值越小,检测到的聚类越多。 该值必须小于等于图层中的点数。 支持的最小值为 2。
- 搜索距离指定每个点周围要考虑的最大距离。 如果聚类方法值为定义距离 (DBSCAN),搜索距离值为要在聚类中每个点要素周围搜索可以包含在聚类中的点的最大距离。 如果可以在特定点的搜索距离内找到最少点数,则该点将视为核心点。 如果无法在特定点的搜索距离内找到最少点数但是该点位于核心点的搜索距离内,则该点将视为边界点。 聚类由核心点和边界点组成。 如果聚类方法值为多比例 (OPTICS),则搜索距离为每个点周围要搜索点以指派可达距离的最大距离。 可达距离指从点到其最近相邻要素的距离,搜索尚未访问该相邻要素。 对于点核心距离内的点,会指派核心距离作为其可达距离。 点的核心距离从各个点到所定义的最小要素数之间所需经过距离的测量值。
- 搜索距离单位为搜索距离值的单位。
- 时间字段是输入图层中包含各个要素的时间戳的字段。 如果聚类方法值为定义的距离 (DBSCAN) 或多比例 (Optics),则可以使用此参数。 如果指定了时间字段值,则还必须提供搜索距离和搜索距离单位值。
- 搜索时间间隔是将用于确定要素是否构成空间-时间聚类的时间间隔。 搜索时间间隔涵盖每个要素时间点之前和之后的时间;例如,围绕要素 3 天的搜索时间间隔将包括要素时间之前的 3 天内和要素时间之后的 3 天内的所有要素。
- 搜索时间单位是搜索时间间隔的单位。
- 聚类敏感度为如何使用可达图内的峰形(坡度和高度)分离聚类。 可达图用于绘制点的可达顺序及其可达距离图。 如果聚类敏感度值非常高(接近 100),即使可达图中的最小峰也会被视为聚类之间的间隔。 如果聚类敏感度值非常低(接近 0),则只会将可达图中最陡、最高的峰视为聚类之间的间隔。 如果留空,则工具将使用 Kullback-Leibler 散度查找敏感度值。
结果图层
结果图层组包括以下参数:
- 输出名称用于确定要创建并添加至地图的图层的名称。 名称必须唯一。 如果组织中已存在具有相同名称的图层,则工具将执行失败并提示您使用其他名称。
- 保存在文件夹中将指定我的内容中将用于保存结果的文件夹的名称。
环境
分析环境设置是影响工具执行结果的附加参数。 可以从环境设置参数组访问工具的分析环境设置。
此工具支持以下分析环境:
输出
该工具将输出一个点图层。 如果聚类方法参数值为自调整 (HDBSCAN) 或多比例 (OPTICS),该工具还将输出一个图表。 所有聚类方法选项的输出图层将包含 Cluster ID、Source ID 和 Color ID 字段。 Cluster ID 字段用于识别每个点所属的聚类。 噪点具有的值为 -1。 Source ID 字段值为唯一标识符。 Color ID 字段值表示指派给点及其聚类的颜色。 如果输出图层包含的聚类数超过九个,则会向每种颜色分配多个聚类。 但是,会向相邻聚类分配不同的颜色以便于区分。 如果聚类方法参数值为自调整 (HDBSCAN),则输出点图层将包含以下附加字段:
- Probability 为介于 0 和 1 之间的值,表示点属于其分配的聚类的概率。 噪点具有的值为 0。
- Outlier 为介于 0 和 1 之间的值,表示点在其自己的聚类内是否可能为异常值。 噪点将视为单一聚类。 高值表示点是异常值的可能性更高。
- Exemplar 为介于 0 和 1 之间的值,表示点是否为其聚类的最具代表性点。
- Stability 为反映每个聚类在一定比例范围内的持久性的值。 值越大表示聚类在越大的距离比例范围内持续存在。
如果聚类方法参数值为多比例 (OPTICS),则输出图层将包含以下附加字段:
- Reachability order 指如何对输入图层进行排序以供分析
- Reachability distance 指每个点与其最近的未访问相邻要素的距离。
如果聚类方法参数值为自调整 (HDBSCAN) 或多比例 (OPTICS),该工具将输出一个图表。 多比例 (OPTICS) 会输出一个可达图,可用于评估每个聚类的密度。 自调整 (HDBSCAN) 会输出一个成员概率分布图,用于显示要素属于其所指派聚类的概率分布。 要查看图表,单击内容工具栏上的图表。
如果指定了时间字段值,则输出将包括“每个聚类的时间跨度”图表,该图表显示各个空间-时间聚类的时间跨度。 要查看图表,单击内容工具栏上的图表。 输出图层还将包括以下字段,它们汇总了每个点所属聚类的时间跨度:
- 开始时间是要素所属聚类的开始时间。
- 结束时间是要素所属聚类的结束时间。
- 平均时间是要素所属聚类的平均时间。
- 时间夸大
您可以在输出图层项目页面中查看有关分析的其他详细信息。 要访问图层项目页面,请单击设置工具栏中的分析 。 单击历史记录,然后找到并单击成功的工具运行。 结果选项卡中随即打开分析详细信息。 单击输出图层旁的选项按钮,然后单击查看详细信息。
许可要求
该工具需要以下许可和配置:
- Creator 或 GIS Professional 用户类型
- 发布者或管理员角色,或等效的自定义角色
资源
请通过以下资源了解更多详细信息:
- ArcGIS Pro 中的基于密度的聚类
- ArcGIS REST API 中的查找点聚类
- ArcGIS API for Python 中的 find_point_clusters