K均值聚类

K均值聚类首先随机选择K个对象作为每个簇的初始聚类中心,然后计算剩余对象与各簇中心的距离,将其分配至距离最近的簇,再重新计算每个簇的聚类中心。该算法假设聚类对象为空间向量,且以各聚类内部的均方误差和最小为目标,不断地进行计算迭代,直到准则函数收敛。

输入为 csv 文件,输出为 csv 文件。支持选择特征列,支持配置参数,如聚类数(必须)、距离度量方式、质心初始化方法、最大迭代次数、收敛标准以及初始随机种子。

连接节点

输入节点:

无输出节点。

组件配置

在工作流页面配置K均值聚类组件参数。

表 36 K均值聚类组件参数

参数

必填

描述

特征字段

填写进行K均值聚类的字段,使用半角逗号、空格或者回车隔开。

原样附加字段

填写附加输出至聚类结果表的输入列,使用半角逗号、空格

或者回车隔开。

聚类数

填写类别数,取值范围大于等于1。

质心初始化方法

支持选择Random、First K、Uniform及K-Means++方法。

最大迭代次数

取值范围为1~1000。

收敛容忍度

迭代终止条件,取值范围为(0,1)。

初始随机种子

用于质心初始化的随机种子,取值范围大于等于1。

单节点规格

选择进行K均值聚类的单节点算力规格。