K均值聚类
K均值聚类首先随机选择K个对象作为每个簇的初始聚类中心,然后计算剩余对象与各簇中心的距离,将其分配至距离最近的簇,再重新计算每个簇的聚类中心。该算法假设聚类对象为空间向量,且以各聚类内部的均方误差和最小为目标,不断地进行计算迭代,直到准则函数收敛。
输入为 csv 文件,输出为 csv 文件。支持选择特征列,支持配置参数,如聚类数(必须)、距离度量方式、质心初始化方法、最大迭代次数、收敛标准以及初始随机种子。
连接节点
输入节点:
无输出节点。
组件配置
在工作流页面配置K均值聚类组件参数。
参数 |
必填 |
描述 |
特征字段 |
是 |
填写进行K均值聚类的字段,使用半角逗号、空格或者回车隔开。 |
原样附加字段 |
是 |
填写附加输出至聚类结果表的输入列,使用半角逗号、空格 或者回车隔开。 |
聚类数 |
是 |
填写类别数,取值范围大于等于1。 |
质心初始化方法 |
是 |
支持选择Random、First K、Uniform及K-Means++方法。 |
最大迭代次数 |
是 |
取值范围为1~1000。 |
收敛容忍度 |
是 |
迭代终止条件,取值范围为(0,1)。 |
初始随机种子 |
是 |
用于质心初始化的随机种子,取值范围大于等于1。 |
单节点规格 |
是 |
选择进行K均值聚类的单节点算力规格。 |