随机森林分类

随机森林是一个包括多决策树的分类器,其分类结果由单棵树输出类别的众数决定。

输入为 csv 文件,输出为 joblib 格式模型文件。支持选择特征列和目标列。

连接节点

输入节点:

  • result: 可以连接 数据源类型转换归一化 组件输出的 result 节点。和 train 节点二选一。

  • train: 可以连接 拆分 组件输出的 train 节点。和 result 节点二选一。

输出节点:

组件配置

在工作流页面配置随机森林分类组件参数。

表 39 随机森林分类组件参数

参数

必填

描述

特征字段

填写用于训练的特征字段,使用半角逗号、空格

或者回车隔开。

目标字段

填写用于训练的目标字段。

正类值

若为空时,默认值为1或者选取目标字段数据作为

正值。

树的个数

随机森林中树的数量,取值范围为1~1000。

特征数量

寻找最佳分割时要考虑的特征数量,支持选择sqrt

或log2。

叶节点样本最小个数

取值范围为正整数,默认值为2。

叶节点数据个数占父节点的最小比例

取值范围为(0,1),默认值为0.1,数值过大训练

效果可能较差,可以调小解决。

单颗树最大深度

若为空时,默认值为无穷。

训练每个基本估计器的样本数量

取值范围为[1000,1000000],默认值为1000。

单节点规格

选择进行随机森林分类的单节点算力规格。