随机森林分类
随机森林是一个包括多决策树的分类器,其分类结果由单棵树输出类别的众数决定。
输入为 csv 文件,输出为 joblib 格式模型文件。支持选择特征列和目标列。
连接节点
输入节点:
result: 可以连接 数据源 、 类型转换 、 归一化 组件输出的 result 节点。和 train 节点二选一。
train: 可以连接 拆分 组件输出的 train 节点。和 result 节点二选一。
输出节点:
model: 可以连接 机器学习预测 组件输入的 model 节点。非必连。
组件配置
在工作流页面配置随机森林分类组件参数。
参数 |
必填 |
描述 |
特征字段 |
是 |
填写用于训练的特征字段,使用半角逗号、空格 或者回车隔开。 |
目标字段 |
是 |
填写用于训练的目标字段。 |
正类值 |
否 |
若为空时,默认值为1或者选取目标字段数据作为 正值。 |
树的个数 |
是 |
随机森林中树的数量,取值范围为1~1000。 |
特征数量 |
是 |
寻找最佳分割时要考虑的特征数量,支持选择sqrt 或log2。 |
叶节点样本最小个数 |
是 |
取值范围为正整数,默认值为2。 |
叶节点数据个数占父节点的最小比例 |
是 |
取值范围为(0,1),默认值为0.1,数值过大训练 效果可能较差,可以调小解决。 |
单颗树最大深度 |
否 |
若为空时,默认值为无穷。 |
训练每个基本估计器的样本数量 |
是 |
取值范围为[1000,1000000],默认值为1000。 |
单节点规格 |
是 |
选择进行随机森林分类的单节点算力规格。 |