音频转写

用于进行音频转写的深度学习组件,输入为音频,输出为识别出的文本信息。

节点输入输出

训练节点

输入:

  • train(必选): 训练数据集,需要是标注数据集的格式。

  • validation(可选): 验证数据集,需要是标注数据集的格式,用于在训练过程中监测模型精度。

  • test(可选):测试数据集,需要是标注数据集的格式。

输出:

  • outputModel(必选):训好模型的保存位置。

  • modeling(可选):用于连接评估节点。

评估节点

输入:

  • data(必选): 用于评估任务的数据集,需要是标注数据集的格式。

  • model/modeling(二选一): 用于连接训练节点。

组件配置

在工作流页面配置组件参数。

表 60 训练组件参数

参数

必填

描述

算法

用于音频转写任务的预置模型,支持如下几种模型

(模型介绍 音频转写 ):

  • GPU: seq2seq

训练参数-Lr

初始学习率大小。 默认值为 0.0002。

训练参数-Number_of_epochs

所有样本训练完成一轮表示一个 epoch。总的 epoch 轮数表示所有样本共训练多少轮。默认值为 20。

训练参数-Batch_size

训练的批大小,即模型训练过程中,每次迭代(每一步)训练的样本数量。默认值为 4。

训练参数-Weight_decay

L2 的权重衰减损失系数。默认值为 0。

训练参数-Optimizer

训练使用的优化器,支持 Adadelta, Adam, RMSprop, SGD 四种。默认值为 Adadelta。

训练参数-Momentum

动量大小,仅在 RMSprop 和 SGD 优化器中出现。默认值为 0.9。

训练参数-Rho

用于计算梯度平方的滑动平均值的系数,仅在 Adadelta 优化器中使用。默认值为 0.95。

训练参数-Beta1

用于计算梯度的滑动平均值的系数, 仅在 Adam 优化器中使用。默认值为 0.9。

训练参数-Beta2

用于计算梯度平方的滑动平均值的系数,仅在 Adam 优化器中使用。默认值为 0.999。

训练参数-Number_of_ctc_epochs

训练使用的 CTC 损失函数的 epoch 数。默认值为 5。

训练参数-Ctc_weight

训练使用的 CTC 损失函数的权重。默认值为 0.5。

资源类型

选择资源池类型。

单节点规格

选择进行训练任务的单节点算力规格。

节点数

每个任务总的资源量为 单节点规格 x 计算节点数量

使用时长

支持配置使用时长。

表 61 评估组件参数

参数

必填

描述

单节点规格

选择进行评估任务的单节点算力规格。