音频类评价指标介绍

音频类任务分为音频转写和音频分类两类。每种任务使用不同的评价指标。

音频转写

词错误率（Word Error Rate）

作用：: 词错误率衡量了识别系统在识别过程中出现的错误程度。
定义：: 词错误率（Word Error Rate，简称 WER）表示识别结果中与参考文本不匹配的单词数与参考文本中总单词数的比率。
计算过程：: \[\text{WER} = \frac{S+D+I}{N}\]

其中，S 表示预测文本转化为标签发生的替换数量，D 表示预测文本转化为标签的删除数量，I 表示预测文本转化为标签的插入数量。N 代表标签中总词数。

字错误率（Character Error Rate）

作用：: 字错误率衡量了识别系统在识别过程中出现的错误程度。
定义：: 字错误率（Character Error Rate，简称 CER）表示识别结果中与参考文本不匹配的单词数与参考文本中总单词数的比率，与 WER 类似，但 CER 以字符级别而不是词级别进行评估。
计算过程：: 同 WER

音频分类

精确率（Precision）

作用：: 用来衡量算法的误检情况的评价指标。
定义：: 分类器预测为正类别的样本中，真实为正类别的样本所占的比例。
计算过程：: \[\text{Precision} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Positives}}\]

其中，True Positives （真正例）表示分类器正确预测为正类别的样本数，False Positives （假正例）表示分类器错误预测为正类别的样本数。

召回率（Recall）

作用：: 用来衡量算法的漏检情况的评价指标。
定义：: 所有真实正类别样本中，被分类器正确预测为正类别的样本所占的比例。
计算过程：: \[\text{Recall} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}}\]

其中，True Positives（真正例）表示分类器正确预测为正类别的样本数，False Negatives（假反例）表示分类器错误预测为负类别的样本数。

F1-score

作用：: 用于综合衡量算法漏检和误检情况的评价指标。
定义：: Precision和Recall的调和平均值
计算过程：: \[F1 = \frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}\]

混淆矩阵（Confusion Matrix）

作用：: 方便地看出模型是否将两个不同的类混淆。
定义：: 矩阵的每一列表示分类器预测的类别，而每一行表示样本真实的类别。