音频转写

音频转写,或被称为自动语音识别(Automatic Speech Recognition, ASR)是深度学习在语音处理领域的一个重要应用。它的目标是将人类的语音信号转换成机器可以理解的文本信息。音频转写任务在许多实际应用中都非常关键,比如语音助手、语音到文本转换、字幕生成等。随着深度学习技术的发展,音频转写的准确度和应用范围都得到了显著提升。同时,随着物联网和智能设备的普及,音频转写技术的应用场景也越来越广泛。

表 189 音频转写模型介绍

预置模型

模型特点

seq2seq

Seq2seq 是音频转写任务中的经典网络,

使用了 CRDNN 作为编码器,GRU 作为解码器,

并使用 BPE 作为 Tokenizer 来完成对语音的识别。