音频转写

音频转写，或被称为自动语音识别（Automatic Speech Recognition, ASR）是深度学习在语音处理领域的一个重要应用。它的目标是将人类的语音信号转换成机器可以理解的文本信息。音频转写任务在许多实际应用中都非常关键，比如语音助手、语音到文本转换、字幕生成等。随着深度学习技术的发展，音频转写的准确度和应用范围都得到了显著提升。同时，随着物联网和智能设备的普及，音频转写技术的应用场景也越来越广泛。

表 189 音频转写模型介绍
预置模型	模型特点
seq2seq	Seq2seq 是音频转写任务中的经典网络，使用了 CRDNN 作为编码器，GRU 作为解码器，并使用 BPE 作为 Tokenizer 来完成对语音的识别。