语音合成TTS论文优选：text normalization

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN

该文章是字节跳动AI实验室在2020.02.09发表的文章，该文章主要对TTS前端的tn模块进行优化。我们知道中文的前端TN是很琐碎的的东西，很多企业选择使用基于规则的处理方案，本文章在基于规则的方案基础上提出了混合规则和神经网络模型的方案，使tn的准确度更高，具体的文章链接https://arxiv.org/pdf/1911.04128.pdf

1 研究背景

TN（text normalization)的工作主要是把NSW(non-standard words)转成SFW(spoken-form words)，用于消除歧义。例如“2020”是按照数据读法还是年月读法？"1:3"读成时间还是比分？“1”是都读“yi1"还是"yao1"?这些情况需要根据该词的上下文来判断。现有处理tn的方案主要有基于规则的方案和基于神经网络的方案。基于规则的方案主要通过正则表达式来进行匹配，该方案需要大量的实例来进行测试，主要特点是处理灵活但不便于优化提高准确度。基于神经网络的方案则可能造成不可逆的错误（目前很多公司还是基于规则，优化TTS前端工作相对后端来说还是很少）。为解决以上问题，本文提出了基于规则和神经网络混合的解决方案。

2 详细的系统结构

本文的详细结构如图1所示，本文把数字和符号相关NSW使用神经网络进行处理分类，其余的NSW例如缩写等使用规则进行处理。Neural TN model只进行分类判断，例如”2020“是按照何种方式来读，该模型的结构如图2所示的multi-head的结构。neural model产生的输出还需要使用正则进行判断是否与预测的pattern匹配，如果不匹配则还需要使用规则进行处理，匹配则进行SFW转换，由此提高TN的准确度。