学位专题

目录>
<
DOI:10.7666/d.Y2410956

麦克风自适应算法在鲁棒语音合成中的研究

李娜
中国海洋大学
引用
目前,当使用基于大规模语料库的合成方法时,通常采用高质量构建的合成语音库,以此来保证合成语音达到非常理想的状态。所以现有的语音库为了进一步提高合成语音的效果,其创建的要求也在进一步严格中。这样,不仅要扩大存储空间来适应更大规模的语音库,而且对录音环境的高要求也进一步加重了语音合成的成本问题。   随着眼下互联网的高速发展,网络上可以直接下载到的数据资源日益丰富,比如国内外各广播电台和电视台的新闻播报,并且其对应的文本也非常准确。如何将这些语音资源顺利地应用于自动语音库的创建中,必然可以有效降低语音合成的成本。但是,这类易获得的语音资源大都不是特别干净,存在录音条件不连续,录音条件多变,存在少量的背景噪声等等多种因素的干扰。对此,本论文在鲁棒语音合成方面进行了相关研究,根据目前语音识别中流行的抗噪声技术,针对网络语音库存在的噪声问题做出了系统的分析,提出了麦克风自适应算法来有效提高合成语音的质量,具体的工作和研究成果如下。   1)全面的分析了形成噪声的原因,对网络语音库中存在的主要噪声情况进行归类,通过对现行语音识别中已经比较成熟的噪声处理方法的归纳总结提出,由麦克风因素引起的噪声主要可以通过倒谱域的特征规整方法进行处理。研究还发现,基于HMM(Hidden Markov Model)的统计参数语音合成方法对噪声有更好好的鲁棒性,深入的讨论了这种可训练参数的合成系统优于单元挑选方法的具体原因。本论文在使用国际上通用的MOS评分方法来对合成系统做出性能评测,由于MOS方法属于主观评测,所以本文还参考了MCD值计算频谱偏移的方法,来客观的分析噪声对系统的影响。   2)本论文采用对纯净语音数据进行HRTF滤波,来模拟网络获取语音所存在的麦克风因素影响。这是由于如果直接采用网络语音进行实验,可能会存在语音样本种类单一的问题,不能覆盖所有可能出现的麦克风噪声情况;而如果采用极端录音的方式才模拟训练数据,义会受到太多未知冈素的干扰。所以本文使用了头相关传输函数的处理,来模拟网络语音。由于这种方法为纯净语音库和含噪声语音库的训练数据提供了在时长与内容的完全一致性,所以可以更好的比较两种语音库合成语音的效果,分析噪声对合成语音造成的相关影响。本文共创建了两个含噪声语音库,它们的区别在于包含麦克风影响参数的个数是不同的,可以观察到,麦克风因素的增加造成了合成语音自然度的明显下降。   3)本文提出了一系列的麦克风自适应算法来解决含噪声语音库的合成效果下降问题。实验表明,最终HTS系统合成语音的MOS评分和MCD结果基本一致,在经过自适应算法的处理后,利用含噪声数据集合成语音的自然度与可懂度都有了明显的提升。同时,相比CMN与RASTA方法,MVN方法在处理麦克风噪声问题方面最为优秀。

鲁棒语音合成;含噪声语音库;麦克风自适应算法;抗噪声技术;HRTF滤波

中国海洋大学

硕士

信号与信息处理

张巍

2013

中文

TN912.33

60

2013-12-31(万方平台首次上网日期,不代表论文的发表时间)