学位专题

目录>
<

基于SilAlign的中文语音文语对齐的研究

高红坤
中国海洋大学
引用
文语对齐是以语音识别器为基础,在时间上对语音和文本进行强制对齐的过程。文语对齐通常被应用在多媒体检索和训练一个大词汇量的语音识别和合成系统。近年来网络上可以获取越来越丰富的音频资源,促进了语音和文本对齐的大规模研究。例如有声书本,多媒体文档等。对这些语音和文本,采用传统的基于维特比的强制对齐算法被证明对于文本和语音不匹配或者语音存在噪声的情况存在不足。  为了使语音和文本能够避开这些限制,使用语音识别器对原始的语音进行识别,从而得到含有时间信息的识别文本,再把该文本与原始文本进行对齐,来得到两者共同的部分。这样就把语音和文本的对齐问题转化成为文本和文本的对齐问题,后一种问题的解决方案通常要求的计算量要少得多。SailAlign这一开源工具就是基于这种语音和文本对齐方法。  本论文利用修改的SailAlign算法进行中文的文语对齐研究。在语音多于文本的情况下,我们进行了实验,并对其结果进行分析。最后我们还实现了自动化的文语对齐。  本文的主要研究工作如下:  首先,由于SailAlign算法不支持中文,所以我们修改了SailAlign的配置文件,并且添加了中文的语言模型和声学模型,从而能够使用SailAlign进行中文的文语对齐研究。声学模型和语言模型是用大量的新闻联播的语音和文本数据训练得到的,使用SailAlign算法对语音和文本进行文语对齐的过程是迭代的和自适应的。通过实验我们对SailAlign算法在语音多于文本的情况下进行文语对齐的正确率进行了分析和比较。实验表明,在语音多于文本的情况下,利用该算法得到的语音和文本进行对齐的正确率比较高。  接下来我们通过SailAlign算法进行文语对齐以后,然后再把对齐的语音和文本数据分割出来,就可以得到一一对应的语音和文本。为了节省时间,提高效率,我们把SailAlign文语对齐的整个过程用一个shell脚本实现自动化,整个过程都是在Linux这一个平台下运行的。该自动化的文语对齐过程分为三个模块,分别为文本和语音的预处理,SailAlign的文语对齐,文本的抽取和语音的切分。

中文语音;文语对齐过程;SailAlign算法;语音识别器

中国海洋大学

硕士

电子与通信工程

张巍

2015

中文

TN912.34

56

2016-01-27(万方平台首次上网日期,不代表论文的发表时间)