基于通用识别器的文语对齐技术的研究
我们身处互联网高速发展的时代,互联网可共使用视听资源很多,我们取得免费的视听资源也十分方便。当我们建立语音语料库时,往往会使用到很多的人力、物力且构建的时间也很长,造成了很多浪费。如果把这些资源变成可用的资源,将节省很多人力与物力。本文提出了一个方法来解决这一问题,即区分互联网上的免费的视听资源,用来快速构建语音库。 本文的实验的数据取自《新闻联播》(CCTV)节目,选取新闻联播作为实验语料主要原因是《新闻联播》里的主持人发音是国家标准,并且有良好的文本对应,多数情况下都是主持人针对特定语境的录音,有着较好的韵律特征以及上下文信息,且取材方便。基于此本文具体的工作包括如下几点。 (1)本文提出了一种基于通用识别器的文语对齐技术(通用识别器为window7自带语音识别系统和Google Voice Recognition),该技术是基于隐马尔科夫强制对齐技术,通过比较我们得到的初步识别结果和原来的文本,运用强制对齐Force-alignment(FA)与模式匹配技术,把能够对齐的语料抽取出来,这样可以大大减少建立型语音数据库的时间。通过迭代机制,运用到通用识别器的识别过程中,能够有效的对齐的部分最大化。最终把能够对齐的音频和文本从原始的音频和文本中切分出来,将对齐的结果合并起来,然后,将正确对齐的单句作为训练数据构建中文识别器。 (2)作为一种评估通用识别器的文语对齐技术的方法,本文提出来了一种基于三音素模型中文识别系统,把通用识别器文语对齐后得到的语料库,作为本次搭建语音识别器的训练数据库,测试数据采用同源的音频。方法如下,先在HTK系统的基础上,得到一个基于三音素模型,做到对任意中文的识别。然后,本方法通过使用CMN(倒谱均值归一化算法),从而使相应的识别率得到很好的改善。最后,由于此系统得到的识别结果的格式是汉语拼音的,此格式不易被人们阅读理解,所以本文又通过Perl脚本语言。基于得到的识别结果(汉语拼音格式的)映射成中文汉字形式,从而方便人们理解。
文语对齐技术;通用识别器;三音素模型;模式匹配
中国海洋大学
硕士
电子与通信工程
张巍
2014
中文
TP391.43
63
2015-04-01(万方平台首次上网日期,不代表论文的发表时间)