学位专题

目录>
<

基于序列的蛋白质结构预测的机器学习模型

张丽超
中国海洋大学
引用
从急剧膨胀的蛋白质序列数据信息中分析其结构和生物功能是后基因组时代面临的一个重要挑战。蛋白质结构类型能直观描述蛋白质的完整空间折叠结构模式,是解释蛋白质结构和功能的重要信息来源,为相关生物技术的发展提供了理论依据。然而确定蛋白质结构类型的传统生物实验方法不仅周期长而且成本高,所以利用数学方法和计算机技术开发快速有效的蛋白质结构类预测模型与实验方法互为补充将是一项非常有意义的工作。本文以蛋白质结构类预测为研究背景,基于统计模式识别的理论与方法,深入研究了蛋白质结构类预测中的特征表示问题,主要成果有:  (1)本文提出了基于蛋白质二级结构信息的特征表示方法。该方法在预测的线性二级结构序列基础上,从二级结构含量、顺序和距离三个角度分别设计反映二级结构元素含量及其空间排列方式的特征,特别是大量与二级结构片段相关的距离特征。通过四个低序列相似性数据集上与其它基于二级结构的预测方法对比结果表明,这种基于二级结构含量、顺序和距离设计的特征表示方法更能有效地描述蛋白质二级结构的空间排布信息,其总体分类准确率以及α/β类和α+β类分类准确率有着不同程度的提高,是一种有效的特征表示方法。另外,为了研究蛋白质罕见二级结构对结构类预测性能的影响,设计了9个基于罕见二级结构的特征,实验结果说明罕见二级结构信息可以有效的改进蛋白质结构类预测模型的性能。  (2)本文提出了基于蛋白质序列进化信息的特征表示方法。蛋白质进化信息反映了蛋白质序列中各个位置的氨基酸残基在进化过程中的保守性,这对揭示蛋白质的结构和功能有重要意义。从蛋白质氨基酸序列出发,由PSI-BLAST预测获取相应的位置特异性打分矩阵,设计了五种蛋白质氨基酸进化差异公式用于蛋白质序列特征表示。两个低序列相似性数据集上的预测结果显示了本文提出方法的有效性。此外,研究了基于二级结构和进化信息的多特征融合的蛋白质结构类预测方法,实验结果表明有效的特征融合确实可以显著改善原有基于单一信息来源的特征预测模型的分类准确率,这为基于多源信息特征融合来预测蛋白质结构类提供了新思路。

蛋白质结构;预测模型;机器学习理论;序列分析

中国海洋大学

博士

遗传学

赵熙强

2015

中文

Q518.1

116

2016-03-30(万方平台首次上网日期,不代表论文的发表时间)