学位专题

<
DOI:10.7666/d.y1337357

生物序列新的图形表示及其应用

于正刚
中国海洋大学
引用
生物信息学是一门新兴的交叉学科,它是伴随着基因组研究产生的,主要是研究分子生物学与基因和蛋白质序列有关的复杂计算问题。广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。这一定义包括了两层含义,一是对海量数据的收集、整理与服务,也就是管好这些数据;另一个是从中发现新的规律,也就是用好这些数据。 在生物信息学中,序列比对是最重要的原始操作,是许多其它更复杂操作的基础。目前应用罚分函数来做为生物序列比对标准的方法已经比较成熟,但该方法忽略了组成基的化学性质和化学结构,并且存在选取罚分函数的随意性,而选取罚分函数的好坏直接影响相似性分值,尤其对于RNA而言,该方法不适用于带假结以及较大的RNA二级结构相似性比较。 近二十年来,生物序列的图形表示方法在研究生物序列局部和整体的比对分析中起的作用越来越大,并且与之相对应的数值特征及相似性分析使这些直观的视觉感知更加理性化。本文针对DNA序列和RNA二级结构序列提出了新的图形表示方法,及阐述了其在序列相似性比对上的应用。本文的创新点主要有: 在第二章,我们提出了DNA的一种基于4条特征曲线的新的二维图形表示方法。对于这种新的图形表示方法,本文给出了求其数值特征向量的方法,并运用特征向量对11种生物的β-globin基因的第一外显子序列进行了相似性分析。由于二维表示方法自身存在着一些不足,我们又将其改进,给出改进后的新的DNA序列八维图形表示方法,构造了新的特征向量来进行生物DNA序列的相似性比对研究。 在第三章,我们我们针对RNA二级结构的化学性质和结构特点,提出了一种新的RNA二级结构序列的图形表示,我们的方法是非退化的,不受是否带假结的限制,并且选取了较为简单的数字特征。最后我们运用该方法对9个病毒的同一段二级结构序列做了相似性比对。

生物信息学;生物序列;罚分函数;基因研究;图形表示法;序列相似性

中国海洋大学

硕士

运筹学与控制论

赵熙强

2008

中文

Q811.4

39

2008-12-08(万方平台首次上网日期,不代表论文的发表时间)