学位专题

<
DOI:10.7666/d.y1337806

一种基于氨基酸物理化学性质上的DNA序列图形表示及相似性分析

刘法利
中国海洋大学
引用
DNA、RNA和蛋白质的初级结构(或线性序列)都是由较小的单元组成的无分支的线性聚合体大分子。对于DNA,这些单元是A(腺嘌呤)、C(胞嘧啶)、G(鸟嘌呤)和T(胸腺嘧啶)这四种核苷酸残基;对于RNA,这些单元是A、C、G和U(尿嘧啶)这四种核苷酸残基;对于蛋白质这些单元是20种氨基酸残基,即A(丙氨酸)、C(半胱氨酸)、D(天冬氨酸)、E(谷氨酸)、F(苯丙氨酸)、G(甘氨酸)、H(组氨酸)、I(异亮氨酸)、K(赖氨酸)、L(亮氨酸)、M(甲硫氨酸)、N(天冬酰胺酸)、P(脯氨酸)、Q(谷氨酰胺酸)、R(精氨酸)、S(丝氨酸)、T(苏氨酸)、V(缬氨酸)、W(色氨酸)和Y(酪氨酸)。这样,一个DNA(RNA)序列可以看作是在一个有四个字母上的字母表={A,C,G,T(U)}上的字(word),同样蛋白质也可以看作是一个在20个字母上的字,蛋白质以氨基酸亚单元形成常链,而氨基酸有20种,因此组合学和统计学的工具和方法可以在研究生物序列和生物结构上发挥很大的作用,本文将在考虑氨基酸物理化学性质的基础上给出DNA序列一种非退化的图形表示方法:将一条DNA序列编码的氨基酸序列表示成-H,-C,-P和-G曲线。一股情况下,我们只需要其中三条曲线就可以完整的表示出DNA的序列信息,这种表示方法同时也就给出了蛋白质序列一种新的图形表示,并在此方法基础上对序列相似性做出分析。 本文的主要工作包括以前几个方面: 在第1章我们将一些介绍分子生物学中的基础知识,大多数后面要用到的属于和基本概念都窄这里做简单的介绍。 在第2章,我们考虑了DNA序列基于20种氨基酸的物理和化学性质上的一种二维图像表示方法以及这种表示的性质,还讨论了其数值特征,同时也给出了三联体和蛋白质序列的一种二维表示,并定义了相应的特征曲线。 在第3章我们给出了基于C矩阵的序列不变量,这种不变量可以避免传统矩阵不变量关于对称曲线退化的情况,以此为基础我们分析了10个物种β-球蛋白的第一段外显子序列的相似性和非相似性,并利用UPGMA给出10个物种β-球蛋白的第一段外显子序列的系统发生树。 在第4章我们根据DNA序列生成蛋白质序列读框的不同构造关系矩阵R,通过计算R矩阵的最大特征值作为不变量,分别分析了8种禽流感基因组序列相似性和非相似性,并利用UPGMA给出相应的系统发生树。 在第5章,给出了论文的总结和展望。

DNA序列;图形表示;氨基酸;相似性分析;进化树

中国海洋大学

硕士

运筹学与控制论

赵熙强

2008

中文

Q523

34

2008-12-08(万方平台首次上网日期,不代表论文的发表时间)