嗜热微生物的基因组分析
自然界中绝大多数生物的生存温度都在20℃-50℃之间,但是也有很多生物可以在20℃以下的低温和50℃以上的高温环境中生长。其中能在高于50℃的环境下生长的为嗜热微生物。一直以来,嗜热微生物的嗜热机理都是人们关注的焦点。但是由于其生存环境的特殊性,人们很难对其进行实验研究。随着生物信息学的发展,越来越多的嗜热微生物的全序列被测定,这些数据的激增为研究微生物的嗜热机理提供了难得的机遇。
生物信息学的方法来研究嗜热机理主要是在基因和蛋白水平方面。之前本实验室的一个研究发现,在几种海洋微生物中,高表达基因的含量与其最适生长温度OGT之间存在着正相关性。这启发了我们,基因表达水平也许在原核生物的热适应当中起到了一定的贡献。
本文选取了33种具有不同OGT的原核微生物为数据集,从基因表达水平入手来分析热适应的机理。但是由于基因功能对结果的影响比较大,并且目前实验注释的基因功能不够完善,所选的基因组中有很多未知功能基因。因此我们的第一步工作是用理论的方法对文中所用的微生物基因组进行功能的注释,让未知功能基因的比例减小以提高我们所做结果的准确性。为了便于叙述,我们仅以生长温度最高的两种嗜热微生物Pyrococcus abyssi和Pyrococcus furiosus来进行介绍。注释的工作是在已识别出的有注释的基因组基础上进行的。本文首先对各基因进行非编码ORFs的判别,而后用GS-Finder计算其起始位点,得到数据后和相应的NCBI、ProTISA的数据进行比较,用陪审团算法得到新的数据,这两个步骤都是在基于Z曲线理论的程序上完成的。对假定基因功能预测是基于序列相似原理的,用Blast结合COG确定其功能。最终,各有超过200个的未知功能基因被确定了功能。
确定了基因功能以后,我们接着用E(g)和CAI两种理论方法预测了33个物种的基因表达水平,发现在更大的数据集上依然存在着高表达基因的比例与OGT之间的正相关性。为了进一步探讨这个现象的原因,我们定义了一个以氨基酸组成为基础的、衡量蛋白质热稳定性的全面指标CIT,发现高表达基因编码的蛋白的CIT值更高,热稳定性也更好。除此之外,我们也研究了高表达基因在核酸水平上的热适应性。由于在之前的研究中,AG和ApG含量被认为是衡量DNA稳定性的一个指标,而我们研究发现,高表达基因的AG以及ApG含量也要显著的高于非高表达基因。因此可以说,在蛋白和DNA水平上,高表达基因都更加的热稳定。这些发现不但表明了基因表达水平在热适应中所起的贡献,而且也为进化过程中天然蛋白热稳定性的翻译选择压力提供了证据。
除此之外,本论文还研究了蛋白质三级结构的拓扑特征在热适应方面的一些贡献。通过考察127个蛋白的结构拓扑参数和其自身熔解温度之间的关系来衡量三级结构的拓扑特征在热适应中所起的作用。但是由于目前已测定的有确切熔解温度和三级结构的蛋白序列非常的缺乏,并不具备大批量的统计研究条件,因此并没有发现确定性的结果。相信随着数据集的增大,可能会有确定的结果。本论文也为进一步的探讨做了一定的铺垫。
嗜热微生物;基因组分析;拓扑特征;嗜热机理
中国海洋大学
博士
海洋生物学
张士璀
2009
中文
Q178.53
99
2009-10-19(万方平台首次上网日期,不代表论文的发表时间)