基于predictprotein平台的蛋白质结构预测

基于predictprotein平台的蛋白质结构预测


2024年4月16日发(作者:)

龙源期刊网

基于predictprotein平台的蛋白质结构预测

作者:马相如 肖冬

来源:《计算机光盘软件与应用》2013年第14期

摘 要:基于predictprotein平台,通过整合threader、ROSETTA和ZDOCK等关于大分子

建模的免费软件包,构建了蛋白质结构预测虚拟机,并对不能进行同源建模的BmKAP蛋白质

序列的二级结构和三维结构分别进行了初步预测。

关键词:蛋白质结构预测;ROSETTA;虚拟机

中图分类号:Q518

随着DNA和蛋白质测序速度的加快,蛋白质结构需求的日益增多,人们迫切需要一种不

依赖于传统物理化学方法能够准确预测出蛋白质结构的方法[1,2]。因此,基于已有的蛋白质

结构数据库,利用同源建模和计算化学的方法进行蛋白质结构预测显得日益重要。在蛋白质二

级结构预测中以神经网络方法为主[3,4],其中被称为PHD的神经网络预测方法整合了多种神

经网络方法的优点,具有较高的准确性[5]。蛋白质三级(或三维)结构的预测方法则主要分

为三种:同源性(homology)、从头计算(ab initio)和穿线法(threading)等方法[6],其中

模板库中已有相似序列的同源性预测方法准确性最高。

进入21世纪以后,数据整合与软件集成已经成为目前生物信息学的研究热点和重要方向

[7,8]。集成整合Linux操作系统及其平台上众多的生物信息学免费软件,建立基于个人电脑

或局域网服务器的生物信息学平台,是目前国内外大学或研究机构生命科学教学和科研过程中

普遍采用的一个策略[8]。被称为蛋白质结构预测标准的 predictprotein平台[9]就是由美国哥伦

比亚大学生物信息中心整合开发的基于Ubuntu/Linux系统的蛋白质二级结构预测平台。而

ROSETTA是进行大分子建模、三维结构从头预测和蛋白质相互作用与对接研究的免费软件

包,并自1998年以来一直在CASP(Critical Assessment of Structure Prediction)竞赛中居于领

先地位。本文集成整合了蛋白质二级结构预测平台——predictprotein平台和ROSETTA等蛋白

质三维结构从头预测软件包,并对不能进行同源建模的BmKAP蛋白质序列的二级结构和三维

结构分别进行了初步预测。

1 软件与方法

1.1 计算机硬件

本研究所需计算机硬件的最低要求如下:CPU处理器主频2GHz以上(如果在虚拟机上运

行,则要求CPU支持虚拟技术),最小分配内存4GB,硬盘容量大于100GB。

1.2 主要软件包的获取与安装

龙源期刊网

本研究所需要的各个软件下载地址如表1所示。

用户可以在Windows平台上安装VirtualBox虚拟机,在虚拟机中装载bio-linux系统(iso

文件),然后在该系统中挂载Predict Protein Machine Image(PPMI)数据库;也可以将下载的

iso文件刻录成光盘或制作成USB驱动盘,再独立安装在计算机中。具体安装使用方法见bio-

linux网站的使用手册。

表1中threader、PROSPECT、ROSETTA、VMD和ZDOCK等软件是用来预测蛋白质三

维结构、分子动力学模拟和分子对接等,弥补了predictprotein平台在蛋白质三维结构预测(特

别是从头计算)方面的不足。ROSETTA等软件包下载解压后,可以参照README等类似说

明文件进行安装。如ROSETTA软件的安装,在LINUX终端解压后进入安装目录,执行scons

bin mode=release命令即可。

2 利用本平台的预测结果

2.1 蛋白质二级结构预测

这里以东亚钳蝎蝎毒BmKAP蛋白质序列[10]为例,简要说明一下蛋白质结构预测的过程

和方法。该序列是一段长度为89的氨基酸序列

(MKFVFASFALFVIFLCFSQSLSQSYFRCRDNEVFDNCISNCGPPRCSNILNTYPCTNLGPLCT

PGCKCKDGRVYDNQGRCVLQTECFQK)。在LINUX命令行终端输入“prof ”,

预测的结果为

(LEEEEHHHHHHEEEEEELLLLLLLLEEELLLHHHHHHHLLLLLLLLLLLLLLLLLLLLLLLLL

LLLLLLLLEEELLLLEEEEEEEEEEL)其中H表示α螺旋,E表示β折叠,L表示无规则卷

曲,可以看出该蛋白质中α螺旋有13个,β折叠有26个,无规则卷曲有50个。

此外,predictprotein平台中还有许多与蛋白质二级结构预测相关的命令,如coils(识别卷

曲螺旋)、conformational(识别二级结构中构型变化的氨基酸)、disulfinder(识别序列中的

二硫键)、norsp(识别序列中的非常规二级结构)、predictnls(识别序列中的核定位信

号)、profdisis(识别蛋白质和DNA间的交联位点)、profisis(识别蛋白质与蛋白质间的交联

位点)、phd(识别膜蛋白跨膜螺旋)等等。其预测结果表明:BmKAP是一个非球状蛋白

质,不包含任何核定位信号,不存在蛋白质与蛋白质间交联位点,在第31和32残基处有构型

变化的氨基酸。

2.2 使用ROSETTA预测蛋白质的三维结构

使用ROSETTA软件包的默认参数(未做任何优化和修改)进行BmKAP蛋白质序列的三

维结构从头预测(不能进行同源建模),先后运行“make_ ”、

“ccrelease -in::file::frag3 aaBmKAP03_05.200_v1_3 -in:file:

frag9 aaBmKAP09_05.200_v1_3 -in::file::fasta -out:file:silent

龙源期刊网

BmKAP_”和“extract_ccrelease -in:file:silent BmKAP_ -

in:file:fullatom -output -out::prefix”等三个命令即可,预测的结果如图1所示。

图1 BmKAP蛋白质三维结构的solid ribbon图

2.3 蛋白质结构预测结果评估

对于BmKAP蛋白质的三维结构预测结果,使用QMEAN网页服务器[11]进行评估。评估

结果:QMEAN score,0.654;Estimated absolute quality,Z-score=-1.49;Residue error

3 讨论

由于蛋白质结构预测的复杂性和耗时性,以及在互联网上利用生物信息学服务器进行分

析,除了受网络速度限制外,还有无法保证原始实验数据的保密性以及对方服务器所使用软件

的可信性等等问题[11],许多研究者需要构建自己的个人生物信息学分析服务器。而计算机运

算性能、存储技术和虚拟技术的飞速发展,使在个人电脑上建立跨平台的各种虚拟机成为现

实,从而可以在个人电脑上交叉使用Windows、Linux、Mac等各种操作系统依赖的生物信息

学软件。此外,利用LiveCD/LiveUSB等软件还可以将predictprotein平台(Ubuntu Linux 12.04

LTS系统)安装在优盘、闪存等各种可移动的存储工具上,建立可随身携带(1个体积极小、

重量极轻的闪存盘)的个人生物信息学移动分析平台。

除了蛋白质结构预测方面的软件之外,predictprotein平台中已经预安装或自带了各种序列

编辑和比对、分子系统发育和分子生态学分析以及作图等多种生物信息学相关软件包,如

arb、emboss、mothur、MrBayes、qiime、splitstree 、staden 、t-coffee、wise2等,详见网页列

表( http:///tools/bio-linux/package-list)。其中,Qiime(Quantitative insights

into microbial ecology,http:///)作为微生物分子生态学分析的一个标准软件,也单

独提供基于64位Ubuntu Linux 12.04 LTS操作系统的VirtualBox虚拟机下载服务(ftp:

///pub/QIIME-v1.7.0-dependencies/)。

参考文献:

[1]李明,苏显中,于敏,郑全喜.蛋白质结构预测进展[J].生物技术,2009,19(3):87-

90.

[2]Wei Zhu,Jingyu Hou,Yi-Ping Phoebe ting multi-layered information to

iteratively predict protein functions[J].Mathematical Biosciences,2012,236:108-116.

[3]鲁静,崔波.人工神经网络在蛋白质结构预测和QSAR中的应用[J].广东化工,2009,

199(36):92-93.

龙源期刊网

[4]殷志祥,张家秀.神经网络在蛋白质结构预测中的应用[J].中国科技信息.2005,11:28-

29.

[5]何琴,高建华,刘伟.蛋白质二级结构预测的人工神经网络方法研究[J].分析科学学

报.2006,22(4):438-440.

[6]王俊,丛丽娟,郑洪坤.常用生物数据分析软件[M].北京:科学出版社,2008.

[7]刘君强,彭智勇,杨先娣.生物信息集成研究综述[J].小型微型计算机系统,2007,28

(12):2299-2304。

[8]马相如,王红梅,顾延生,葛继稳.基于局域网的生物信息学应用与开发平台的建立[J].

计算机应用,2009,29:1001-9081.

[9]Field,D.,Tiwari,B.,Booth,T.,Houten,S.,Swan,D.,Bertrand,

Thurston, Software for biologists: from famine to feast[J].Nature Biotechnology,2006,

24:801-803.

[10]Zeng,X.C.,Wang, Li,fication of BmKAPi,a novel type of

scorpion venom peptide with peculiar disulfide bridge pattern from Buthus martensii

Karsch[J].Toxicon,2002,40(12):1719-1722.

[11]Benkert P Kuenzli M,Schwede Server for Protein Model Quality

Estimation[J].Nucleic Acids Res,2009,37:W510-W514.

作者简介:马相如(1977-),男,河南郑州人,讲师,从事生物统计学、生物信息学方

面的教学与研究。

作者单位:中国地质大学(武汉)环境学院,武汉 430074

基金项目:中央高校基本科研业务费专项资金资助项目(编号:CUGL130219)。


发布者:admin,转转请注明出处:http://www.yc00.com/web/1713198395a2202309.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信