《生物信息学》练习题剖析

《生物信息学》练习题剖析


2024年5月11日发(作者:三星s6edge拆机)

1、 在Genbank中查找以下6个植物蛋白序列:protein1:NP_974673.2;

protein2: NP_187969.1; protein3: NP_190855.1; protein4: NP_565618.1;

protein5: NP_200511.1; protein6: NP_191407.1 (以FASTA格式)。

(1) 用EBI上的ClustalW2工具对其进行多序列比对,分析各蛋白序

列之间的同源性。

序列比对结果

比对结果表明:protein1:NP_974673.2和protein4: NP_565618.1的亲缘关系

最近。

(2) 利用Phylip软件,选择距离法构建其进化树(要求写出具体的建

树步骤)。

1.将蛋白序列保存为FASTA格式,存于txt文档;

2.用Clustalx打开txt文本,保存为*.phy文件;

3.用seqboot程序打开phy文件,输出结果文件*_seqboot

4.用protdist程序打开*_seqboot文件,输出为*_protdist文件

5. 用neighbor程序打开*_protdist文件,输出为*_neighbor文件

6. 用consense程序打开*_neighbor文件,输出为*_consense文件

7.用dratree程序打开*_consense文件得到进化树。

(注:由于seqboot软见无法正常运行,因此进化树无法显示)

(3)

任意选取其中的一个蛋白进行蛋白质一级序列分析、二级结构

预测及三维结构的模拟。

选择

protein3: NP_190855.1

级结构

网址:/tools/

Number of amino acids: 456 氨基酸数目

Molecular weight: 51154.5 相对分子质量

Theoretical pI: 8.69 理论 pI 值

Amino acid composition 氨基酸组成

Ala (A) 30 6.6%

Arg (R) 28 6.1%

Asn (N) 15 3.3%

Asp (D) 27 5.9%

Cys (C) 5 1.1%

Gln (Q) 18 3.9%

Glu (E) 28 6.1%

Gly (G) 37 8.1%

His (H) 16 3.5%

Ile (I) 16 3.5%

Leu (L) 42 9.2%

Lys (K) 32 7.0%

Met (M) 5 1.1%

Phe (F) 17 3.7%

Pro (P) 16 3.5%

Ser (S) 46 10.1%

Thr (T) 21 4.6%

Trp (W) 8 1.8%

Tyr (Y) 19 4.2%

Val (V) 30 6.6%

Pyl (O) 0 0.0%

Sec (U) 0 0.0%

(B) 0 0.0%

(Z) 0 0.0%

(X) 0 0.0%

正/负电荷残基数

Total number of negatively charged residues (Asp + Glu): 55

Total number of positively charged residues (Arg + Lys): 60

Atomic composition: 原子组成

Carbon C 2270

Hydrogen H 3531

Nitrogen N 645

Oxygen O 686

Sulfur S 10

Formula: C

2270

H

3531

N

645

O

686

S

10

分子式

Total number of atoms: 7142 总原子数

Extinction coefficients: 消光系数

Extinction coefficients are in units of M

-1

cm

-1

, at 280 nm measured in water.

Ext. coefficient 72560

Abs 0.1% (=1 g/l) 1.418, assuming all pairs of Cys residues form cystines

Ext. coefficient 72310

Abs 0.1% (=1 g/l) 1.414, assuming all Cys residues are reduced

Estimated half-life: 半衰期

The N-terminal of the sequence considered is M (Met).

The estimated half-life is: 30 hours (mammalian reticulocytes, in vitro).

>20 hours (yeast, in vivo).

>10 hours (Escherichia coli, in vivo).

Instability index: 不稳定系数

The instability index (II) is computed to be 48.99

This classifies the protein as unstable.

Aliphatic index: 75.26 脂肪系数

Grand average of hydropathicity (GRAVY): -0.554 总平均亲水性

/tools/

蛋白质亲疏水性分析

所用氨基酸标度信息

Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys: 2.500 Gln: -3.500

Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu: 3.800 Lys: -3.900

Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900

Tyr: -1.300 Val: 4.200 : -3.500 : -3.500 : -0.490

分析所用参数信息

Weights for window positions 1,..,9, using linear weight variation model:

1 2 3 4 5 6 7 8 9

1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

edge center edge

跨膜结构预测结果(没有跨膜结构)

信号肽分析:

二级结构预测

三级结构预测

网站/~phyre

2、 在拟南芥基因组数据库中(/)查找编号

分别为At4G33050, At3G13600,At3G52870或At2G26190基因,针对所

查找的基因进行初步的生物信息学分析(每人任选其中一个基因)。

(1) 在基因全长序列中标识出5′UTR,exon,intron以及3′UTR等基因

特征(具体到碱基数)。

登录网站/ ,输入登录号At3G52870,

然后点击Search,结果:

(2) 分别利用PLACE和PlantCARE工具对该基因的启动子(假设启动

子是ATG上游2000bp)进行分析,试比较分析的结果。

PLACE分析

Place结果有以下3种呈现方式:

① grouped by signal

该结果没有显示启动子区的碱基序列,

结果则是按照名字的首字母排序。

mapped to sequence scan

③by sequence order

同grouped by signal 显示的结果相似,不过Factor or Site Name的序号由大到小排列。

Plantcare分析

网址/webtools/plantcare/html/

点击“Search for CARE”,进入,输入fasta格式的基因序列

PlantCARE不仅列出了“+”链和“-”链,且有颜色标示启动子区的各个顺式作用元

件和反式作用因子。如下:

PlantCARE较PLACE更简洁方便,容易查找。且有function一项,说明这些元件在其

结构中的作用。如下:

(3) 预测该基因的功能,并在PubMed中查找一篇相关文献。

Gene Finding

(/)的Gene Finding工具 在Softberry主页选择

“Gene Finding in Eukaryota”类中的“FGENESH”


发布者:admin,转转请注明出处:http://www.yc00.com/num/1715357894a2605929.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信