2024年3月15日发(作者:)
名词解释(笔者承认偷了点懒,只是把能在网上找到的都整合在一张上面了,此整理
仅适合开卷考试)
基因表达(gene expression):基因通过转录和翻译,产生蛋白质产物和直接转录
RNA参与生物功能的过程。
基因调控:涉及基因的启动关闭、活性的增加或减弱,发生在转录阶段、转录后加工
阶段和翻译阶段。
负调控(
Negative control
):阻遏蛋白(repressor protein)结合在受控基因上
时不表达,不结合时就表达的形式。
正调控(
Positive control
):基因表达的活化物( activators )结合在受控基因
上时,激活基因表达,不结合时就不表达的形式。
一次数据库:记录实验的结果和一些初步的解释。
二次数据库:对一次数据库的数据进行分析和提炼加工后形成的、便于使用的数据库。
空位罚分 (gap penalty ):序列比对分析时为了反映核酸或氨基酸的插入或缺失等而
插入空位并进行罚分,以控制空位插入的合理性。
Consensus sequence:共有序列,指多种原核基因启动序列特定区域内,通常在转
录起始点上游-10及-35区域存在一些相似序列。
FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者
氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
Similarity相似性:是直接的连续的数量关系,是指序列比对过程中用来描述检测序
列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比列的高低。
genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学
序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);
第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸
序列本身,以“//”结尾。
模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20
个残基。
查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性
比较的序列。
打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包
括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最
佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
PDB:PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物
大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库
的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA
程序进行搜索。
Prosite:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助
识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位
点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;
PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具
有相应的特征。
PIR:是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基
因组蛋白质研究。
SWLSS—MODE:是目前最著名的蛋白质三级结构预测服务器,建立在已知生物大
分子结构基础上,利用同源建模的方法对未知序列的蛋白质三级结构进行预测。
E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列
(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,
E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意
义。
点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,
然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条
主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连
成直线。
多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的
比对,以观察它们在结构上的异同,来回答大量的生物学问题。
MEGA:是一款免费的构树软件,它提供了序列比对、格式转换、数据修订、距离计
算、系统树重建和可信度评估等全套功能,能对DNA、mRNA氨基酸序列及遗传距离进
行系统发生分析以及基因分化年代的分析。
BioEdit:BioEdit是一个序列编辑器与分析工具软件。功能包括:序列编辑、外挂分
析程序、RNA分析、寻找特征序列、支持超过20000个序列的多序列文件、基本序列处
理功能、质粒图绘制等等。
GSS:基因组勘测序列,是基因组DNA克隆的一次性部分测序得到的序列。包括随
机的基因组勘测序列、cosmid/BAC/YAC末端序列、通过Exon trapped获得基因组序列、
通过Alu PCR获得的序列、以及转座子标记序列等。
coiled coil:卷曲螺旋,是蛋白质中由2~7条α螺旋链相互缠绕形成类似麻花状结构
的总称。卷曲螺旋是控制蛋白质寡聚化的元件,在机体内执行着分子识别、代谢调控、细
胞分化、肌肉收缩、膜通道等生物学功能。
密码子偏好性(codon bias):氨基酸的同义密码子的使用频率与相应的同功tRNA
的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,
这种效应称为密码子偏好性。
基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,
调控区,预测基因组序列中包含的基因。 31.结构域(domain):保守的结构单元,包含
独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。相同功能的
同源结构域具有序列的相似性。
一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在
特定位置最常见的残基之外,它们不能表示任何概率信息。
超家族:进化上相关,功能可能不同的一类蛋白质。 33.模体(motif):短的保守的
多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。
GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。数据量很大,且随
核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,
也没有详细的注释。 41.折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大
区域,这些大区域具有特定的空间取向。
TrEMBL:是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编
码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库
中。 (Molecular Modeling Database):是(NCBI)所开发的生物信息数据库
集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与
PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分
子的生物学功能、产生功能的机制、分子的进化历史等 ,还提供生物大分子三维结构模型
显示、结构分析和结构比较工具。
SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋
白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,
对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可
以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依
次是类(class)、折叠子(fold)、超家族(super family)、家族(family)、单个PDB蛋
白结构记录。
表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜
索序列数据库。
比较基因组学:是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推
测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。 49.
简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每
个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是非简约性信
息位点。
DDBJ:日本DNA数据库,主要向研究者收集DNA序列信息并赋予其数据存取号,
信息来源主要是日本的研究机构,也接受其他国家呈递的序列。 4. BLAST:基本局部比对
搜索工具的缩写,是一种序列类似性检索工具。BLAST采用统计学几分系统,同时采用局
部比对算法, BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得
分是对一种对相似性的统计说明。
BLASTn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查
序列作一对一地核酸序列比对。
BLASTp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同
每条所查序列作一对一的序列比对。
Clustsl X:是CLUSTAL多重序列比对程序的Windows版本,是用来对核酸与蛋白
序列进行多序列比较的程序,也可以对来自不同物种的功能或结构相似的序列进行比对和
聚类,通过重建系统发生树判断亲缘关系,并对序列在生物进化过程中的保守性进行估计。
SRS:序列查询系统,是EBI提供的多数据库查询工具之一。有与Entrez类似的功能
外,还提供了一系列的序列分析工具,可以直接进行在线序列分析处理。
Ab initio prediction:蛋白质三级结构预测方法—从头预测法,在既没有已知结
构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,只能采用从头预测方
法,即(直接)仅仅根据序列本身来预测其结构。
分子进化树:精确地反映物种间或群体间在进化过程中发生的极微细的遗传变异,而
且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代。
gene tree:基因树,表示一组基因或一组DNA顺序进化关系的系统发生树。
MP:最大简约法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对
所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树。
heptad repeat:七肽重复区是典型的卷曲螺旋结构类型之一,由多个七肽单元连接
而成的重复序列。
structure domain:结构域,是在蛋白质三级结构中介于二级和三级结构之间的可
以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存
在或折叠,但结构域与结构域之间关系较为松散。
PubMed:是一个免费的生物医学文摘数据库,提供部分论文的摘要及指向全文的链
接。作为 Entrez 资讯检索系统的一部分。
PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵
(scoring matrix)探测远缘相关的蛋白。 :给出了对应于基因和蛋白质的索
引号码,对应于最稳定、最被人承认的Genbank序列。
计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理
科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论
模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。
油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧
烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。
双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供
内在的校对功能。代表测序方法:solid 测序。
焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光
反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲
美,而速度却大大的提高。焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何
特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。在单核苷酸多态性、病
原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。例如:454测
序仪
tblastn:用蛋白质序列查找核苷酸序列。
STS:STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定
的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp-
500bp。它可用PCR方法加以验证。将不同的STS依照它们在染色体上的位置依次排列
构建的图为STS图。在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或
构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体
上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。
EST:表达序列标签技术(EST,Expressed Sequence Tags) EST技术直接起源于人
类基因组计划。
Unigene:生物信息学数据库。UniGene试图通过计算机程序对GeneBank中的序
列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,
以便研究基因的转录图谱。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式
生物的基因。
ORF:开放阅读框(ORF,open reading frame )是基因序列的一部分,包含一段可以
编码蛋白的碱基序列,不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的
ORF。
分子钟检验:只有分子钟的,没听过分子钟检验。一种关于分子进化的假说,认为两
个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一
定的数量关系
算法:是对解决问题的方法的一种精确描述。
聚类分析:就是将数据分成若干簇
(cluster)
,簇内最大程度相似,簇间最大程度相异。
某一状态的出现概率仅取决于其前驱的k个状态,k阶马尔可夫模型
数据结构:被计算机加工的数据彼此间存在着某些逻辑上的联系,这些联系需要在对
数据进行存储和加工时反映出来。
程序:是对所要解决问题的各个对象和处理规则的描述,或者说是数据结构和算法的
描述。
序列的比对:是一种关于序列相似性的定性描述:在什么区域相似,在什么区域存在差
别。最优比对:揭示两条序列的最大相似程度。(又叫序列联配,其意义在于从核酸、氨基
酸的层次分析序列的相似性,推测其结构功能及进化上的联系,是基因识别、分子进化、
生命起源研究的基础。)
相似性 (similarity):是可以量化的参数,是一种直接的数量关系,是量的判断,可
多可少,如百分之几。
同源性 (homology) :是指从一些数据库中推断出序列在进化上曾具有共同的祖先
的结论,属于质的判断。
直系同源(orthology):(1)在进化上起源于一个始祖基因 并垂直传递(vertical
descent)的同源基因; (2)分布于两种或两种以上物种的基因组;(3)功能高度保守 乃至
于近乎相同,甚至于其在近缘物种可以相互替换; (4)结构相似; (5)组织特异性与亚细胞
分布相似。
旁系同源(paralogy)
同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向(horizontal)产生的
几个同源基因。
马尔可夫特性(无后效性):若已知现在的状态,将来与过去无关。即根据当前的状态
即可完全确定将来的状态。
马尔可夫链: 具有马尔可夫特性的离散状态随机过程。
顺式调控元件 :位于起始点上游(基因5‘端)控制转录的DNA序列, 靠近它所调控
的编码序列 ; 其结构是模块化的,即DNA序列能被分成各个单元。
反式调控元件:远离所调控的编码序列,通常位于不同的染色体上。
单基因回路:蛋白质与DNA启动子和增强子的相互作用。
启动子:识别DNA分子上的起始信号. 启动子能调控基因转录,分为: 转录因子,抑制
因子。
蛋白质活性位点(active site)/结合位点(binding site):指蛋白质在具有生理活性时,
与其他物质相结合并起重要作用的区域。
分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推
断出物种起源的时间。
系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究
推断不同物种或基因之间的进化关系。
除权配对算法(UPGMA):最初,每个序列归为一类,然后找到距离最近的两类将其
归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。 23.
邻接法(neighbor-joining method):是一种不仅仅计算两两比对距离,还对整个树的长
度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGMA算法要求进化速率保持
恒定的缺陷。
一致树(consensus tree):在同一算法中产生多个最优树,合并这些最优树得到的
树即一致树。
自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多次重复取样,构建多
个进化树,用来检查给定树的分枝可信度。
发布者:admin,转转请注明出处:http://www.yc00.com/web/1710467033a1761734.html
评论列表(0条)