生物信息学-李霞第二版-第二章

第二章 序列比对

第一节 引言

1. 名词

  1. 序列比对:序列比对对于发现生物序列中有关功能、结构和进化的信息具有非常重要的意义,其主要思想就是运用特定的算法找出两个或多个序列之间产生最大相似性得分的空格插入和序列排列方案。
    • 在实际操作中,序列比对是计算生物学中解决序列装配、进化树重构及分析基因功能等众多问题的第一步。
    • 根据同时比对的序列数量的不同,一般将序列比对分成双序列比对和多序列比对。
    • 与双序列比对相比,多序列比对能有效发掘多个序列中的相似性信息。
      • 当两个序列不能很好地比对并借此揭示序列的变化所蕴含的意义时,通过引入更多的序列,多序列比对可有效地使这两个原本难以直接比对的序列合理地关联起来。
      • 其次,多序列比对常常用于分析种系距离很大的多个序列,揭示这些序列中保守的和非保守的区段、保守区段的分布特征以及序列变化的进化趋势,这对于研究生物系统的进化是必不可少的。
      • 再者,许多预测RNA和蛋白质结构与功能的算法立足于相应的多序列比对,通过比较未知分子的序列和已知分子的序列来预测前者的结构与功能。 因此,多序列比对是基因组分析和蛋白质组分析的最常用手段之一。
  2. 同源、相似与距离
    • 同源:如果两个序列享有一个共同的进化上的祖先,则这两个序列是同源的。
    • 同源是个定性的概念,没有“度”的差异。
    • 与同源相关但不同的两个概念是相似和距离,它们都是定量的概念,基于对序列中字符的精确比较,既可以说两个序列高度相似,也可以说它们之间的跟离非常小。
    • 相似性与距离是两个定量描述多个序列相似程度的度量。
    • 使用相似性时,比对计分给出被比对序列间的相似程度,使用距离时,比对计分给出被比对序列间的差异程度。
    • 相似性既可用于全局比对也可用于局部比对,而距离一般仅用于全局比对,因为它反映了把一个序列转换成另一个序列所需的字符替换的耗费。
    • 同源可进一步分作垂直同源和水平同源。
      • 垂直同源是指在种系形成过程中起源于一个共同祖先的不同种系中的DNA或蛋白质序列,其关系可用一棵倒置的树说明。
      • 水平同源主要是由序列复制事件产生的,例如人alpha-1球蛋白和alpha-2球蛋自是水平同源的,人alpha-1球蛋白和beta球蛋白也是水平同源的。
      • 一般假定,同源序列具有相同的功能。例如,与血红蛋白同源的人和鼠的肌球蛋白都能在肌肉中运输氧,但应注意,垂直同源和水平同源基因未必总有相同的功能。
  3. 相似与距离的定量描述
    • 相似性可定量地定义为两个序列的函数,即它可有多个值,值的大小取决于两个序列对应位置上相同字符的个数,值越大则表示两个序列越相似。

    • 编辑距离也可定量地定义为两个序列的函数,其值取决于两个序列对应位置上差异字符的个数,值越小则表示两个序列越相似。

    • 可以看出,相似性和编辑距离是一对相反的定量描述序列相似性的度量。这样,相似性有两种定量表达的方式:编辑距离和相似性得分。

    • 使用相似性描述两个序列相似程度,是以某种计分规则计算两个序列相似性所得的分值。

    • 计分一般是字符位置无关的(字符列无关的),即计算对应字符两两比较的分数,然后将所有字符的分数累加得到两条序列的相似性得分。

    • 显然,存在许多不同的计分规则可对两两字符比较进行计分。明显地,除了在两个字符上不同的计分规则可以产生差异,序列间排列的不同也影响相似性得分。例如,如果seqlseq2交错一位再比对,则计分结果将显著受到影响。

      seq1= ATC AGGCT GCTAGCTA
      seq2= TAC ACCTT CGTGAGCA
      打分规则1 p(a,a)=1
      p(a,b)=0,(a≠b) 相似性得分= 1 2 3
      打分规则2 p(a,a)=0.8
      p(a,b)=0.2,(a≠b) 相似性得分= 1.2 2.2 2.8
      打分规则BLAST -3 -2 -6
      A T C G
      A 5 -4 -4 -4
      T -4 5 -4 -4
      C -4 -4 5 -4
      G -4 -4 -4 5
  • 编辑距离一般用海明(Hamming)距离表示,对于两条长度相等的序列,它们的海明距离等于对应位置不同字符的个数。

    | seq1=                        | ATC  | AGGCT | GCTAGCTA |
    | ---------------------------- | ---- | ----- | -------- |
    | seq2=                        | TAC  | ACCTT | CGTGAGCA |
    | Hamming Distance(seq1,seq2)= | 2    | 3     | 6        |
    
  1. 算法实现的比对
    • 比对两个序列就是找出两个序列的最长公共子序列,它反映了两个序列的最高相似度。
    • 序列v的子序列是v中一个有序但末必连续的字符序列。
    • 例如,若v=ATTGCTA,则AGCA和ATTA都是v的子序列,而TGTT和TCG则不是。再如,若v=ATCTGAT, w=TGCATA,则v和w存在多个共同子序列,包括TCTA;显然,其中一些共同子序列要比另外一些共同子序列长。但问题是,如何找出最长的共同子序列常常并不是显而易见的。
    • 寻找两个序列的最长共同子序列的一个简单方法是,先计算出所有可能的共同子序列,然后找出最长的那个。但此方法不具有实际的可行性,因为当序列较长时计算所有可能的共同子序列极其费时。
  2. 序列比对的作用: 相比于双序列比对,多序列比对具有更广泛的重要应用,包括以下几个方面。
    • 获得共性序列:由多序列比对所得到的与所有序列距离最近的序列称为这此序列的共有序列(也称一致序列),共性序列常用于数据库搜索和芯片探针设计,用于识别只有高相似度的序列。
    • 序列测序:如一个DNA或蛋白质序列被多个机构测序,则测序结果在某些核苷酸或氨基酸上可能存在差异,对这些测序结果进行全局多序列比对,可发现这些差异之处,形成的共性序列理论上最为接近真实的序列。其次,对包含重叠区的多个测序序列进行局部多序列比对可发现这些重叠区,实现测序序列的拼接。
    • 突变分析:同一种系不同个体的基因组存在因突变而产生的差异,最常见的是单核苷酸多态性,指不同个体基因组中单个核苷酸的包括置换、缺失和插入在内的变异,这些差异可通过多序列比对进行揭示。
    • 种系分析:相近种系动植物的基因和基因组由于源自共同的直接祖先而具有高度的相似性,反之,远距种系动植物的基因和基因组由于源自不同的直接祖先而享有更少的相似性,这一事实使得多序列比对常常用于根据基因或基因组序列的差异判断种系关系,多序列比对通常是构造种系树的第一步。
    • 保守区段分析:基因组中功能不同的区段在进化中面对不同的选择压力,即重要的区段不易接受突变而非重要的区段易于接受突变。任何基因组都包含大量不同的在选择压力下保持进化上稳定的保守区段,多序列比对是找出进化上保守的这此区段的基本方法。
    • 基因和蛋白质功能分析:在大量基因和蛋白质的功能得以揭示和更多基因和蛋白质的序列得以测定后,根据与功能已知的同源基因和蛋白质进行多序列比对来推断新基因和蛋白质的功能已成为越来越普遍的一个研究手段。

2. 英文及缩写

  1. 双序列比对:pairwaise alignment
  2. 多序列比对:multiple alignment
  3. 同源:homolog
  4. 相似:similarity
  5. 距离:distance
  6. 趋同进化:convergent evolution
  7. 垂直同源:ortholog
  8. 水平同源:paralog
  9. 编辑距离:edit distance
  10. 最长公共子序列:longest common subsequenceLCS
  11. 共有序列:consensus sequence

第二节 比对算法概要

1.名词

  1. 替换计分矩阵:对于序列中单个字符的插入和缺失引起的失配,序列比对采用插入空格来处理,使得原本对应的字符仍}日能够对应;而对于序列中单个字符的替换引起的失配,需要考虑不同替换的意义。在双序列比对中对于这类失配应该怎么计分(实际上是罚分)是本节的内容。合理而精确的计分需要考虑替换的各种情形。对于DNARNA序列,情况特别简单,施用于4种碱基和6种彼此间替换关系的计分规则可用简单的替换计分矩阵来描述。对于蛋白质序列,因为蛋白质由20种氨基酸构成,且不同的氨基酸具有不同的理化性质,情况较为复杂,存在许多不同的替换计分矩阵。
    • 通过点矩阵对序列比较进行计分: “矩阵作图法”或“对角线作图”由Gibb首先提出。将两条待比较的序列分别放在矩阵的X/Y轴上,从下往上和从左到右比较,当对应行与列的字符匹配时,则在矩阵对应的位置上打点。逐个比较所有的字符对,最终形成一个点矩阵。如果两条序列完全相同,则点矩阵的主对角线各位置都被标记;如果两条序列存在相同的子串,则对每一个子串对有一条与对角线平行的由一系列点组组成的斜线;而对于两条互为反向的序列,则在反对角线方向上有由点组成的斜线。这种反映序列比对的方法在直观地揭示多个相配的子串对时尤其有用,一直被使用到现在。
    • DNA序列比对的替换计分矩阵: 借鉴上面点矩阵的方法,可以为不同字符间的替换建立替换计分矩阵,它们或依据相应碱基或氨基酸的理化性质而确定,或依据突变实际发生的概率而确定,因此相当客观和固定。
      • 等价矩阵:是最简单的一种替换计分矩阵,其中,相同核苷酸间的匹配得分为1,不同核苷酸间的替换得分为0。尽管含义清晰明了,由于不含有碱基的任何理化信息和不区别对待不同的替换,在实际的序列比对中较少使用。
      • 转换-颠换矩阵:核酸的碱基按照环结构特征被划分为嘌呤(腺嘌呤A,鸟嘌呤G,它们有两个环)和嘧啶(胞嘧啶C,胸腺嘧啶T,它们只有一个环)。如果DNA碱基的替换保持环数不变,则称为转换,如A→G,C→T;如果环数发生变化,则称为颠换,如A→C,A→T等。在进化过程中,转换发生的频率远比颠换高,其中转换的得分为-1. 而颠换的得分为-5
      • BLAST矩阵:经过实际比对发现,如令被比对的两个核苷酸相同时得分为+5,反之得分为-4,则比对效果较好。这个矩阵广泛地被DNA序列比对所采用,称为BLAST矩阵。
    • 蛋白质序列比对的替换计分矩阵: 蛋白质序列可由20个氨基酸组成,它们具有不同的生物化学特性,这此特性会影响它们在进化过程中的相互替换性。例如,与体积差异大的氨基酸相比,体积相似的氨基酸更易于彼此并换。另外,与水的亲和性也影响相互替换的概率。再者,生物学家己观察到天冬酰胺(Asn),天冬氨酸(Asp)、谷氨酸(Glu)和丝氨酸(Ser)属于最容易突变的氨基酸,而半胱氨酸(Cys)和色氨酸(Trp)则属于最不易突变的氨基酸。因此,在比较蛋白质序列时,简单的计分系统(例如+1表示匹配,0表示失配,-1表示空格)是不够的,必须使用一个能够充分反映氨基酸的相互替换性的计分系统。下面介绍多个不同的氨基酸替换计分矩阵。
      • 等价矩阵;
      • 遗传密码矩阵;
      • 疏水性矩阵;
      • PAM矩阵;
      • BLOSUM矩阵;
  2. 双序列全局比对:对于两条序列的比对问题,人们提出了很多算法。其中基于动态规划的算法是目前最基本的算法。
  3. 双序列局部比对:
  4. 多序列全局比对:主要涉及四个要素:① 选择一组能进行比对的序列(要求是同源序列);② 选择一个实现比对与计分的算法与软件;③ 确定软件的参数;④ 合理地解释比对的结果。
  5. 多序列局部比对:
  6. 比对的显著统计性:

2. 英文及缩写

  1. 计分矩阵:substitution matrix
  2. 等价矩阵:unitary matrix
  3. 转换-颠换矩阵:transition-transversion matrix
  4. 转换:transition
  5. 颠换:transversion
  6. 遗传密码矩阵:genetic code matrix,GCM
  7. 疏水性矩阵:hydrophobic matrix
  8. PAM矩阵:可接受点突变point accepted mutation,或可接受突变百分比percent of accepted mutation
  9. BLOSUM矩阵:BLOck SUbstitution Matrix
  10. 动态规划:dynamic programming
  11. 渐进多序列比对:progressive multiple alignment
  12. 指导树:guide tree
  13. 离异度:divergence
  14. 空缺:gap
  15. 引入空缺:gap open
  16. 扩展空缺:gap extend
  17. 分层聚类法:hierarchical clustering

第三节 数据库检索

1. 名词

  1. 经典BLAST:是目前最常用的数据库搜索程序。 它的要点是片段对的概念,它是指两个给定序列中的一对子序列,它们的长度相等,且可以形成无空格的完全匹配。 BLAST首先找出查询序列和目标序列间所有匹配程度(以得分计)超过一定阈值的片段对,然后对片段对根据给定的相似性阈值进行延伸,得到一定长度的相似性片段,最后给出高分值片段对。 BLAST在线服务实际上包含一组程序,不仅可用于直接对蛋白质序列数据库和核酸序列数据库进行搜索,而且可以将查询序列翻译成蛋自质后再进行搜索,以提高搜索结果的灵敏度。
    • BLAS下的应用:BLAST具有非常厂泛的应用: (1)确定一个蛋白质或核酸序列有哪些垂直同源或水平同源序列。 (2)确定哪些蛋白质或基因在特定的物种中出现。 (3)发现新基因。 (4)确定一个基因或蛋自质的变种。 (5)寻找对于一个蛋白质的功能或结构起关键作用的片段。
    • 搜索步骤: (1)选择感兴趣的序列,可以是FASTA格式的序列,也可以是访问编号。 (2)选择BLAST程序,包括blastp,blastn,blastx,tblastn,tblastx。 (3)选择数据库。 (4)选择参数。
    • 常用的输入与输出参数: (1) -p ProgramName:p代表program,可带的选项是blastp,blastn,blastx,tblastn和tblastx。
      (2) -i QueryFile:用于指定包含查询序列的查询文件。
      (3) -d DatabaseName:选择待搜索的数据库,可以选择多个数据库。
      (4) -o OutputFileName:数据库搜索输出文件的名称,默认的计算机屏幕。
      (5) -e ExpectedValue:E期望值,这一参数控制搜索的敏感性。
      (6) -m SpecifiesAlignmentView:设定搜索结果的显示格式,选项有12个,其中0是默认参数,显示查询序列和目标序列两两比对的信息。
      (7) -F FiIterQuerySequence:屏蔽简单重复和低复杂度序列的参数,有T(选上)和F(不选)两个选项。
      (8) -E CostToExtendGap:给出空位延伸罚分。
      BLAST程序的参数有搜索参数,包括字长(word size)、期望值E、空格罚分、替换计分矩阵、阈值、窗口尺寸(window size)等,以及统计学显著性参数,包括λ和K。
  2. 衍生BLAST
    • PSI-BLAST:即Position-Specific Iterated BLAST是一个专门化的搜索工具。
    • PHI-BLAST:即Pattern-Hit Initiated BLAST。能用来帮助判断这个蛋白质属于哪个家族。
    • BLASTZ:是在比对人和鼠的基因组中发展起来的,它适合于比对非常长的序列。
  3. BLAT:
  4. RNA序列搜索:
  5. 数据库搜索的统计显著性:

2. 英文及缩写

  1. BLAST:Basic Local Alignment Search Tool
  2. 片段对:segment pair
  3. 高分值片段对:high-scoring pairs
  4. 位点特异性计分矩阵:position-specific scoring matrix, PSSM
  5. BLAT:The BLAST-Like Alignment Tool
Avatar
Dr.二哈
在读苦逼科研狗

研究方向:脂质营养,业余时间自学R。

相关