生物信息学-李霞第二版--第一章

第一章 生物序列资源

第一节 引言

1. 英文及缩写

  1. DNA序列:DNA sequence
  2. RNA序列:RNA sequence
  3. 微阵列数据和基因表达:microarray data and gene expression
  4. 蛋白质序列:protein sequence
  5. 分子结构:structure
  6. 蛋白质组学和蛋白质互作:proteomics and interaction
  7. 代谢和信号通路:metabolic and signaling pathways
  8. 人类基因与疾病:human genes and diseases
  9. 生理与病理:physiology and pathology
  10. 药物与药物靶标:drug and drug targets
  11. 细胞器与细胞生物学:organelle and cell biology
  12. 人类及其他脊椎动物基因组:human and other vertebrate genomics
  13. 非脊椎动物基因组:non-vertebrate genomics
  14. 植物基因组:plants genomics

第二节 NCBI数据库与数据资源

1. 名词

  1. 三大生物序列信息数据库:GenBank,EMBL,DDBJ
  2. NCBI中较重要的数据子库:
    • GenBank:GenBank是NIH遗传序列数据库,集成了所有公开可获得的已注释DNA序列。 GenBank收录的核酸序列数据根据其不同的研究属性,分属于Nucleotide、GSS和EST三个子库。
      • Nucleotide:收录绝大多数常规的核酸序列;
      • GSS:Genome Survey Sequence,收录测序起始阶段用来进行序列或基因示踪、重复序列或基因数量预判等的各种短读长(reads)序列;
      • EST:Expression Sequence Tag,收录cDNA及cDNA特征序列信息。
    • RefSeq:GenBank中的数据是由用户提交数据构成,具有较高的冗余度和差错率,为更好实现特征序列的查询,NCBI在GenBank数据基础上针对每个基因不同的数据类别提取一个可靠的注释条目作为参考条件,组成RefSeq(reference sequence)数据库。 其数据标识类似于NM_000572.2,“NM_”代表特异的数据类型,“.2”表示更新版本。
    • Gene数据库:基因数据库收录全部已测序五中的基因注释信息,包括基因的名称、染色体定位、基因序列和编码产物(mRNA,蛋白质)情况、基因功能和相关文献信息等。
      基因数据库标识符即Entrez gene ID,依据基因的发现顺序由1到多位数字组成,如IL10基因的标识符为3586。
    • Genome:NCBI收录了超过1000中已经完成测序的生物体全部基因组序列和定位数据,以及正在进行测序的物种阶段性发布的基因组信息。
    • 遗传多态数据库:NCBI中的dbSNP、dbVar、dbGap和ClinVar四个子库涉及DNA多态或变异信息。
      • dbSNP:收录了所有物种中发现的短序列多态和突变信息,包括单核苷酸多态、微卫星、小片段插入\删除多态(in/del)等定位、侧翼序列和功能、频率信息。收录的SNP条目一般以“rs+数字”的形式表示;
      • dbVar:主要收录较大规模的基因组变异,包括大片段的插入、遗失、易位、倒置和拷贝数多态等信息资源;
      • dbGap:收录大量以遗传多态为分子标记物的基因型和表型(疾病)关联性研究数据;
      • ClinVar:收录临床中发现或报导的有证据支持的与人类疾病或健康状态有段的变异位点,并与多个疾病和卫生系统数据库进行交互引用。
    • GEO:Gene Expression Omnibus:接受和管理各研究机构提交的基因芯片或测序技术获得的不同生理、病理状态个体或细胞系基因(包括非编码基因)表达数据。
    • 蛋白质数据库:NCBI蛋白质数据库收录来源于GenPept、RefSeq、Swiss-Prot、PIR、PRF及PDB等蛋白质数据资源的蛋白质序列和注释数据。
      • Protein Cluster数据库:提供存在一定联系的蛋白质集合信息,并与蛋白质注释、结构、结构域、家族相关数据库之间交互访问;
      • Structure数据库:是由蛋白质三维结构数据库PDB衍生出来的大分子模建数据库,提供蛋白质三维结构信息及相关的可视化和结构比对工具。
    • Epigenomics:是一个表观基因组数据查询和浏览相结合的数据库。提供DNA甲基化、组蛋自修饰等表观遗传学数据集下载,基因序列、表观遗传状态的定位比较和可视化等。
    • Unigene数据库:针对每一个基因建立一个独立的数据体系,分别将不同来源的基因序列、蛋白质相似性(与模式生物比较)、基因表达(不同组织或发育状态)、染色体定位、cDNA序列、mRNA序列(选择性剪接)、EST序列等进行罗列和比较,旨在为研究者提供全面、丰富的信息资源,更好地对基因的功能和注释信息的可靠性进行梳理。
    • 与生物医学相关的重要数据库
      • OMIM数据库:在文献检索基础上,分别以疾病和基因为中心,阐述遗传变异介导的疾病(表型)相关基因情况,及变异介导的基因参与不同疾病(表型)情况;
      • GdbMHC:Database of Major Histocompatibility Complex,收录人类主要组织相容性复合体数据及其相关的分子标记物信息;
      • HIV-1与人类蛋白质互作数据库:收录HIV-1蛋自与人类宿主蛋自相互作用信息。NCBI中还包括大量病毒相关信息(如病毒基因组序列,流感. SARS等特种病毒解析,病毒基因组变异等)、药物化学信息和文献数据信息等。
    • NCBI提供的重要支持工具
      • BLSAT,是由NCBI开发的序列相似性搜索程序,检索速度快,有助于识别基因和基因特征(详见第二章)。
      • Primer-BLAST工具Primer-BLAST链接地址,可用于多方面生物医学研究过程的核酸引物设计。
      • 由NCBI提供的其他软件工具还包括:开放阅读框搜索(ORF Finder)、电子PCR和序列提交工具Sequin和BankIt等。

2. 英文及缩写

  1. 美国国家健康研究所:NIH
  2. 国家医学图书馆:NLM
  3. 人类拉丁种名:Homo Sapiens
  4. 包括单核苷酸多态:single nucleotide polymorphysmSNP
  5. 微卫星:microsatelite
  6. 拷贝数多态:copy number variationCNV
  7. 基因组范围关联分析:GWAS

第三、四节 UCSC基因组浏览器与数据资源、EMBL-EBI数据库与数据资源

1. 名词

  1. UCSC基因组浏览器UCSC基因组浏览器链接,重要的基因组数据收集、整理、检索、可视化和辅助研究的重要工具;
    • 导航栏和工具栏提供多种便利的基因组查询和注释工具
      • Browser可以缩放和滚动的方式查看染色体的注释;
      • Blat可以快速将用户输入的序列以图像的方式在基因组中显示;
      • Tables提供便捷的入口链接到基础数据库;
      • Gene Sorter展示表达、同源性和以多种方式关联的其他基因组信息;
      • VisiGene可以让用户浏览大量的检测小鼠和青蛙表达模式的原位图像;
      • Genome Graphs允许用户上传或显示基因组范围的数据集等。
  2. EMBL-EBI数据库
    • Ensembl基因组序列数据资源:EMBL-EBI中有Ensembl和Ensembl Genmoes基因组序列资源数据库;
      • Ensembl数据库:提供高质量、综合注释的脊椎动物基因组数据;
      • Ensembl Genmoes数据库:提供非脊椎动物全基因组数据;
    • ENA欧洲核苷酸数据库:提供世界范围的核酸测序原始数据、序列拼接和功能注释信息的维护和下载,并记录和存储数据集测序全过程的技术应用情况:样品分离和材料准备,使用的仪器设备和配置,实验过程的主要环节,数据输出后的序列读取和质量评价,数据的生物信息学拼接、制图、功能注释等。 ENA数据包括机构或个人提交的原始数据,序列拼接和小规模测序注释数据,欧洲各大测序中心提供的测序数据,国际核酸序列数据库协作组织的合作伙伴的定期交换数据等。
    • UniProt蛋白质数据资源
      • UniProt数据库包括:UniProtKnowledgebase(UniProrKB)、UniProt Reference Clusters(UniRef),UniProt Archive(UniParc)三个主要部分,及用于专门存放元基因组和环境基因组数据信息的UniProt Meta-genomic和Environmental Sequences(UniMES)数据库。 门户链接EBI链接
      • UniProrKB:UniProtKB是UniProt的核心资源,主要包括Swiss-Prot和TrEMBL两部分核心数据。
        • UniProt/Swiss-Prot:收录非冗余的、高质量的专家手工注释数据。注释过程针对每一个蛋白质可用的序列信息进行分析、比较、整合,严格审核与本条目相关的文献发表的实验和计算分析。 对于每一条记录,UniProt/Swiss-Prot期望从文献、其他数据库中搜集每一个物种每一个蛋白质的所有注释信息,以及与蛋白质相关的选择性剪接、多态、翻译后修饰、蛋自质家族等信息。
        • UniProtKB/TrEMBL:收录的蛋白质信息是经高质量计算分析获得的自动化注释和分类信息,也是Swiss-Prot的资源储备库,一经手工注释后即转入Swiss-Prot。
        • 概括起来看,UniProtKB收录的蛋白质序列信息包括:① DDBJ/ENA/GenBank来源的编码序列(CDS)翻译;② PDB中存储了结构信息的蛋自质序列;③ Ensembl和RefSeq提供的序列;④ 直接提交到UniProtKB或文献检索到的氨基酸序列。

2. 英文及缩写

  1. 加州大学圣克鲁兹分校:University of California,Santa CruzUCSC
  2. 欧洲生物信息学研究所:EBI地址;
  3. 欧洲分子生物学实验室:EMBL地址
  4. 瑞士生物信息学研究所:SIB
  5. DNA元件百科全书计划:Encyclopedia of DNA ElementsENCODE地址;
  6. 尼安德特人基因组分析:Neandertal地址;
  7. 哺乳动物:mammal
  8. 后口动物:deuterostome
  9. 昆虫:insect
  10. 线虫:nematode
  11. 欧洲核苷酸数据库:European Nucleotide ArchiveENA地址
  12. 国际核酸序列数据库协作组织:INSDC
  13. 蛋自质专家注释系统:Swiss-Prot
  14. 核酸序列翻译数据库:TrEMBL

第五节 重要的非编码基因数据库

1. 名词

  1. ENCODE数据库:ENCODE全称为DNA元件百科全书计划,与2003年启动,获得并分析了超过15兆兆(15万亿字节)的原始数据,对基因组功能元件进行解析。 与编码蛋白质相关的基因只占整个基因组的2%,人类基因组中约80%的DNA序列是具有某种特定功能的。
  2. miRBase:miRBase( 地址)是存储、维护和命名微小RNA(microRNA)的主要数据库,主要数据资源为microRNA序列和注释信息。miRBase使用友好的网络界面,为用户提供miRNA前体和成熟序列下载。允许用户使用关键词或序列检索数据库,通过关联链接到miRNA的原始参考文献,分析基因组中的定位和挖掘miRNA序列间的关系。miRBase还提供保密的基因命名服务,在新基因发表前指定正式的miRNA名称。

2. 英文及缩写

  1. 微小RNA:microRNA

习题

  1. 生物数据库根据其存储的数据类型可以分为几类?
    答:大致可分为5类:基因组数据库核酸序列数据库蛋白质序列数生物大分子(主要是蛋白质)三维空间结构数据库、及根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋自质序列、蛋自质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库
  2. DDBJ和另外哪两个数据库并称为世界三大核酸数据库,并通过网络查询DDBJ数据库的信息存储情况。
    答:EMBLGenBank
  3. Entrez Gene数据库从哪些方面对基因进行注释?
    答:注释内容包括基因概况、基因组结构、基因组定位、参考书目、表现型、基因变异、HIV-1互作、通路注释、互作、基因功能、同源性、编码蛋白质情况、序列信息,及交叉引用链接。
  4. dbSNP数据库维护的数据类型有哪些,这些数据有什么应用? 答:dbSNP:收录了所有物种中发现的短序列多态和突变信息,包括单核苷酸多态、微卫星、小片段插入\删除多态(in/del)等定位、侧翼序列和功能、频率信息。
  5. UCSC基因组浏览器显示的数据资源如何以可出版的图片形式输出?
    答:基因组浏览器图像输出:UCSC基因组浏览器支持生成适于文献出版和打印的高质量图像。打印前用户可以在序列碱基栏左端标签处点击鼠标右键选择配置管理(Configure ruler)按钮,打开设置页面,可在标题栏中添加通道输出图片标题,还可以选择增加组合名称和染色体位置方式将标题加入到通道中。鼠标左键拖拽各通道对应的灰色工具条还可以根据输出需要改变各通道的位置。用户完成通道图像配置后,点击导航栏中view按钮下拉菜单中的PDF/PS选项,选择所需的文件输出格式保存图像。
  6. 如何利用UCSC模块实现序列数据的批量下载?
    答:
  7. EMBL-EBI维护数据的规模化标准有哪些? 答:数据资源遵循严格的规模化管理:① 可访问性,所有数据和工具完全开放访问;② 兼容性,数据达到世界最高层次的标准化规范,有利于推动数据共享;③ 数据集综合性,与各研究、出版机构和各人数据库达到数据提交、共享协议,保障数据来源和交叉引用;④ 便携性,EBI所有数据库均可下载,全部软件系统可以下载并本地安装;⑤ 保证质量,EBI具有专家注释系统,大量数据资源通过生物医学专家注释保障数据质量。
  8. 如何利用Ensembl-BioMart平台实现核酸序列数据的查询和下载?
    答:
  9. 简述UniProt数据的基本构建,并简要介绍UniProtKB的检索流程和主要的分析工具。 答:UniProt数据库包括UniProtKnowledgebase(UniProrKB)、UniProt Reference Clusters(UniRef), UniProt Archive(UniParc)三个主要部分,及用于专门存放元基因组和环境基因组数据信息的UniProt Metagenomic和Environmental Sequences(UniMES)数据库。
  10. 试列举2到3个非编码基因序列维护数据库名称及其存储的数据特点。 答:
Avatar
Dr.二哈
在读苦逼科研狗

研究方向:脂质营养,业余时间自学R。

相关