标题:NCBI Human Genome人类基因组数据资源
浏览次数:184
NCBI Human Genome人类基因组数据资源
引言
• 人类基因组资源向导 — 可用的人类基因组数据资源概览。包括关于人类基因组的公告和进展报告和提供对以前分离的数据的集中访问。
• 人类基因组序列数据的状态 — 描述了目前在GenBank中的数据的范围,包括完成的和草图高通量基因组序列数据的讨论。
染色体
• 人类基因组测序 — 每一条染色体,概述了人类基因组计划的测序进展(图示和统计)。提供对基因组序列数据的访问,也有链接到参与的国际基因组中心,各种STS图谱,疾病基因 信息,和选择出的参考文献。列出完成的contig的大小和位置。Contig可以被显示出来,以表示组成他们的GenBank中的记录的成分,或者那些 由e-PCR确定的位于其上的STS标记。Contig用在GenBank中处于第三期的HTG序列记录来组装起来,组装的办法是用Jang, et al描述的过程,并给于一个NT_*的accession number,作为RefSeq计划的一部分。关于各期HTG序列的详细说明见HTG网页。
• Entrez图谱浏览器 — 整合的染色体图谱—图谱浏览器是Entrez基因组的一个软件组成部分,用来显示一个或多个用共同标记或基因名字互相align过的图谱,以及用相同序列 进行比较过的序列图谱。在人类基因组数据和搜索技巧文件中有关于20种序列,细胞遗传,遗传连锁,放射杂交,和其它的图谱。Entrez图谱浏览器的帮助 文件提供了关于如何使用这个工具的一般说明。
• FTP — 每个染色体都有一个文件目录包含各种格式的完成的基因组contig(NT_*记录):
• hs_chr*.asn ASN.1 格式 (description above)
• hs_chr*.fna.gz FASTA 格式(description above)
• hs_chr*.gbk.gz GenBank flat file 格式
• (目前注解包括STS标记,已知和预期的基因将被在将来几个月中加入)
• hs_chr*.gbs GenBank summary 格式
• (这个格式不含有序列数据,但是包含一个“CONTIG”字段,表明这个contig是如何有独立的GenBank记录组装起来的。)
BLAST人类基因组序列数据
• BLAST人类染色体 — 将一个核酸或蛋白序列同已经完成的HTG contig比较。Contig用在GenBank中处于第三期的HTG序列记录来组装起来,组装的办法是用Jang, et al描述的过程,并给于一个NT_*的accession number,作为RefSeq计划的一部分。关于各期HTG序列的详细说明见HTG网页。同人类染色体作BLAST是人类基因组测序页面的一个组成部分。
• BLAST htgs数据库 — 将一个核酸或蛋白序列同未完成的HTG序列(第0,1,2期)进行比较(关于各期HTG序列的详细说明见HTG网页)。尽管htgs数据库包含有来自许多物种的序列,你可以使用Advanced BLAST页面来限定你的搜索只在人类。
• BLAST gss数据库 — 将一个核酸或蛋白序列同随机的“单次(测序)阅读”的基因组调查序列比较,如同cosmid/BAC/YAC末端序列,exon trap获得的基因组序列,和Alu PCR序列。尽管gss数据库包含有来自许多物种的序列,你可以使用Advanced BLAST页面来限定你的搜索只在人类。
基因
• 位点链接(LocusLink) — 为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink给每个位点发布一个稳定的ID,并提供官方的命名,同名,序列 accesssion number,表型,EC号码,OMIM号码,Unigene簇,图谱信息,和相关的网址。LocusLink是NCBI,人类基因命名委员会,OMIM 和其它组织的合作结果。LocusLink目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。
• OMIM — 在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。
• RefSeq — NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNA contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。
• UniGene — 被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以 cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。
序列
• 人类基因组测序 — 每一条染色体,概述了人类基因组计划的测序进展(图示和统计)。提供对基因组序列数据的访问,也有链接到参与的国际基因组中心,各种STS图谱,疾病基因 信息,和选择出的参考文献。列出完成的contig的大小和位置。Contig可以被显示出来,以表示组成他们的GenBank中的记录的成分,或者那些 由e-PCR确定的位于其上的STS标记。Contig用在GenBank中处于第三期的HTG序列记录来组装起来,组装的办法是用Jang, et al描述的过程,并给于一个NT_*的accession number,作为RefSeq计划的一部分。关于各期HTG序列的详细说明见HTG网页。
• RefSeq — NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNA contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。
• Entrez — 对GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-Prot, and PDB数据库中的核酸和蛋白序列数据提供整合的访问,同时提供对3D蛋白结构,基因组图谱信息和PubMed MEDLINE的访问。Entrez包含了对每个数据库记录的预先计算好的相似搜索,产生一个相关序列,结构,和MEDLINE记录的表。包括了来自〉70000个物种的序列数据,可以用物种字段来限制记录只在人类搜索。
• UniGene — 被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以 cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。
• DbEST — 表达序列标签数据库—短的(300—500bp)的cDNA序列,代表mRNA的单次(测序)阅读。常常有大量的EST被测序,并代表了在一个给定的组织 或一个给定的发育阶段的基因表达的快照。同时包含了由CGAP计划产生的ESTs,和来自差异显示及RACE实验的序列。
克隆
• 克隆登记 — 由多方人类基因组测序中心使用的数据库,用来记录哪些克隆已经被选来测序,哪些正在被测序,哪些已经完成,哪些已经被送到GenBank中去了。包括BACs, PACs, cosmids, fosmids。使用统一的克隆名字表示克隆在微量板上的位置(板号,行,和列),位置前面加上库的缩写,来产生唯一的名字。包括了克隆定购的信息。
基因组图谱
• Entrez基因组 — 链接到人类基因组测序站点的人类染色体视图。Entrez基因组同时包括了一个人类线粒体的视图(通过真核细胞器来访问),可以查看完整情况或查看逐步详细的信息。
• Entrez图谱浏览器 — 整合的染色体图谱—图谱浏览器是Entrez基因组的一个软件组成部分,用来显示一个或多个用共同标记或基因名字互相align过的图谱,以及用相同序列 进行比较过的序列图谱。在人类基因组数据和搜索技巧文件中有关于20种序列,细胞遗传,遗传连锁,放射杂交,和其它的图谱。Entrez图谱浏览器的帮助 文件提供了关于如何使用这个工具的一般说明。
• GeneMap’99 — 〉35000个人类基因标记的物理图谱,由国际放射杂交图谱联合用一致的RH试剂和方法建成。提供了突出了染色体上关键标志(富含基因区)的框架,从而加速了测序,代表了超过100名科学家的国际合作努力。
• NCBI RH图谱 — NCBI整合的RH图谱,包括来自GeneMap’99的G3和GB4的RH单子上的23723个标记。这些标记相对于1084个框架标记(一个G3和GB4共同的子集)被绘制。所有的标记被统一在GB4的尺度上。R. Agarwala et al.的文章提供了详细的整合策略,以及评估整合图谱质量的方法。
• Mitelman癌症染色体变异摘要 — 由Drs. Mitelman, Mertens, 和 Johansson建立的基因组范围的人类癌症中染色体断裂位点图谱。参见Nature Genetics, Vol. 15(Spec. No.):417-74 (April 1997)的超文本版本。
• OMIM基因图 — 被报道的和被许多定位方法决定的基因的细胞遗传位点。可以用基因代号或细胞遗传染色体位点来搜索。可以从OMIM页面上访问。
• OMIM致病图 — 按字母排列的疾病和相应的细胞遗传图位点,链接到OMIM的条目。可以从OMIM页面访问。
• 人类/小鼠同源图 —University of California at Davis的M. F. Seldin建立,一张比较人和老鼠在同源区段DNA上基因的表,按在每个基因组上的位置排列。
绘制的标记
• dbSTS —序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,因而可以确定在物理图谱上的特定位置。
• 电子PCR(e-PCR) — 找到一个查询序列的假设位点图。用于在DNA序列上发现STS位点计算过程。
• GeneMap’99 — 〉35000个人类基因标记的物理图谱,由国际放射杂交图谱联合用一致的RH试剂和方法建成。提供了突出了染色体上关键标志(富含基因区)的框架,从而加速了测序,代表了超过100名科学家的国际合作努力。
• 人类基因组测序 — 绘制的标记已经用e-PCR自动被放到完成的HTG序列组成的contig上。标记来源于dbSTS, GeneMap'99(基于基因的标记),Stanford G3 RH单子(又有基因标记也有非基因标记),Whitehead GB4 RH单子和YAC图谱(又有基因标记也有非基因标记),Genethon遗传图谱,和一些染色体特异的图谱,如NHGRI的7号染色体图谱,Washington University的X染色体图谱。
• OMIM基因图 — 被报道的和被许多定位方法决定的基因的细胞遗传位点。可以用基因代号或细胞遗传染色体位点来搜索。可以从OMIM页面上访问。
基因表达
• CGAP cDNA表达谱 — 在UniGene簇和cDNA库中的ESTs分布。可以在CGAP页面上访问。
• SAGEmap — CGAP SAGE(Serial Analysis of Gene Expression)库的差异显示。也包含了对在人类GenBank记录中的SAGE标签的完整分析,在人类GenBank记录中一个UniGene的标志被分配给了每个含有一个SAGE标签的人类序列
遗传变异
• dbSNP — 单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。DbSNP包含种族特异的频率和基因型数据,实验条件,分子上下文,及中性多态和临床变异的定位信息。
• OMIM — 在线人类孟德尔遗传—约900个OMIM记录的等位变异。为了查看这些OMIM记录的列表,在等位变异字段上搜索“0001”。或者,把一个疾病的名字同“0001”放到一起。如:Gaucher & 0001。
• 位点特异突变数据库 — 从OMIM主页和相关的LocusLink条目链接到许多外部数据库。
失调
• 基因和疾病 — 介绍遗传因素和人类疾病的关系。有约60种遗传疾病的概要信息,以及链接到相关数据库和组织。
• Mitelman癌症染色体变异摘要 — 由Drs. Mitelman, Mertens, 和 Johansson建立的基因组范围的人类癌症中染色体断裂位点图谱。参见Nature Genetics, Vol. 15(Spec. No.):417-74 (April 1997)的超文本版本。
• OMIM — 在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。
• OMIM Morbid Map - alphabetical listing of diseases and corresponding cytogenetic map locations, with links to OMIM entries. Accessible from OMIM page (see Genes).
• OMIM致病图 — 按字母排列的疾病和相应的细胞遗传图位点,链接到OMIM的条目。可以从OMIM页面访问。
癌症研究
• CCAP — 癌症染色体变异计划—计划用来加速同恶性转移相关的显著染色体变异的定义和详细的特征描述。
• CGAP — 癌症基因组剖析计划 — 交叉学科项目,目的是基于cDNA库,鉴定在不同癌症阶段的人类基因表达,和决定正常,癌前和恶性细胞的分子表达谱。是NCI,NCBI和其它许多实验室的合作。
• Mitelman癌症染色体变异摘要 — 由Drs. Mitelman, Mertens, 和 Johansson建立的基因组范围的人类癌症中染色体断裂位点图谱。参见Nature Genetics, Vol. 15(Spec. No.):417-74 (April 1997)的超文本版本。
• SAGE分析 — 在癌症库中的SAGE标签的差异表达。