标题:NCBI SITEMAP站点地图常用工具介绍
浏览次数:183
NCBI SITEMAP站点地图常用工具介绍
数据检索 — 文本搜索
• Entrez — 对GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-Prot, and PDB数据库中的核酸和蛋白,包括了来自〉70000个物种的序列序列数据提供整合的访问,同时提供对3D蛋白结构,基因组图谱信息和PubMed MEDLINE的访问。Entrez包含了对每个数据库记录的预先计算好的相似搜索,产生一个相关序列,结构,和MEDLINE记录的表。Entrez可 以用很广泛的文本方式来搜索,比如作者名字,杂志名字,基因或蛋白名字,物种,唯一的标号(如:accession number,序列ID,PubMed ID,MEDLINE UID),和其他的术语,根据被搜索的数据库来确定。使用新的Linkout服务,外部资源可以被链接到Entrez纪录。
• 批量Entrez — 允许你用一批的方式来用Entrez检索大量的核酸或蛋白序列,并把他们保存在你计算机的磁盘上。有三种方法来提交一个查询:1)输入一个含有GI或accession number列表的文件,2)指定一个物种名字或更高的分类来检索那个类的所有序列。3)输入一个Entrez搜索查询。搜索结果将被直接保存到你的计算机上。
• 查询E-Mail服务器 — 用Entrez PubMed查询引擎来检索核酸序列,蛋白序列,三维结构,和PubMed MEDLINE纪录。如果要获得帮助文件,给query@ncbi.nlm.nih.gov写一封只有内容为HELP的E-Mail。
• 网络Entrez — 一个WWW Entrez基于TCP/IP的客户-服务器版本。直接通过Internet来连接NCBI的数据库来检索数据。数据以二进制的方式来传输,减少网络传输的带宽要求。有PC,Mac,Unix,版本的客户软件。
• dbEST, dbGSS, dbSTS搜索叶面 —EST, GSS, 和STS序列可以从两种方法获得:GenBank(通过Entrez)的EST/GSS/STS部分,和分开的但相关的数据库dbEST/dbGSS/dbSTS。两种来源的序列和accession number是一致的,但是纪录的格式不一样,dbEST/dbGSS/dbSTS纪录包括了一些基于BLAST搜索结果增加的注解,包括上至15最佳匹配的核酸和蛋白。dbEST, dbSTS, dbGSS搜索叶面还允许用克隆号码来搜索。
• 引用匹配 — 允许你找到任何一篇在PubMed数据库中的文章的PubMed ID或MEDLINE UID,给出书目信息(杂志,卷,页码等)。
• 单篇文章的引用匹配。
• 许多文章的批量引用匹配。
• E-mail引用匹配也是可以的,也可以用于单篇或许多文章。如果要获得帮助文件,给citation_matcher@ncbi.nlm.nih.gov写一封只有内容为HELP的E-Mail。
序列相似搜索
• BLAST主页 — 访问BLAST程序,概要,帮助文件,和FAQs。
• Gapped BLAST (2.0) — 一种BLAST版本,允许在它产生的对齐(alignments)中存在缺口。统计有效性的评估是基于使用随机序列的优先模拟。在不久的将来,所有对Gapped BLAST的访问都要通过QBLAST。
• QBLAST — 一种新的系统,允许用户以他们方便的方式检索Gapped BLAST结果,并且可以用各种格式选项多次格式化他们的结果。这个系统也使NCBI更有效的使用计算资源,更好的为大家服务。到1999年秋季,QBLAST系统用于所有的BLAST搜索。
• PSI-BLAST — 位点特异迭代BLAST — 用蛋白查询来搜索蛋白数据库的一个程序。所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起 来。这个矩阵被用来搜索数据库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。
• PHI-BLAST — 模式发现迭代BLAST — 用蛋白查询来搜索蛋白数据库的一个程序。仅仅找出那些查询序列中含有的特殊模式的对齐。
• BLAST两个序列 — 一个基于BLAST的工具,对齐两个核酸或蛋白的序列,产生一个成对的DNA-DNA或蛋白—蛋白序列比较。
• IgBLAST —IgBLAST被开发出来以便于分析在GenBank中的免疫球蛋白的序列。它允许用blastp或blastn来搜索nr数据库或一个由免疫球蛋白生 殖系变化区基因的特殊的数据库。搜索可以限制在人类或小鼠的基因。IgBLAST执行三个主要的功能:1)报告与查询序列最相似的可变,D,或J区,2) 根据Kabat et al.来注解免疫球蛋白domains(从FWR1到FWR3),3)对于搜索核酸或蛋白nr数据库,通过匹配IgBLAST的发现和最接近的生殖系变化 区基因来简化识别相关序列的过程。
• PowerBLAST —PowerBLAST是一个程序,允许对非常长的序列进行快速的gapped BLAST搜索,它把序列分割开,对每个部分搜索,然后把结果组装起来。包含在Sequin中的PowerBlast版本使用了新的强大的gapped BLAST算法,过滤和物种特异的输出特点还仍旧保留。
• BLAST E-mail服务器 — 基于e-mail的序列相似搜索服务,接受FASTA格式的核酸或蛋白序列。如果要获得帮助文件,给blast@ncbi.nlm.nih.gov写一封只有内容为HELP的E-Mail。
• 网络BLAST — 一个WWW Entrez基于TCP/IP的客户-服务器版本。直接通过Internet来连接NCBI的数据库来检索数据。有PC,Mac,Unix,版本的客户软件。
• 单独的BLAST — 下载可用于本地执行使用的BLAST。二进制版本有IRIX 6.2, Solaris 2.6, DEC OSF1 (ver. 4.0d), LINUX, 和 Win32系统。BLAST数据库同样可以下载。
专门的BLAST页面
• BLAST人类染色体 — 人类染色体测序页面的一部分。
• BLAST against Drosophila melanogaster genome sequence - see additional information on the Drosophila genome above.
• BLAST against dbSNP - additional information about dbSNP is above.
• Microbial Genomes BLAST Databases - BLAST against finished and unfinished microbial genomes.
• BLAST against P. falciparum only, all Plasmodium, or all Toxoplasma in GenBank
• BLAST against P. falciparum 3D7 Genome Project finished and unfinished sequences
序列分析
• BLAST — 见上
• VecScreen — 一个工具,在序列分析和提交之前用来确定一个核酸序列是否有载体,接头或连结序列。VecScreen被开发来对付公开数据库中的载体污染问题。在开始进 行任何一种序列分析前把序列用VecScreen检查一下都是有用的,因为在序列中存在载体序列可能会导致错误的BLAST结果。
• ORF Finder — 一个图形分析工具,用于在用户提供的序列或数据库中的序列中寻找被选择的最小长度的开放阅读框。用标准的或替代的遗传密码来确定所有开放阅读框。推断出的氨基酸序列可以用各种格式来保存,还可以用WWW BLAST到序列数据库中进行搜索。ORF Finder同Sequin序列提交软件捆绑在一起。单独的程序可以从NCBI的ftp站点下载。
• Sequin — 一个提交工具,包括了ORF Finder,一个对齐浏览器/编辑器,和一个链接到PowerBLAST。更详细的见上Sequin。
• e-PCR ¬ 电子PCR — 将一个查询序列同已经定位的STSs比较,来发现查询序列的可能的图谱定位。E-PCR通过查找在的DNA序列中与定位标记的PCR引物非常吻合的子序列 来找到STSs。这个子序列一定要有正确的顺序,方向,和间隔,以至他们可以合理的启动一个扩增出正确分子量的PCR产物。最新版本的e-PCR搜索除了 NCBI dbSTS数据库以外的其他资源:1)人类:GDB,Genethon遗传图谱,GeneMap'99,Stanford G3图谱v2,Whitehead GB4图谱,Whitehead YAC图谱,NHGRI chr 7图谱,WUSTL chr X图谱,NCBI RH图谱,和2)小鼠:Whitehead遗传图谱,Whitehead RH图谱,Whitehead YAC图谱。e-PCR可以通过WWW查询,或可以从NCBI ftp站点的/pub/schuler/e-PCR目录下载。
• COGnitor — 将你的序列同COGs数据库比较,来确定它属于的相邻组的簇。单独的COGs程序也是可以获得的。COGnitor可以以批的模式来运行,同很多的COGs数据库中的蛋白比较,并可以从ftp站点下载。
• 疟原虫遗传学和基因组 — 提供与疟原虫遗传学和基因相关的数据和信息。资源包括物种特异的序列BLAST数据库(恶性疟原虫,所有疟原虫,以及弓形虫),基因组图谱,连锁标记,以及遗传学研究信息。链接到其他的疟原虫网站和相关的寄生虫遗传学数据库包括弓形虫。
• 反转病毒资源 — 收集了一批资源用于特别支持反转病毒的研究。资源包括,一个基因型工具用BLAST算法来确定一个查询序列的基因型,一个对齐工具(alignment) 用于多个序列的通用对齐,一个HIV-1自动序列注解工具,以及16种反转病毒的可以在GenBank,FASTA和图形方式来查看的注解图谱及链接到其 他相关序列纪录。
• SAGEmap — 基因表达的串行分析(SAGE)是一种实验技术用来定量分析基因的表达。提供CGAP SAGE(Serial Analysis of Gene Expression)库的差异显示。也包含了对在人类GenBank记录中的SAGE标签的完整分析,在人类GenBank记录中一个UniGene的 标志被分配给了每个含有一个SAGE标签的人类序列网站建设过程的描述,分析工具,参考文献,定义,和定位数据可以从站点上下载。
• CGAP DDD — 数字差异显示 — 一个在线工具,用来比较从挑选出来的cDNA库的计算基因表达谱。
• 3-D Structure Display and Similarity Searching
• Cn3D — “See in 3-D”, 一个用于NCBI数据库的结构和序列相似显示工具,它允许观察3-D结构和序列—结构或结构—结构同源比较。Cn3D用起来就象你浏览器上的一个帮助工具。
• VAST搜索 — 结构—结构相似搜索服务,将一个新解出的蛋白结构的三维坐标同在MMDB/PDB数据库中的比较。VAST搜索计算出可能会交互浏览的临近结构的列表,通过分子图形来查看重叠和对齐。