Sequencing Data Analysis |
外显子捕获测序数据分析
1.测序结果定位到基因组
使用相应的mapping软件(如MAQ等)将测序结果定位到人类基因组上(hg19),MAQ通过贝叶斯方法计算mapping quality,从而推算出一些不同于reference genome的变异体,包括SNP和短的缺失片段。将那些没有定位在目标区域(Exon之外)的序列摒弃,计算测序的深度或者覆盖率,统计可以定位到基因组上的reads的百分比、定位到exome上的百分比等等。但是由于MAQ不允许gap alignment,我们使用BWA方法检测缺失片段。
2.得到candidate variant
MAQ和BWA可以得到可能的变异体,使用SAMtools得到SAM格式的数据,这个数据存储着测序序列和reference genome比对的情况,任何和reference genome不同的碱基都被当作可能的变异体(SNVs, single nucleotide variants)进行后续分析。
3. 筛选variant
a) 使用Phred,得到每个碱基的quality score,去掉那些quality score小于45的candidate variant。
b) heterozygous variant应该具有10倍以上的覆盖率,并且相应的序列应该具有不同的起始端和终止端,不满足这个条件的需要筛掉。
c) 人类基因组中存在正常的SNPs,基于dbSNP数据库,筛掉这一部分候选。
4. variant分类
基于这些variant所在的位置,以及可能产生的后果可以将其分成不同的类别。包括synonymous variant, non-synonymous variant,premature termination, splicing site, indels等等。统计这些变异体的数目和基本信息。
5. 实验验证
对于得到的candidate variant,使用Sanger sequencing方法测序,验证以上方法得到的变异体是否为真,统计实验的可靠性。
6. 基因功能关联分析
如果得到较少的和所研究表型相关的基因变异,进行文献查阅,得到可能相关的基因功能,以支持实验结果。如果得到比较多的相关基因,选择GO Analysis,验证是否变异的基因富集了和特定表型相关的功能。
mRNA测序数据分析
1.测序质量分析
对测序的原始数据进行初步分析,包括可以mapping的序列的百分比、各个不同样本以及重复样本之间的相关性、各个测序平台之间的实验重复性好坏等等,并制作散点图、直方图、文氏图等。
2.Mapping序列定位基因组
基于不同的参考文库(reference sequences),我们可以将测序结果定位到不同的注释中,比如基因组、refseq数据库、EST数据库、Ensemble数据库、Exon junction文库等等。然后给出测序结果在注释中的分配情况。
3.基因表达量定量
对于mapping之后的结果,我们采取多数文章经常采用的RPKM(Reads Per Kilobase of exon per Million mapped sequence reads)进行基因表达定量。
4.表达水平整体分析
对于多样本转录组,我们对实验进行总体分析,包括主成分分析和聚类分析等,并制作PCA图、聚类分析图、热图等。
5.基因差异表达筛选
由于测序技术有更大的通量,并且可以获得新的转录本的信息,所以在做样本间不同表达基因的筛选的时候优势很大。对于不同的样本信息,我们采取不同的统计手段,比如student-t test, F-test等得到不同样本间特异表达的基因或基因集团。
6.基因本体分析(Gene Ontology Analysis)
对于得到的特定基因分类,我们采取DAVID、EasyGO等基因本体分析工具对所得结果进行功能分析,并得到可能的富集功能,绘制相关图和表格。
7.Pathway analysis
基于KEGG等数据库,我们采取超几何分布检验等统计手段,得到显著富集的生物信号通路或者代谢通路。
8.新转录本发掘
对于那些没有定位到已知基因位置的序列,有以下的几种可能:
A这些序列属于背景转录。
B这些序列来自一些非编码RNA的片断。
C这些序列来自一些已知基因的延伸片断或邻近区域。
D这些序列来自一些未知的比较微量表达的基因。
9.新选择性剪切发掘
基于那些可能mapping在exon-exon junction上的序列,我们可以得到新