二代测序数据分析软件(二代测序结果分析)

网友投稿 2015 2022-12-22

本篇文章给大家谈谈二代测序数据分析软件,以及二代测序结果分析对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享二代测序数据分析软件的知识,其中也会对二代测序结果分析进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

二代测序的数据的分析——质量控制

Fastqc
Fastqc website ( http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) )

质量控制的测序质量检测是通过FastQC软件实现。fastqc可以不设置任何参数运行,这样会直接在当前目录下生成一个质量报告的压缩文件和文件夹,报告是网页格式。也可以设置输出目录和是否解压缩(--noextract),默认设置会解压缩。命令如下:

其中 --noextract 命令是不解压缩输出文件。 -t 参数是指定使用线程数,fastqc似乎并不是并行运算,而是通过线程数同时执行多个程序,比如线程数指定为4,并不是用4个进程去跑一个文件,而是同时跑4个文件,不过4个线程速度提高很大,个人测试感觉10倍速度于2个线程。 -q 为屏蔽进程信息并只输出错误信息, -f 参数为指定输入文件格式(有bam, sam, fastq可选)

fastqc的结果在v0.11.5版下共有12项。

根据结果去接头( adapter )、引物( Primary )尾巴( Poly-A )等。必须要去的是接头。常用的软件有cutadapt、trim_galore等等。一般用cutadapt,很多去接头软件的底层其实也是调用cutadapt。

眼科中心服务器cutadapt 1.9.1版本安装在c0,c10节点上,需要提交到这两个节点才可以运行,否则很多节点用的是1.4.1,老版本的问题是功能有限,尤其是对于双端数据不支持(如-A参数)。cutadapt官网对于Illumina接头去除的说明如下:

因此单端数据只需要用-a参数去掉“ AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC ”就可以了。

按照推荐我双端数据(Pair-End)的命令如下:

其中的参数说明:
-a 序列 正向接头序列,单端测序只用这个。
-A 序列 反向接头序列,双端情况下设置。
-q 数字 表示最低质量值,在去接头前先将低于此数值的bases去除。 如果只设置一个数值则从3'末端去除,如果用逗号分割两个数值则先去5'末端后去3'末端 。一般设为30。

-m 数字 表示trim后最短bp低于此数的reads被抛弃,一般设为20。

-M 数字 表示长于此数字的reads被抛弃,默认值不限制。

--max-n=COUNT 抛弃有太多N的reads。COUNT如果设置为整数,就是按N的绝对个数来处理;如果设置为小数(0到1之间),就按每条reads中N的百分比来处理。

-O 数字 表示adapt和序列比对最少overlap的值,高于此值就认为是接头并修剪,默认是3,个人设置至少到5。

-o 目录 Read1的输出路径

-p 目录 Read2的输出路径

根据fastqc的报告,如果是RNA数据尾巴较多的情况,最好再去一次PolyA尾巴,少就不用了。

Trim Galore 合并了FastQC和Cutadapt到一个程序中。它的优势在于它可以根据FastQC分析的个体质量对每个reads进行修剪。同时可以设置程序对剪切后的序列用FastQC生成一个统计信息。对双端序列支持也很好。

选项

示例:

GATK什么意思

GATK全称是The Genome Analysis Toolkit,是Broad
Institute开发的用于二代重测序数据分析的一款软件,里面包含了很多有用的工具,主要注重与变异的查找,基因分型且对于数据质量保证高度重视。它拥有强大的架构,强大的处理引擎,以及高性能计算功能,使它能够适用于任何规模的项目

NGS019 二代测序的图象处理和碱基识别

二代测序的数据分析通常分为 初级分析、次级分析和高级分析 三个层次。
以Illumina测序平台为例二代测序数据分析软件,讨论二代测序的图象处理和碱基识别,也就是从荧光信号的产生到碱基序列的识别这一过程,主要包括 图象校正(即空间校正)、簇的识别、荧光校正(即光学校正)、phasing/prephasing(即化学校正)、碱基识别、PF、质量评估等 7个步骤,涉及到两个软件二代测序数据分析软件:HCS (HiSeq ControlSoftware),控制测序仪的运行,收集荧光信号二代测序数据分析软件;RTA(Real-Time Analysis),在测序过程中实时处理数据,包括图象分析、碱基识别和质量评估等。至于用于二代测序数据展示的第三个软件工具GenomeStudio,属于可选项。本文不涉及更下游的次级和高级分析。

Illumina的HiSeq系列测序仪具有红绿波长两根激光管,配备两片滤色片。激光光源与滤色片两两组合,形成4种不同波长的激发光,分别用于激发DNA分子中的A、G、C、T这4种碱基。在测序过程中,cluster上所标记的荧光基团在激光激发下产生荧光信号,荧光信号用相机收集,收集方式有拍照和扫描两种。扫描的速度比较快。
每台HiSeq测序仪可以同时运行两张flow cell(某些型号只能运行1张),通常每张flow cell有8个通道(lane);每个通道的内壁,包括顶面和底面,都可以生成簇;由于面积大,为了方便数据管理,软件把顶面或者底面虚拟地划分为3条column,或者叫swath,每条column或者swath又被虚拟地划分为几16个tile。簇的密度根据上样量以及机器型号和软件版本有各种变化,通常为1M/mm2。

从原理上看,Illumina二代测序的碱基识别其实非常简单二代测序数据分析软件:对测序过程中所获得的荧光信号图片进行空间校准,按空间位置和时间顺序排列,然后根据每个簇随着时间变化而发生的颜色改变读取碱基序列;序列长度就等于SBS的循环次数。
二代测序数据分析主要包括图像分析、碱基识别、序列组装、突变识别、功能分析等5个环节,以及每个环节都需要的可视化数据展示。图像分析和碱基识别属于初级分析,序列组装和突变识别属于次级分析,功能分析属于高级分析。

图像分析的目的有两个二代测序数据分析软件:(1)对每一个簇(cluster)进行识别,确定其坐标;(2)提取每个簇分别在A、G、C、T四个波长的信号强度值。

Flowcell上的每个簇都是由1000-6000个单链DNA分子组成的。这些分子全部来自一个共同的“祖先”模板分子、通过桥式PCR的扩增克隆而成。所以,除了PCR过程中偶尔发生的碱基错配以外,它们的碱基序列是一模一样的。由于二代测序文库的DNA片段很短,总共才不过三五百个碱基,碱基错配的概率不高,在讨论碱基识别的阶段可以暂时忽略不计。
既然碱基序列是一样的,在测序的每个循环,每个簇所发射的荧光信号的波长(或者说颜色)就是一样的、单一的、纯净的。仪器针对每个簇、在每个测序循环都拍摄了A、G、C、T 4张图象。正常情况下,这4张图中只有1张有信号;另外3张没有信号,只有背景噪音。信号的荧光强度要显著高于噪音的。
碱基识别的基本过程就是比较每个簇的这4张图,挑出其中信号强度最高的那个波长,从而确定该碱基的种类。如果只有一个簇,这种比较是非常简单容易的。但是图象处理的单位是tile,每个tile里包含有几百万、上千万个簇,平行测序导致平行的数据处理,所以上一节讲解的图象处理就非常重要。碱基识别涉及到以下5个重要方面。

二代测序每每获得海量数据,通常称为大数据。正因为数据的体量太大,对于其整体质量的好坏就难以直观评价。为此我们必须建立一套客观的评价体系,通常是相关统计参数,帮助我们对每一批测序数据的好坏进行直观把握。虽然至今还没有建立被普遍接受的公认的标准,在实际工作中,人们主要关心的二代测序数据质量参数逐渐集中于以下这么几个:数据量、%Q30、比对率、覆盖度、重复率。对于外显子组测序,在此基础上再增加一个:捕获率。
对于这些重要参数,下面我们逐一进行简要介绍。

基因组Survey(二代测序数据质控)

Survey分析要做什么数据准备?
(1)QC方法介绍
(2)NT方法介绍

1.为什么要进行Survey分析?
2.Survey分析数据准备
3.Survey 数据质控软件
4.重点总结

碱基的质量都是以ASCII值表示的,根据测序时采用的质量方案的不同,计算十进制的质量值的方法也有所区别,常见的计算方法如下所示:
展示方式:Phred+33和Phred+64,这里的33和64就是指ASCII值转换为得分该减去的数值
(1)Phred+64:质量字符的ASCII值 -64
(2)Phred+33: 质量字符的ASCII值 -33
Illumina 测序碱基质量值的范围是[0,40],即ASCII值表示为[B,h] 戒 [#,I]。
Illumina 测序错误率不测序质量值简明对应关系。具体地,如果测序错误率用 E 表示,Illumina 碱基质量值用 Q 表示,则有如下关系 : Q = -10 log10(E)。

各提出10000对比对到NT库,如果都比对到同源物种,说明无污染,如果比对到细菌真菌,可能数据有污染。

1.NT库
Partially non-redundant nucleotide from all traditional divisions of GenBank, EMBL, and DDBJ excluding GSS,STS, PAT, EST, HTG, and WGS.

2.NT比对
软件:BLAST
The Basic Local Alignment Search Tool (BLAST) is the most widely used sequence similarity tool. There are versions of BLAST that compare protein queries to protein databases, nucleotide queries to nucleotide databases, as well as versions that translate nucleotide queries or databases in all six frames and compare to protein databases or queries.

3.NT比对结果文件统计

因为实验过程丌可知,物种特性难量化,数据通过qc,可以做到量化展示数据,从数据分析相关信
息,同时为后续Kmer分析做准备,获取一个准确的基因组预估情况。

污染问题最重要,数据报告上面如果出现测序质量低,测序效果丌好,往往从展示图可以明确看到,
但是污染的问题有可能是共生菌,细胞器,实验污染,样本污染,这些信息丌仅仅是从NT比对和gc峰
了解,更要结合物种特性来展开连锁分析。比如一些带病昆虫会有共生菌,一些哺乳动物也有相关细
菌。

DNA/RNA序列比对软件整理

文章仅是记录自己的学习使用,有错误请指出,我立刻改正

在对比对工具进行比较时,通常将其分为DNA比对工具(DNA-seq)和RNA比对工具(RNA-seq)。它们的区别在于是否会考虑跨外显子的比对,即:是否会将没有比对上的reads劈开,对劈开后的两部分再次比对)。
随着现在各种seq测序的出现,我们已经不能简单的根据是比对DNA还是RNA来判断。比对工具的选择主要依据reads的比对是否需跨外显子。(PRO-seq/GRO-seq,它们虽然在建库时捕获的RNA,但是它们的比对并不需要考虑跨外显子。)

常用工具:
DNA-seq:BWA;bowtiebowtie2
RNA-seq:STAR;HISAT2;TophatTophat2

BWA主要应用二代测序后的大量短小片段与参考基因组之间的定位比对。需要先对参考序列建建立索引,BWA也是基于 BWT和 FM-Index 理论来对参考基因组做索引。根据测序方法的不同,有单末端序列(Single-end,SE)比对和双末端序列(Pair-end,PE)比对。

bowtie出现在测序行业还不成熟的时候,序列长度普遍在50bp以下,bowtie的只满足长度在50bp以下的reads的比对。官方称其可以把短的DNA序列(35bp)快速的比对到人类基因组上。
Bowtie2 是一款经典的短读长序列( 50-100 bp,最多可到1000 bp ) 比对软件,节约内存且灵活与成熟的短序列比对软件,比较适合下一代测序技术。支持单端测序(unpaired) 和双端测序的比对。支持全局比对(end-to-end align ) 和 局部比对( local align )。其通常使用全文分索引(FM-index)以及Burrows-Wheeler 变换(BWT)索引基因组使得比对非常快速且内存高效,但是这种方法不适合于找到较长的、带缺口的序列比对
结论:bowtie和bowtie2,是两个不同类型的比对工具,bowtie2并非是bowtie的升级。尺有所长寸有所短,bowtie适合长度在50b长度以内的reads比对,而bowtie2适合50-100b,甚至更长的reads比对。但是这两个都属DNA-seq比对工具

RNA-Seq测序的特性,天然的会有一部分数据延伸到内含子区,这部分跨越外显子和内含子的reads就称为『junction reads』,所以RNA-Seq比对软件需要针对此进行优化。
( junction:转录组reads比对不同于基因组reads比对(如ChIP-seq、WES等)的地方在于,比对的reads可能来源于2个被内含子隔开的外显子区域,导致reads一端比对在第一个外显子的后面部分,另一端比对在第二个外显子的前面部分,即跨剪切位点,从而形成exon-exon junction (剪接点)。这些reads又称为junction reads,对转录本的拼接、鉴定和差异分析具有重要的意义。)
(soft-clip事件: 即reads末端存在低质量碱基或接头导致比对不上的, STAR会自动尝试截去未比对部分,只保留比对上的部分。)

STAR是ENCODE皇家御用的RNA-seq比对工具,ENCODE计划(ENCyclopedia Of DNA Elements)又称人类基因组DNA元件百科全书计划,是2003年在人类基因组计划完成之后紧接着的又一个大型国际科研项目。

Tophat2的原作者们也不知道是出于什么考虑,不再更新Tophat2,转而开发了一个新的比对工具HISAT2,更是推荐人们使用HISAT2,声称其速度更快,内存占用率更小,准确率更高。
此外,HISAT2不仅支持RNA-seq的比对还支持DNA-seq比对,唯一需要做的就是加上一个参数--no-spliced-alignment。但是就目前来看,大部分人都是使用HISAT2做RNA-seq,没人使用它做DNA-seq

Tophat/Tophat2工具本身不能进行比对,它是通过调用bowtie/bowtie2进行比对的。划重点,bowtie2不是bowtie的升级版,但是Tophat2是Tophat2的升级版。因此Tophat只可以调用bowtie,而Tophat2不仅可以调用bowtie2(默认)还可以更改设置调用bowtie。
Tophat/Tophat2调用bowtie/bowtie2后,会首先使用bowtie/bowtie2对序列进行比对,对于那些没有比对上的,会考虑其跨外显子的可能性,将reads劈开重新比对。

全长转录组(Full-length transcriptome)是基于PacBio和Nanopore三代测序平台,无需打断拼接,直接获得包含5’UTR、3’UTR、polyA尾的mRNA全长序列及完整结构信息,从而准确分析有参考基因组物种可变剪接及融合基因等结构信息,克服无参考基因组物种转录本拼接较短、信息不完整的难题。同时还可以借助二代测序数据,进行转录本特异性表达分析,获得更加全面的注释信息。

传统的使用比较多的长读长比对软件是GMAP,05年发表公布,最开始是用来比对低通量的est序列的,后来也有进一步升级为GSNAP支持高通量的二代测序。PacBio测序技术出现后,常用于Iso-seq转录本的鉴定,目前仍是相关研究引用量最高的比对软件,该软件也一直在持续更新升级。其可以将转录本序列与参考基因组序列比对,输出gff文件,比对速度稍慢。

Minimap2是生信大牛李恒18年用C语言开发的可以用于三代数据(subreads、iso-seq)比对的长序列比对软件,与传统的三代比对工具GMAP相比,其速度有非常显著的提升,当然同时消耗的内存也比较大。使用方法也比较简单,近几年引用次数增长的也很迅速,所以大家可以试试用minimap2进行Iso-seq的比对。 关于二代测序数据分析软件和二代测序结果分析的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 二代测序数据分析软件的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于二代测序结果分析、二代测序数据分析软件的信息别忘了在本站进行查找喔。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:多维数据分析软件(三维分析软件)
下一篇:房地产数据分析软件(房地产数据分析软件)
相关文章