测序数据分析软件(测序数据处理)

网友投稿 1398 2022-12-21

本篇文章给大家谈谈测序数据分析软件,以及测序数据处理对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享测序数据分析软件的知识,其中也会对测序数据处理进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

【生信知识】---Nanopore测序分析软件nanopolish

前言: nanopolish是开源的综合性分析软件,集成了非常多的三代测序数据分析小工具。

1.软件安装:
通过Github源码安装:

或者,通过conda安装:

2.主要功能:

构建索引

与参考基因组比对

利用nanopolish检测甲基化位点

对结果进行过滤

TBtools | 基因组重测序数据分析常用上游软件「三兄弟」,聚齐了~

是的,最后,我选择了「一条路走到黑」~ 咱们先不管一些人如何看,东西先整出来。大体如下。

没错。从「原始测序数据」到「SNP Calling」,也就是 从 .fastq 到 .vcf,一套聚齐了。其中涉及到三个目前最常用的软件:

有了这三个插件,所有的「TBtools」用户,可以在 Windows 或者 MacOS 下,点点点,分析自己想分析的数据。当然,时间成本前面有提到,最好是按照至少一天跑一个样品来算。做做 BSAseq 或者少数两三个样品还是可以的。大的群体,那么就可能需要足够好配置的机器....这个暂时不是咱们要考虑的事情。
前两个插件都介绍过了。今天介绍「BCFtools GUI Wrapper」,整体如下。

一次包括两个功能,变异检测和变异过滤。

从界面来看,比较简单。只需要将 MarkDup.PositionSorted.bam 都拖拽放置进去就可以了。

逻辑上需要等一些时间,可以得到初步的 bcf 文件。

「SNP Calling」之后,几乎所有情况下,都会做下一步过滤。具体过滤参数会对后续分析产生一定的影响。此处,默认给了一个相对严格的过滤参数,尽量保留「真阳性」SNP。具体使用方法如下。

简单来说...就是把文件放进去,然后设置一下输出目录,最后点击「Start」即可。

基本完事。三个「玩具」,欢迎「试玩」。我觉得,BSAseq真的可以试试了。因为有了 VCF 之后,剩下的其实就是一个 R包 的事儿。这个就用 R-Plugin 了。而如果你的 PC 真的强,你甚至还可以用搞 GWAS,因为有了 VCF,剩下的不就是? R 包吗?

10X单细胞测序之cellranger介绍

  目前10X单细胞测序算是测序行业最热门测序数据分析软件的方向之一,它可以在低测序深度测序数据分析软件的情况下一次性的获得成千上万的细胞及其每个细胞内的基因表达情况,对测序数据分析软件了解细胞异质性和新的细胞类型非常有利。官网介绍的功能和优势如下测序数据分析软件

  既然10X单细胞优势这么大,那么了解它数据的分析过程就十分有必要。单细胞分析的内容主要包括数据拆分、细胞定量、降维聚类、差异、富集和注释。这次我们主要讨论10X GENOMICS公司为单细胞转录组量身打造的软件——cellranger。这款软件能帮助我们实现分析内容的前两部步,其中还有最重要的一步——定量。

  cellranger功能强大,像数据拆分 cellranger mkfastq 、细胞定量 cellranger count 、组合分析 cellranger aggr 、二次分析 cellranger reanalyze 等分析都可以完成。

  在测序过程中经常会出现两个文库上同一个lane,或者一个文库上不同lane的情况,对于这种情况,使用cellranger的mkfastq工具就可以实现数据的拆分。有以下两种运行方式:

  该命令其实是对illumina提供的拆分数据的bcl2fastq命令的一个封装,需要样本名称,index等信息,支持两种格式,一种就是illlumina常规的samplesheet.csv文件,还有一种是10X genomics定制的一种简化版的csv格式。第一种如下所示,格式复杂:

  第二种含有三列信息,一列指定lane ID, 第二列指定样本名称,第三列指定index的名称,10X genomics的每个index代表4条具体的oligo序列。推荐使用第二种简化版的csv文件,因为cell ranger可以识别所用试剂盒版本,然后自动化的调整reads长度。

  拆分好后的目录结果如下:

  如果手里头数据已经是拆分好的fq.gz数据,就可以直接进行该部分分析。cellranger提供count工具实现测序数据中细胞和基因的定量,产生后续分析用到的基因表达矩阵,运行方式如下:

  输出文件夹内容:

  对于这个功能, 官网 如此介绍:当进行涉及多个GEM Well的大型研究时,运行cellranger请分别从每个GEM Well收集fastq数据,然后使用cellranger aggr汇集结果。也就是说,需要分样进行cellranger count分析,然后再使用aggr进行合并。

  csv文件需要两列文件,第一列是GEM well唯一的标识ID,第二列是运行count产生的molecule_info.h5文件,格式如下:

  输出结果,目录结构和count基本一致:

  如果第一次count分析结果不理想,如检测到的reads大部分不在细胞中,可以在二次分析中调参数重新分析,并且使用的数据不再是fq.gz数据,速度更快,使用方法:

  输出结果如下:

使用cell ranger拆分10X单细胞转录组原始数据
10X单细胞测序分析软件:Cell ranger

kmer分析的几款软件介绍

1.jellyfish

运行jellyfish

2.使用 GCE 进行基因组大小评估

GCE 软件包中主要包含 kmer_freq_hash 和 gce 两支程序。前者用于进行 kmer 的频数统计,后者在前者的结果上进行基因组大小的准确估算。

kmer_freq_hash 的常用参数:

运行kmer_freq_hash:

kmer_freq_hash 的主要结果文件为 species.freq.stat。该文件有 2 列:第1列是kmer重复的次数,第二列是kmer的种类数。该文件有255行,第225行表示kmer重复次数=255的kmer的总的种类数。该文件作为 gce 的输入文件。
kmer_freq_hash 的输出到屏幕上的信息结果保存到文件 kmer_freq.log 文件中。该文件中有粗略估计基因组的大小。其中的 Kmer_individual_num 数据作为 gce 的输入参数。

gce 的使用:

参数说明:

gce 的结果文件为 species.table 和 species.log 。species.log 文件中的主要内容:

如果使用 -H 1 参数,则会得额外得到如下信息:

则杂合率 = 0.0580297 / kmer_size 。 若计算出的杂合率低于 0.2%,个人认为测序数据应该是纯合的。这时候,应该不使用 -H 1 参数。使用 -H 1 参数会对基因组的大小和重复序列含量估算造成影响。

参考: https://www.plob.org/article/9388.html

3.KmerFreq_AR计算基因组大小

单细胞转录组测序分析--初探Seurat

时代发展的步伐总是毫不留情的将你甩在身后,连车尾灯都看不见。当你还在沉迷于普通转录组数据挖掘时,已经有人悄悄的搞上单细胞了。单细胞转录组测序,顾名思义就是在单个细胞的分辨率基础上去研究细胞内的基因表达等,其主要目的是为了研究不同细胞类型的基因表达异质性,从而解决相关生物学问题。谈到单细胞就不得不提一下当下火爆的10x Genomics服务商了,具体参见 10x Genomics 。本篇文章暂时不介绍10x,主要介绍单细胞转录组数据分析软件Seurat。
Seurat软件是一个R包,可以说是单细胞转录组测序分析的明星软件,很多单细胞测序文章都会引用该软件,引用次数也是杠杠的,而且也有详细的 在线教程 。本文也主要是根据其教程介绍一下使用Seurat软件分析一个样本的单细胞转录组数据的步骤及注意事项,供大家讨论。
导入分析需要的包

Seurat软件提供了很友好的函数可以直接读取10x Genomics的输出结果

导入文件后便可以创建Seurat对象

创建完Seurat对象后,Seurat将数据保存在不同的slot中,如filter_10x_object@raw.data, filter_10x_objectt@data, filter_10x_object@meta.data, filter_10x_object@ident,其中raw.data存放的是每个细胞中每个gene的原始UMI数据,data存放的是gene的表达量,meta.data存放的是每个细胞的统计数据如UMI数目,gene数目等,ident此时存放的是project信息。

由于技术原因,一个GEM中可能会包含2个或多个细胞,也可能不包含细胞,这时候可以通过观察每个barcode中的基因数目或UMI数目来判断。

上图展示的是每个barcode中的基因数目和UMI数目的关系,一般二者都成正相关关系,有个别barcode的基因数目和UMI数目过高,有可能就是包含2个细胞的GEM,可以考虑在后续分析中将其过滤掉。
我们不仅仅可以观察每个barcode的基因数目,还可以计算每个barcode中的线粒体基因含量等,从而更加仔细的观察数据的质量。

这张图片展示了每个barcode中基因数目、UMI数目以及线粒体基因含量的分布情况,根据上述2张图片就可以大致确定是否需要过滤哪些数据进行后续分析。
Seurat提供了一个很好用的数据过滤函数:

以上就是数据的预处理过程了,接下来就进入正式的分析阶段,包括数据的标准化、归一化、数据降维以及聚类分析等。

FindVariableGenes算法:首先计算基因的平均表达量,然后计算基因的离散度;接下来根据平均表达值将基因分成20块并计算每块的离散度的Z值。
如上图:横坐标代表基因的平均表达量,纵坐标代表基因的离散度的Z值,标有基因名的点就是由函数中的cutoff值决定的,改变cutoff值,这些标记也会随之改变。
数据的线性回归、中心化和比例化:对数据进行线性回归分析,去除不想要的变异源。
中心化:首先计算基因A在所有细胞中的平均表达量,然后分别将每个细胞中基因A的表达值减去平均值。
比例化:在中心化的基础上,首先计算基因A在所有细胞中的中心化值后的标准差,然后分别将每个细胞中基因A的中心化值除以标准差。这些步骤都在一个函数中完成。

单细胞转录组测序产生的数据是数万个基因在数万个细胞中的表达情况,属于典型的高维数据。如果把1个基因视为1个坐标轴的话,那么一个细胞的空间位置就是在数万个坐标轴中的定位,这样的话相同细胞类型的细胞就应该挨在一起,我们就可以根据细胞的空间位置判断细胞亚群了。可是我最多也就认识三维坐标啊,咋办,能不能把这些高维数据投影到二维坐标呢,那就交给PCA和t-SNE吧。PCA和tSNE都是数据降维分析方法,PCA属于线性降维,tSNE属于非线性降维。我们先执行PCA分析,使高维数据的信息最大程度保留在低维数据中,PCA分析利用的是保存在scale.data的值。

执行完PCA分析后,就要根据PCA得分来进行聚类分析了,但是在进行聚类分析之前,需要选择使用对少个主成分进行计算。每个主成分实际上代表的是相关基因集的信息,因此确定多少个主成分是一个重要的步骤,我们可以根据PCElbowPlot函数来判断。

从上图可以看到,拐点出现在10-15之间,我们可以选择15来进行聚类分析。Seurat采用的是基于图形的聚类方法,即利用PCA空间中的欧几里德距离构造一个KNN图(数学好的可以留下来帮忙讲讲)。

好了,到此我们就知道了我们的数据中有多少种细胞亚群了,怎么可以少得了图片展示呢。超棒的可视化方法tSNE要上场了。tSNE的目标是将在高维空间中具有相似局部邻域的细胞,在低维空间中放在一起。

既然我们知道了有多少种细胞亚群,那么是不是就要分析一下这些亚群间的差异性呢,交给FindAllMarkers吧。FindAllMarkers能够同时计算所有亚群的差异性(分别计算每个亚群与剩下的所有细胞的差异性)。

得到差异表达基因后,当然要进行展示了。

好了,剩下的就是进行生物学知识挖掘了,例如根据这些差异基因推断细胞类型啊之类的。
关于单个样本的单细胞转录组数据分析就介绍到这儿了,那多个样本的分析会有什么不同呢,我们下次再说吧。

Manta:一款方便临床测序使用的快速检测结构变异和INDEL 的软件

摘要: Manta软件可以从比对文件中检测SVs和indels。它主要开发用于检测单个样品的germline变异和tumor/normal配对样品的somatic变异。它可以在一套流程中高效的发现、组装、打分大范围的SVs,中型indels和大型insertions。该软件主要用于标准计算硬件上进行快速的分析:NA12878细胞系50x覆盖基因组可以在20核服务器上20分钟分析完毕,大多数WGS tumor/normal配对样品可以在2个小时内分析完毕。在SV的检测和打分过程中,Manta结合paired-read和split-read来提高准确性,但是在有其他有力证据的情况下,不需要利用split-read或者断点组装来报告融合。Manta通过连续组装的方法可以使分辨率达到碱基级别,更有利于下游的注释和临床意义分析。Manta软件接受输入BAM或CRAM格式文件,并以VCF4.1的格式报告所有的SV和indels突变。

引言: 目前许多前进的结构变异检测方法都集中在科学研究和群体基因组上。然而,目前还没有一个流程专注于快速检测单个或者成组样本的多种类型变异。Manta软件主要专注于临床领域,可以根据输入的比对文件和基因组文件,迅速对变异进行发现、组装、打分。它可以对二倍体的germline类型变异,tumor/normal配对的somatic变异进行检测,而RNA-Seq分析,de novo变异分析,不配对的tumor样品变异分析应用还在开发中。在与其他代表型的工具的比较中,Manta软件可以在显著降低计算成本的情况下,高质量的检测变异。

方法:

流程汇总 : Manta流程设计用于高并行的检测单个或成组的样品。它运行包括两个阶段:1、首先建立基因组内所有断裂关联图表,2、对图表中的组成部分进行处理,包括备选假设变异的生成、组装、打分以及VCF文件的报出。断点关联图表包括了任意基因组区域内远距离相关的边界,和indel组装区域的自边界。由于这个图表不含具体的假设变异,所以它非常的紧凑,可以在基因组范围内进行大片段的重构。在图表重构后,单独的边界(应该是相关的变异)用于后续变异的分析。每个边界都被分析,用于寻找不精确的假设变异,每个变异reads都会被组装并重新比对到基因组上。每个变异都会尝试进行组装,但是组装不是报告一个变异的必须步骤。在先前的germline和somatic变异模型下,所有paired-read和split-read的证据会被整合成一个质量分数,相应的过滤指标也会补充这个质量分数,以提高变异变异检测的精度。为了便于应用,Manta会自动评估插入片段的大小分布排除基因组中高重复区域。

变异检测评估: 在CEPH 谱系 1463上评估了变异软件的germline检出能力。为了获得一致的变异检出结果并提供软件之间的recall比较,选择了公认标准的软件进行变异检测并比较。选择Pindel用于检测indels,选择Delly用于检测SVs。每种检测软件检出的变异与Manta检测出的变异会建立pedigree变异一致数据集,用于软件的精度的比较,选择的数据集是NA12878细胞系。Delly软件也被当做是检测somtaitc变异的基准软件,比较了它与Manta在乳腺癌细胞系HCC1954上的检出能力。

                           Recall =   召回率,评估的是灵敏度

                           Precision =   精确率,评估的是特异性
结果: 表1 结果 从NA12878细胞系的SVs(大片段的缺失和重复)检测结果来看,Manta具有较高的召回率。从NA12878细胞系的Indels检测结果来看,相对于500bp一下的小的插入缺失,大的插入缺失Manta软件的召回率优势更为明显。从HCC1954观测到Manta软件在所有变异类型中都具有强大的性能,并且所有类型中组装到basepair分辨率的比例都很高。

表2结果:通过运行时间或者内存度量,Manta软件在提供更多种类变异类型检测时,具有更低的计算消耗和计算时间。
Manta软件详细的变异检测算法原理稍后补充

参考文献:

Xiaoyu C , Ole S T , Richard S , et al. Manta: rapid detection of structural variants and indels for germline and cancer sequencing applications[J]. Bioinformatics, 2016(8):1220-1222. 关于测序数据分析软件和测序数据处理的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 测序数据分析软件的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于测序数据处理、测序数据分析软件的信息别忘了在本站进行查找喔。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:题关于工作中特殊领域技能在WPS文本中的应用
下一篇:产品经理数据分析软件(产品经理数据分析工具有哪些)
相关文章