Sentieon-cli | DNAscope WES 流程单条命令版本详解

# 一、前言

在基因组学研究中，全外显子组测序（Whole Exome Sequencing, WES）已成为解码基因编码区域变异的常规工具，能够全面捕获人类基因组中约 2% 的外显子区域序列，从而在单核苷酸水平识别与疾病相关的功能变异，提供比全基因组测序（WGS）更经济、更深入的靶向分析手段，尤其适用于孟德尔遗传病及复杂疾病相关编码变异的发现。研究表明，WES 在多种遗传疾病中展现出重要的诊断价值——例如在神经发育障碍中其诊断率可达 25% – 40%，是临床遗传检测的一线选择之一。

然而，随着测序通量的提升与样本量的增加，基于传统 GATK 的分析流程在处理大规模 WES 数据时日益面临耗时漫长、计算资源消耗大的瓶颈，许多临床与科研团队需面对数天甚至数周的分析周期，影响了诊断时效与结果交付。

为应对这一挑战，Sentieon 开发了涵盖从比对、去重、碱基质量校正到变异检测的一体化 WES 分析加速模块，通过高度优化的算法与并行计算架构，大幅缩短全流程分析时间，为高通量WES数据提供了高效、可靠的生信分析解决方案。

* * *

# 二、Sentieon-cli dnascope 流程总览

Sentieon® Genomics 软件包含一个改进的算法来执行胚系 DNA 分析的变异检测步骤。DNAscope 使用的流程类似于 DNAseq® 中描述的流程，但在比对和变异检测方面都有所不同。

DNAscope 接受模型文件以提高处理速度和准确性，除了检测 SNP 和小 indel 外，它还可以进行结构变异检测。DNAscope 的核心优势在于结合机器学习模型进行高精度变异检测，而该模型是专门为二倍体样本设计的。因此，官方明确推荐将带有机器学习模型的 DNAscope 用于人类或其他哺乳动物样本的测序数据集。

![图片](/media/202604/4e2822249ade41df93f0a879415b8a143634.png)

图1 推荐用于 DNA 变异检测分析的生物信息学流程

在这个生物信息学流程中，您需要以下输入文件：

*   FASTA 文件：包含与待分析样本对应的参考基因组核苷酸序列。
    
*   FASTQ 文件：一个或多个包含待分析样本核苷酸序列的文件。这些文件包含来自 DNA 测序的原始读数。软件支持输入使用 GZIP 压缩的 FASTQ 文件。软件仅支持包含 Sanger 格式（Phred+33）质量分数的文件。
    
*   机器学习模型文件：可从 https://github.com/Sentieon/sentieon-models 获取特定测序平台机器学习模型文件。
    
*   （可选）包含变异检测区间的 BED 文件。推荐用于全外显子组或靶向测序数据。
    
*   （可选）您想在流程中包含的单核苷酸多态性数据库（dbSNP）数据。数据以 VCF 文件的形式使用；您可以使用 bgzip 压缩并索引的 VCF 文件。

DNAscope 的典型生物信息学分析流程包括以下步骤：

1.  将读数映射到参考基因组：此步骤将 FASTQ 文件中的读段比对并映射到 FASTA 文件中的参考基因组上。该步骤确保了数据能够被置于基因组上下文背景中（确定其路径）。
    
2.  计算数据指标：此步骤生成关于数据质量和流程分析质量的统计摘要。
    
3.  去除或标记重复：此步骤检测表明同一 DNA 分子被多次测序的读数。这些重复序列不具有信息价值，不应作为额外的证据进行计数。
    
4.  使用带机器学习模型的 DNAscope 进行变异检测：这一步识别您的数据相对于参考基因组显示变异的位点，并计算每个样本在该位点的基因型。

## 1.  使用 FASTQ 文件作为输入

针对 FASTQ 格式文件，通过运行单条命令即可完成序列比对、预处理，并检测单核苷酸变异、插入缺失变异及结构变异。

```
sentieon-cli dnascope [-h] \
  -r REFERENCE \
  --r1-fastq R1_FASTQ ... \
  --r2-fastq R2_FASTQ ... \
  --readgroups READGROUPS ... \
  -m MODEL_BUNDLE \
  [-d DBSNP] \
  [-b INTERVAL_FILE] \
  [--interval_padding 0] \
  [-t NUMBER_THREADS] \
  [--pcr_free] \
  [-g] \
  [--duplicate_marking markdup] \
  [--assay WGS] \
  [--consensus] \
  [--dry_run] \
  [--bam_format] \
  SAMPLE_VCF
```

使用 FASTQ 文件作为输入时，DNAscope 流程需要以下参数：

*   `-r REFERENCE`：参考序列 FASTA 文件的位置。同时需要参考序列的 fasta 索引文件 “.fai” 以及 bwa 索引文件。
    
*   `--r1_fastq R1_FASTQ`：R1 端的输入 FASTQ 文件。可以多次指定。没有对应 R2_FASTQ 文件的 R1_FASTQ 文件将被视为单端测序数据。请注意，该流程执行单样本处理，所有 fastq 文件应来自同一个样本。
    
*   `--r2_fastq R2_FASTQ`：R2 端的输入 FASTQ 文件。可以多次指定。
    
*   `--readgroups READGROUPS`：每个 FASTQ 文件的读段组信息。流程将要求 --r1_fastq 参数和 --readgroups 参数具有相同数量的输入。示例参数为：--readgroups "@RG\tID:HG002-1\tSM:HG002\tLB:HG002-LB-1\tPL:ILLUMINA"

*   `-m MODEL_BUNDLE`：模型包文件的位置。模型包文件可在 sentieon-models 代码仓库中找到。

*   `SAMPLE_VCF`：用于输出 SNV 和小插入缺失（indel）的 VCF 文件的位置。流程要求输出文件后缀为 .vcf.gz。不包含后缀的文件路径将用作其他输出文件的基础名称。

DNAscope 流程接受以下可选参数：

*   `-d DBSNP`：用于在 VCF 中标记已知变异的单核苷酸多态性数据库（dbSNP）的位置，文件格式为 VCF (.vcf) 或 bgzip 压缩的 VCF (.vcf.gz)。仅支持一个文件。提供此文件将用其 dbSNP 的 refSNP ID 号对变异进行注释。需要 VCF 索引文件。
    
*   `-b INTERVAL_FILE`：用于限制变异检测的参考基因组区间，格式为 BED 文件。提供此文件将把变异检测限制在 BED 文件内的区间。如果不提供 BED 文件，软件将处理全基因组。
    
*   `--interval_padding INTERVAL_PADDING`：在输入区间的边缘添加 INTERVAL_PADDING 个碱基的填充区域。默认值为 0。
    
*   `-t NUMBER_THREADS`：软件将用于运行并行进程的计算线程数。此参数为可选；如果省略，流程将使用服务器所有的线程。
    
*   `--pcr_free`：使用 --pcr_indel_model NONE 调用变异，适用于通过 PCR-free 文库制备方法构建的文库。仍会执行去重以识别光学重复。
    
*   `-g`：除了 VCF 输出文件外，还以 gVCF 格式输出变异。工具将输出一个 bgzip 压缩的 gVCF 文件及其对应的索引文件。
    
*   `--duplicate_marking DUP_MARKING`：重复序列标记的设置。`markdup` 将标记重复读段。`rmdup` 将删除重复读段。`none` 将跳过重复标记。默认设置为 `markdup`。
    
*   `--assay ASSAY`：用于指标收集的检测类型设置，`WGS` 或 `WES`。默认设置为 `WGS`。
    
*   `--consensus`：在重复标记期间生成一致性读段。
    
*   `-h`：打印命令行帮助信息并退出。
    
*   `--dry_run`：打印流程命令，但不实际执行。
    
*   `--bam_format`：使用 BAM 格式而非 CRAM 格式作为输出比对文件。

## 2.  使用未排序 BAM 或 CRAM 文件作为输入

针对未排序的 BAM 文件或 CRAM 文件，通过运行单条命令即可完成比对、预处理，并检测单核苷酸变异、插入缺失变异及结构变异。

```
sentieon-cli dnascope [-h] \
  -r REFERENCE \
  -i SAMPLE_INPUT ... \
  --align \
  [--input_ref INPUT_REF] \
  -m MODEL_BUNDLE \
  [-d DBSNP] \
  [-b BED] \
  [--interval_padding INTERVAL_PADDING] \
  [-t NUMBER_THREADS] \
  [--pcr_free] \
  [-g] \
  [--duplicate_marking DUP_MARKING] \
  [--assay ASSAY] \
  [--consensus] \
  [--dry_run] \
  [--bam_format] \
  SAMPLE_VCF
```

当使用 uBAM 或 uCRAM 文件作为输入时，DNAscope 流程需要以下新增参数：

*   必要参数：

*   `-i SAMPLE_INPUT`：输入样本文件，格式为 uBAM 或 uCRAM。可以通过在 `-i`参数后提供多个文件来指定一个或多个输入文件。
    
*   `--align`：指示流程对输入的读段进行比对。

*   新增可选参数：

*   `--input_ref INPUT_REF`：用于解码输入文件（uCRAM）的参考序列 fasta 文件。在使用 uCRAM 输入时是必需的。此参考文件可以与 `-r`参数使用的参考文件不同。

## 3.  使用已排序的 BAM 或 CRAM 文件

针对已经排序的 BAM 或 CRAM 文件，通过运行单条命令即可完成预处理，并检测单核苷酸变异、插入缺失变异及结构变异。

```
sentieon-cli dnascope [-h] \
  -r REFERENCE \
  -i SAMPLE_INPUT ... \
  -m MODEL_BUNDLE \
  [-d DBSNP] \
  [-b BED] \
  [--interval_padding INTERVAL_PADDING] \
  [-t NUMBER_THREADS] \
  [--pcr_free] \
  [-g] \
  [--duplicate_marking DUP_MARKING] \
  [--assay ASSAY] \
  [--consensus] \
  [--dry_run] \
  [--bam_format] \
  SAMPLE_VCF
```

若不指定 `--align`和 `--collate_align`参数，流程将直接基于输入的测序序列进行变异检测。

**Sentieon-cli dnascope_wes.sh流程github地址:**

https://github.com/Insvast/bioinformatics

* * *

# 三、流程输出

## 1.  输出文件列表

当使用默认参数处理全基因组测序（WGS）FASTQ 数据，并设定输出文件为 `sample.vcf.gz`时，会生成以下文件：

*   **sample.vcf.gz**：SNV 和插入缺失（indel）的变异检测结果，覆盖由 -b 参数指定的 BED 文件所定义的基因组区域。
    
*   **sample_deduped.cram**或 **sample_deduped.bam**：经过比对、坐标排序和重复标记的读段数据，源自输入的 FASTQ 文件。
    
*   **sample_svs.vcf.gz**：由 DNAscope 和 SVSolver 生成的结构变异检测结果。
    
*   **sample_metrics**：一个目录，包含所分析样本的质量控制（QC）指标。
    
*   **sample_metrics/coverage*** ：所处理样本的覆盖度指标。仅适用于 WGS 样本。
    
*   **sample_metrics/{sample}.txt.alignment_stat.txt**：来自 AlignmentStat 算法的比对统计指标。
    
*   **sample_metrics/{sample}.txt.base_distribution_by_cycle.txt**：来自 BaseDistributionByCycle 算法的碱基分布（按测序循环） 指标。
    
*   **sample_metrics/{sample}.txt.dedup_metrics.txt**：来自 Dedup 算法的去重指标。
    
*   **sample_metrics/{sample}.txt.gc_bias***：来自 GCBias 算法的 GC 偏好性指标。仅适用于 WGS 样本。
    
*   **sample_metrics/{sample}.txt.insert_size.txt**：来自 InsertSizeMetricAlgo 算法的插入片段大小指标。
    
*   **sample_metrics/{sample}.txt.mean_qual_by_cycle.txt**：来自 MeanQualityByCycle 算法的平均测序质量（按测序循环） 指标。
    
*   **sample_metrics/{sample}.txt.qual_distribution.txt**：来自 QualDistribution 算法的测序质量分布指标。
    
*   **sample_metrics/{sample}.txt.wgs.txt**：来自 WgsMetricsAlgo 算法的全基因组测序指标。仅适用于 WGS 样本。
    
*   **sample_metrics/{sample}.txt.hybrid-selection.txt**：来自 HsMetricAlgo 算法的杂交捕获相关指标。
    
*   **sample_metrics/multiqc_report.html**：由 MultiQC 工具汇总的综合性质量控制指标报告。

* * *

# 四、实际运行测试

本次测试以人类数据为例，下载 SRP329754 项目数据并进行 dnascope 分析流程，评估其在实际中的性能表现。

## 1.  服务器配置：

*   CPU 为 Intel(R) Xeon(R) Platinum 8358P CPU @ 2.60GHz 64 核心
    
*   内存为 512GB DDR4
    
*   系统为 Ubuntu 22.04.3 LTS

## 2.  软件下载安装

*   https://ftp.insvast.com/user/Sentieon/release/sentieon-genomics-202503.03.tar.gz （适配 X86 架构 CPU 服务器，例如 Intel､ AMD､ 曙光）  
    
*   https://ftp.insvast.com/user/Sentieon/release/arm-sentieon-genomics-202503.03.tar.gz （适配 ARM 架构 CPU 服务器， 例如华为鲲鹏､ 阿⾥倚天､ Ampere）

*   软件下载链接用户名：insvast；密码：Ins@1234

## 3.  参考基因组

本次分析采用 UCSC hg19 作为人类参考基因组：

https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF\_000001405.13\_GRCh37/GCF\_000001405.13\_GRCh37\_genomic.fna.gz

## 4.  分析运行

```
dnascope_wes.sh 210 ./210 /WES-test/data/210_R1.fastq.gz  /WES-test/data/210_R2.fastq.gz  /WES-test/refseq/hg19.fa raw keep  keep  2 /WES-test/refseq/MGI_Exome_Capture_V5_fixed.bed false

dnascope_wes.sh 69 ./69 /WES-test/data/69_R1.fastq.gz  /WES-test/data/69_R2.fastq.gz  /WES-test/refseq/hg19.fa raw keep  keep  2 /WES-test/refseq/MGI_Exome_Capture_V5_fixed.bed false
```

* * *

# 五、分析结果展示

## 1.  输出文件

![图片](/media/202604/2b2f74e0e6874c488071566fd0d15c781352.png)

## 2.  qc结果展示

| |S210|S69|
|--|--|--|
|[Total] Raw Reads (All reads)|174018654|175532558|
|[Total] QC Fail reads|0|0|
|[Total] Raw Data(Mb)|29513.66|29343.35|
|[Total] Paired Reads|139031504|147210368|
|[Total] Mapped Reads|173940344|175484524|
|[Total] Fraction of Mapped Reads|99.96%|99.97%|
|[Total] Mapped Data(Mb)|29501.94|29336.25|
|[Total] Fraction of Mapped Data(Mb)|99.96%|99.98%|
|[Total] Properly paired|133742970|144067426|
|[Total] Fraction of Properly paired|76.86%|82.07%|
|[Total] Read and mate paired|138931672|147150094|
|[Total] Fraction of Read and mate paired|79.84%|83.83%|
|[Total] Singletons|21522|12240|
|[Total] Read and mate map to diff chr|4557730|2596934|
|[Total] Read1|69515752|73605184|
|[Total] Read2|69515752|73605184|
|[Total] Read1(rmdup)|15761633|18869429|
|[Total] Read2(rmdup)|15761525|18869118|
|[Total] forward strand reads|89536187|88441568|
|[Total] backward strand reads|84404157|87042956|
|[Total] PCR duplicate reads|107430036|109423787|
|[Total] Fraction of PCR duplicate reads|61.76%|62.36%|
|[Total] Map quality cutoff value|20|20|
|[Total] MapQuality above cutoff reads|169946341|171121552|
|[Total] Fraction of MapQ reads in all reads|97.66%|97.49%|
|[Total] Fraction of MapQ reads in mapped reads|97.70%|97.51%|
|[Insert size] Average|288.32|300.24|
|[Insert size] Median|289|303|
|[Target] Target Reads|136622510|137462492|
|[Target] Fraction of Target Reads in all reads|78.51%|78.31%|
|[Target] Fraction of Target Reads in mapped reads|78.55%|78.33%|
|[Target] Target Data(Mb)|20336.51|20046.92|
|[Target] Target Data Rmdup(Mb)|9050.95|8545.6|
|[Target] Fraction of Target Data in all data|68.91%|68.32%|
|[Target] Fraction of Target Data in mapped data|68.93%|68.33%|
|[Target] Len of region|69059980|69059980|
|[Target] Average depth	|294.48	|290.28|
|[Target] Average depth(rmdup)|131.06|123.74|
|[Target] Coverage (>0.2*(Average depth)x)|93.56%|91.98%|
|[Target] Coverage (>0.5*(Average depth)x)|68.28%|67.77%|
|[Target] Coverage (>0x)|99.38%|99.25%|
|[Target] Coverage (>=4x)|99.10%|98.83%|
|[Target] Coverage (>=10x)|98.66%|97.99%|
|[Target] Coverage (>=30x)|97.20%|95.98%|
|[Target] Coverage (>=100x)|83.00%|81.46%  |

multiqc_report.html 界面展示：

![图片](/media/202604/b2c3e381cb324dafa163d120236dbf645555.png)

本次测试的 2 个人类样本数据产出稳定（单样本~ 8GB），有效率 >99.86% 且Q30 高达 93.7% 以上，测序质量与准确度极佳。GC含量（~ 43.1%）与插入片段分布表现出高度的样本间一致性，唯一比对率稳定在 99.9% 左右，证明文库质量优异，完全符合差异表达或变异检测等高标准下游分析要求。

## 3.  用时统计

||S210|S69|
|--|--|--|
|fastq文件质控时间（min）|3.7|3.65|
|DNAscope变异检测时间（min）|27.72|26.3|
|总时间（min）|31.43|29.95|

如果不需要sv结果可以在分析参数中指定 `--skip-svs`，能进一步压缩分析时间：

![](/media/202604/%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE%202026-04-16%20153816_20260416153950808400.jpg#size=100%&align=left)

在 64 核测试服务器上 16G 数据量的人类 WES 数据（294X）平均分析仅耗时 15.43 min，极大缩短了分析时间，加快科研成果转化。Sentieon 在不断的优化算法的运行效率，为科研工作者提供更快速、更经济的基因检测方案。

若您刚好有需要检测的数据，不妨来申请试用 Sentieon 吧！

**Sentieon-cli dnascope 官方文档：**

https://support.sentieon.com/docs/sentieon\_cli/#dnascope