Sentieon 中文手册（上册）

# 1 Sentieon简介

&emsp;&emsp;  Sentieon软件为完整的纯软件基因变异检测二级分析方案，其分析流程完全忠于BWA/GATK/MuTect2/STAR/ Minimap2/ Fgbio/picard等金标准的数学模型。在匹配开源流程分析结果的前提下，大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度，并匹配目前全部第二代、三代测序平台，对短读长NGS、长读长测序数据进行SNP/INDEL/SV分析。

![](/media/202510/640_20251030144917466785.jpg#size=100%&align=center)

<center>图1-1 Sentieon 基因组学软件</center>

&emsp;&emsp;  Sentieon为纯CPU计算加速软件，完全适配主流CPU计算架构：Intel、AMD、海光等X86架构CPU，华为鲲鹏、阿里倚天、Ampare、Apple Silicon等ARM架构CPU。可灵活部署在单机工作站、HPC集群、超算中心和云计算中心，保持同一套流程下不同规模数据计算结果的一致性。

&emsp;&emsp;  Sentieon软件团队拥有丰富的软件开发及算法优化工程经验，致力于解决生物数据分析中的速度与准确度瓶颈，为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案，共同推动基因技术的发展。

&emsp;&emsp;  截至2025年7月份，Sentieon已经在全球范围内为1860+用户提供服务，用户处理超过4980+PB数据量，被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用，引用次数超过1500篇。此外，Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠，在业内获得广泛认可。

---

# 2 Sentieon快速入门指南

本指南旨在帮助初次使用 Sentieon® 软件的用户快速上手。如果您有任何其他疑问，请通过 support@sentieon.com 联系 Sentieon® 公司的技术支持团队。

## 2.1 运行环境
### 2.1.1 硬件要求

Sentieon Genomics 软件专为 Linux 及其他符合 POSIX 标准的平台设计，确保了在高性能计算环境下的卓越兼容性。

对于 Linux 系统，我们建议使用具有以下配置的Linux服务器：
* 运行以下任一发行版或更高版本的 Linux 系统：RedHat/CentOS 6.5、Debian 7.7、OpenSUSE-13.2或Ubuntu-14.04。
  
* 处理小型Panel或全外显子组至少需要16GB内存，处理全基因组至少需要64GB内存。
* （推荐）首选高速SSD硬盘，以获得理想的I/O性能并实现CPU利用率的最大化。

### 2.1.2 软件要求
系统需要安装Python 2.6.x、Python 2.7.x或python3.x。您可以通过输入以下命令检查Python版本：

```
python --version    
```
                                                
### 2.1.3 Sentieon®软件发布包
从Sentieon技术支持提供的链接下载软件包。

- https://ftp.insvast.com/user/Sentieon/release/sentieon-genomics-202503.02.tar.gz
（适配X86架构CPU服务器，例如Intel､ AMD､ 曙光）

-  https://ftp.insvast.com/user/Sentieon/release/arm-sentieon-genomics-202503.02.tar.gz
（适配ARM架构CPU服务器， 例如华为鲲鹏､ 阿⾥倚天､ Ampere）

- 软件包下载链接用户名：insvast；密码：Ins@1234；

通过运行以下命令解压软件包，其中VERSION是您使用的版本，例如202503.02：

```
tar xvzf sentieon-genomics-VERSION.tar.gz             
```

### 2.1.4 授权许可（License）要求
Sentieon®软件是一个商用许可的软件。用户需要正确设置授权许可才能运行软件。我们提供两种类型的授权许可：
* **单机评估授权许可**：此类授权许可用于在单台机器上评估试用Sentieon®软件。它允许新用户在无需 IT 部门协助的情况下快速上手使用软件。要使用此类授权许可，计划运行Sentieon®软件的计算机需要具备外部Internet访问权限。
  
* **集群授权许可**：此类授权许可用于集群环境。使用此类授权许可，一个轻量级的浮动授权许可服务器进程在集群中的某个节点上运行，并通过TCP协议向所有其他与授权许可服务器有网络连接的节点提供授权服务。此类授权许可服务器通常在集群外围的一个特殊的非计算节点上运行，该节点可以通过HTTPS不受限制地访问外网，并通过监听集群内需要开放的特定TCP端口向集群中的其余节点提供授权。

#### （1）设置单机评估授权许可
要使用单机评估授权许可，计算节点需要能够访问Internet。以便Sentieon®软件验证授权许可。

要使用单机评估授权许可，请按照以下步骤操作：
1. 将授权许可文件复制到计算节点。例如，许可证文件LICENSE_FILE.lic现在位于LICENSE_DIR目录下。
   
1. 按如下方式设置环境变量：

```
export SENTIEON_LICENSE=LICENSE_DIR/LICENSE_FILE.lic   
```

#### （2）设置授权许可服务器
如图2-1所示，授权许可服务器需要满足以下条件：
1. 授权许可服务器应该能够访问Internet，以便执行授权许可验证。
   
3. 计算节点应该能够通过主机名`LICSRVR_HOST`访问授权许可服务器。
4. 运行许可证服务器的机器需要开放一个端口供授权许可服务进行监听，且计算节点可以访问该端口。这里我们假设可用端口是`LICSRVR_PORT`。

![](/media/202511/%E5%9B%BE_%E7%94%BB%E6%9D%BF%201_20251118170604505697.png#size=100%&align=center)

<center>图2-1  计算节点和授权许可服务器的拓扑结构</center>
<br>
您可能需要IT部门的支持来获取`LICSRVR_HOST：LICSRVR_PORT`参数，并确认已满足上述要求。

**注意：** 如果授权许可服务器位于防火墙后面，并通过NAT与计算节点分离，那么计算节点可见的授权许可服务器主机名/IP可能与实际主机名/IP不同。如果是这种情况，您需要将授权许可服务器绑定到实际IP地址上，而计算节点则需通过 NAT 后的 IP 地址请求授权许可。详情请联系 Sentieon 技术支持。

按照以下步骤获取授权许可文件，设置和测试授权许可服务器：
1. 将以下信息发送给sentieon@insvast.com以获取授权许可文件：
   
  * 指定运行授权许可服务的机器的FQDN（Hostname），即`LICSRVR_HOST`。
    
  * 指定的监听端口`LICSRVR_PORT`。
    
2. 将收到的授权许可文件复制到授权许可服务器`LICSRVR_HOST`上。我们假设授权许可文件位于`LICENSE_PATH/LICENSE_FILE`。在授权许可服务器上运行以下命令来启动授权许可服务器进程：

```
<SENTIEON_INSTALL_DIR>/bin/sentieon licsrvr --start --log LOG_FILE LICENSE_PATH/LICENSE_FILE
```

3. 或者，您可以按照 *“2.3设置许可为系统服务”* - 将授权许可服务器（LICSRVR）作为系统服务运行的说明，将授权许可服务器配置并作为系统守护进程启动。

5. 进入Sentieon®安装目录。在授权许可服务器上运行以下命令，以确认授权许可服务器已正常启动并运行。

```
<SENTIEON_INSTALL_DIR>/bin/sentieon licclnt ping -s LICSRVR_HOST:LICSRVR_PORT
```

如果命令返回时没有显示错误信息，则表明授权许可服务器已启动并成功运行。

5. 登录到其中一个计算节点，进入Sentieon®安装目录，再次运行上述命令：

```
<SENTIEON_INSTALL_DIR>/bin/sentieon licclnt ping -s LICSRVR_HOST:LICSRVR_PORT
```

如果该命令返回时没有显示错误信息，则表明计算节点现在也可以访问授权许可服务器了。

6. 设置以下环境变量，您就可以开始使用Sentieon了。

```
export SENTIEON_LICENSE=LICSRVR_HOST:LICSRVR_PORT
```

### 2.1.5 系统环境要求

- 如果Python 2.6.x、Python 2.7.x或python3.x不是默认Python版本，您可以设置以下环境变量：

```
export SENTIEON_PYTHON=Python_location
```

- 如果您使用本地许可证文件，请设置以下环境变量，其中LICENSE_DIR是许可证文件所在的目录，LICENSE_FILE.lic是许可证文件名：

```
export SENTIEON_LICENSE=LICENSE_DIR/LICENSE_FILE.lic  
```
    
- 如果您使用的是许可证服务器，请设置以下环境变量，其中LICSRVR_HOST和LICSRVR_PORT分别是许可证服务器的主机名和端口。详情请参阅下一节。

```
export SENTIEON_LICENSE=LICSRVR_HOST：LICSRVR_PORT
```

- 为方便调用，请按如下所示设置二进制程序路径，其PATH_TO_SENTIEON_BINARY_DIRECTORY是Sentieon®二进制文件的安装目录：

```
Export SENTIEON_INSTALL_DIR=PATH_TO_SENTIEON_BINARY_DIRECTORY
```

- 在使用NFS（网络文件系统）存储时，为提升性能，请将SENTIEON_TMPDIR环境变量设置为指向本地的高速暂存盘：

```
export SENTIEON_TMPDIR=/tmp
```

## 2.2 首次运行作业

我们提供了一个快速入门包，其中包含示例脚本和数据，以帮助您快速测试安装并诊断潜在问题。

quikstart演示项目链接：
[https://ftp.insvast.com/sentieon\_quickstart.tar.gz](https://ftp.insvast.com/sentieon_quickstart.tar.gz)

快速入门包包含单个染色体的数据，包括样本的序列数据和参考材料。该任务脚本使用Sentieon DNAscope流程处理一组双端Illumina fastq文件，具体步骤包括：
* BWA：将读段比对到参考基因组。
  
* Metrics和LocusCollector：收集读段的统计信息。
* Dedup：重复序列标记（去重）。
* Variant calling：使用DNAscope进行变异检测。

**注意：** DNAscope仅推荐用于二倍体生物的样本。对于其他类型的样本，请使用DNAseq流程。

### 2.2.1运行快速入门包

开始使用前，请将下载的快速入门包复制到一个新目录，并通过运行以下命令进行解压：

```
tar xzvf sentieon_quickstart.tar.gz
```

该软件包中包含以下内容：
* sentieon_quickstart.sh: 驱动整个流程的示例shell脚本。
  
* reference: 包含人类基因组参考文件和已知SNP位点数据库文件的目录。
* models: 包含DNAscope模型文件的目录。
* FASTQ files: 样本序列文件。

在运行脚本之前，您需要确保已正确设置了上述环境变量，包括授权许可和软件路径。

然后使用您喜欢的编辑器修改sentieon_quickstart.sh中的用户设置部分：

```

# Update with the location of the Sentieon software package
SENTIEON_INSTALL_DIR=/home/release/sentieon-genomics-202503.02

# Update with the location of temporary fast storage and uncomment
#SENTIEON_TMPDIR=/tmp

# It is important to assign meaningful names in actual cases.
# It is particularly important to assign different read group names.
sample="sample_name"
group="read_group_name"
platform="ILLUMINA"

# Other settings
nt=16 #number of threads to use in computation

# Is the data prepared with a PCR free library prep
PCRFREE=true
```

**注意：** 在用户设置脚本 `sentieon_quickstart.sh` 中：

* 在实际情况下，指定具有明确意义的名称非常重要。
 
* 为不同的数据指定不同的读组名称尤为重要。

用户可以运行以下 `nproc` 命令来获取系统可用的 CPU 核心数：

```
nproc
```

为了更好地理解`sentieon_quickstart.sh`脚本的其余部分，请阅读每个部分的注释以及手册中的相应章节。

现在，只需运行`sentieon_quickstart.sh`来启动脚本，并观察结果生成。在典型的Linux服务器上，整个运行过程大约需要3-5分钟。实际耗时则取决于您的计算环境。

```
sh sentieon_quickstart.sh &
```

### 2.2.2 首次运行作业的输出文件

下是输出文件列表、其代表的含义及参考说明。更多详情请参阅完整文档。

## 2.3 设置许可为系统服务

### 2.3.1 使用 sysvinit 将许可证服务器作为系统服务运行

如果您的系统遵循传统的 System V启动脚本，您可以通过以 root 身份运行以下命令来设置许可证服务器在系统中自动启动：

1. 创建并自定义配置文件；配置文件通常为 /etc/sysconfig/licsrvr；但在 Ubuntu 中，配置文件将是 /etc/default/licsrvr。以下是配置文件的示例，使用推荐的用户名 sentieon 设置：
- /home/sentieon/release/latest 是指向最新 Sentieon® 软件包安装目录的符号链接
- /home/sentieon/licsrvr 是运行 licsrvr 服务的文件夹
- /home/sentieon/licsrvr/licsrvr.lic 是 Sentieon® 许可证文件

```
licsrvr="/home/sentieon/release/latest/bin/sentieon licsrvr"
licfile=/home/sentieon/licsrvr/licsrvr.lic
logfile=/home/sentieon/licsrvr/licsrvr.log
```

2. 将许可证服务器启动脚本安装到 /etc/init.d 目录中。启动脚本包含在发布包中。

```
install -m 0755 $SENTIEON_INSTALL_DIR/doc/licsrvr.sh /etc/init.d/licsrvr
```

3. 安装并启用服务。根据您的系统，您将运行不同的命令：
   
- 如果您的系统安装了 Linux 标准基础核心规范，执行系统 init 脚本安装脚本。

```
/usr/lib/lsb/install_initd /etc/init.d/licsrvr
```

- 如果您的系统未安装 lsb 一致性包，使用 chkconfig 命令启用服务。

```
chkconfig --add licsrvr
chkconfig licsrvr on
```

- 对于 Ubuntu 和 Debian 系统，如果您没有 lsb/install_initd 二进制文件并选择不安装 lsb-core 包，使用 update-rc.d 命令安装并启用服务。

```
update-rc.d licsrvr defaults
update-rc.d licsrvr enable
```

4.  您可以使用 service 命令来启动/停止/重启/检查服务状态。

```
service licsrvr [start|stop|restart|status]
```

### 2.3.2 使用 systemd 将许可证服务器作为系统服务运行

您可以使用操作系统的 systemd 系统和服务功能来设置许可证服务器在系统中自动启动。为此，以 root 身份运行以下命令：
1. 如果您使用 Sentieon® 软件发布包的 doc 文件夹中的 licsrvr.service 许可证服务器启动脚本，您需要创建脚本所需的必要文件，包括使用用户名 sentieon：
   
* /home/sentieon/release/latest 是指向最新 Sentieon® 软件包安装目录的符号链接
  
* /home/sentieon/licsrvr 是运行 licsrvr 服务的文件夹
* /home/sentieon/licsrvr/licsrvr.lic 是 Sentieon® 许可证文件

或者，您可以编辑许可证服务器启动脚本以指向您特定的用户名和/或文件位置信息。

2. 将许可证服务器启动脚本安装到 /etc/systemd/system 目录中。

```
install -m 0644 $SENTIEON_INSTALL_DIR/doc/licsrvr.service /etc/systemd/system
```

3. 运行以下命令以启用计算机启动时自动启动许可证服务器：

```
systemctl enable licsrvr.service
```

4. 您可以使用 systemctl 命令手动启动和停止服务。

```
systemctl start licsrvr.service
systemctl stop licsrvr.service
```

---

# 3 Sentieon工具集

下表展示了 Sentieon® 的不同产品系列、工具及其用途。同时，表中还注明了各工具是否实现了与现有 GATK 流程工具等效的功能。

## 3.1 Sentieon工具列表

|Sentieon®产品|	Sentieon®工具|	典型用途|	等效的GATK流程工具|
| --- | --- | --- |--- |
|Sentieon® BWA	|Sentieon® BWA|	读段比对和映射	|BWA|
|DNAscope|	DNAscope	|改进的胚系SNV/Indel/SV检测|	-|
|DNAseq® |	Genotyper|	胚系SNV/Indel检测，基于非单倍型的算法	|UnifiedGenotyper|
|DNAseq®|	Haplotyper |	胚系SNV/Indel检测	| HaplotypeCaller | 
|DNAseq®	| GVCFtyper	| 群体联合分型，已验证可支持多达200，000个样本|	GenotypeGVCFs|
|DNAseq®	|VarCal	| 计算变异质量分数重校准	| VariantRecalibrator |
|DNAseq®	| ApplyVarCal|	应用变异质量分数重校准 | ApplyRecalibration|
|RNAseq|	RNASplitReadsAtJunction	| RNA SNV/Indel检测	|SplitNCigarReads |
| RNAseq	| Haplotyper	| RNA SNV/Indel检测| 	HaplotypeCaller|
|TNseq®|	TNsnv	|体细胞SNV检测，基于非单倍型的算法	|MuTect|
|TNseq®|	TNhaplotyper	|体细胞SNV/Indel检测|	MuTect2|
|TNseq®	|TNhaplotyper2 + TNfilter	|体细胞SNV/Indel检测|	GATK4中的Mutect2和FilterMutectCalls|
|TNscope®	|TNscope®	|改进的体细胞SNV/Indel/SV检测|	-|
|通用工具|	Dedup和LocusCollector	|执行重复序列标记/去重|	Picard MarkDuplicates|
|通用工具|	Realigner	|为基于非单倍型算法的变异检测工具执行Indel重比对|	RealignerTargetCreator和IndelRealigner|
|通用工具	|QualCal	|执行碱基质量分数重校准	|BaseRecalibrator、 AnalyzeCovariates|
|通用工具|	ReadWriter|	生成BAM文件|	PrintReads|
|通用工具	|AlignmentStat|	QC指标	|Picard CollectAlignmentSummaryMetrics|
|通用工具	|BaseDistributionByCycle|	QC指标	|Picard CollectBaseDistributionByCycle|
|通用工具	|CollectVCMetrics	|QC指标|	Picard CollectVariantCallingMetrics|
|通用工具|	ContaminationAssessment|	QC指标|	ContEst|
|通用工具|	CoverageMetrics	|QC指标|	DepthOfCoverage|
|通用工具|	GCBias|	QC指标|	Picard CollectGcBiasMetrics|
|通用工具|	HsMetricAlgo	|QC指标	|Picard CollectHsMetrics|
|通用工具|	InsertSizeMetricAlgo	|QC指标|	Picard CollectInsertSizeMetrics|
|通用工具	|MeanQualityByCycle|	QC指标|	Picard MeanQualityByCycle|
|通用工具	|QualDistribution	|QC指标	|Picard QualityScoreDistribution|
|通用工具	|QualityYield	|QC指标|	Picard CollectQualityYieldMetrics
|通用工具|	SequenceArtifactMetricsAlgo	|QC指标|	PicardCollectSequencingArtifactMetric， ConvertSequencingArtifactToOxoG|
|通用工具|	WgsMetricsAlgo	|QC指标	|PicardCollectWgsMetrics|

---

# 4 Sentieon典型工作流程
## 4.1 DNAseq® 
Sentieon® Genomics软件的一个典型用途，是执行Broad研究所最佳实践中推荐的DNA分析生物信息学流程，详见https://www.broadinstitute.org/gatk/guide/best-practices 。图4-1展示了这样一个典型的生物信息学流程。

![](/media/202511/dc5806717eb748e19052d0a486a498882943.png#align=center)

<center>图4-1  推荐的 DNA 变异检测分析的生物信息学流程</center>

### 4.1.1 概述

在这个生信分析流程中，您需要准备以下输入文件：

- FASTA文件：包含与您将分析的样本相对应的参考基因组核苷酸序列。参考数据需要进行预处理，以便软件可以使用*表4-1参考核苷酸序列的数据要求*中指定的数据。您可以参考"准备参考文件以供使用"的说明来了解如何生成所需的文件。

<center>表 4-1 参考核苷酸序列的数据要求</center>

![](/media/202511/b1a47c7967d74eb6b96422cb9e7bb9dd9610.png#align=center)

- FASTQ文件：一个或多个包含待分析样本核苷酸序列的文件。这些文件包含来自DNA测序的原始读数。软件支持输入使用GZIP压缩的FASTQ文件。软件仅支持包含Sanger格式（Phred+33）质量分数的文件。
- （可选）您希望包含在流程中的单核苷酸多态性数据库（dbSNP）数据。数据以 VCF 文件的形式使用；您可以使用经过 bgzip 压缩并建立索引的 VCF 文件。
  
- （可选）您希望包含在流程中的多个已知位点集合。数据以VCF文件的形式使用；您可以使用经过bgzip压缩并索引的VCF文件。
  
典型的生信分析流程包括以下步骤：

1. 将读数映射到参考基因组：此步骤将 FASTQ 文件中的读段比对并映射到 FASTA 文件中的参考基因组上。该步骤确保了数据能够被置于基因组上下文背景中（确定其位置）。

2. 计算数据指标：此步骤生成关于数据质量和流程分析质量的统计摘要。
3. 去除或标记重复序列：此步骤检测表明同一DNA分子被多次测序的读数。这些重复序列不具有信息性，不应作为额外的证据进行计数。
4. （可选）碱基质量分数重校准（BQSR）：此步骤修正测序读段数据中单个碱基的质量分数。此操作可消除由测序方法学产生的实验偏好性。

6. 变异检测：此步骤识别数据中相对于参考基因组出现变异的位点，并计算每个样本在这些位点上的基因型。

### 4.1.2 DNAseq®使用步骤

#### （1）将读数映射到参考基因组

运行单个命令以高效地使用BWA执行比对，以及使用Sentieon®软件创建BAM文件并进行排序：

```
(sentieon bwa mem -R '@RG\tID:GROUP_NAME\tSM:SAMPLE_NAME\tPL:PLATFORM' \
  -t NUMBER_THREADS REFERENCE FASTQ [FASTQ2] || echo -n 'error' ) \
  | sentieon util sort -r REFERENCE -o SORTED_BAM -t NUMBER_THREADS --sam2bam -i -
```

BWA的输入和选项在手册中有详细说明。

此外，您也可以使用其他能在`stdout`中生成遵循SAM格式的文件的比对器，并替换命令中的BWA部分。

运行该命令需要以下输入参数：

- `GROUP_NAME`：将添加到读组头行的读组标识符。RG：ID在所有您计划使用的所有数据集中必须是唯一的，这在处理多个输入文件或执行肿瘤-正常对照分析时尤为重要。
  
- `SAMPLE_NAME`：将添加到读组头行的样本名称。

- `PLATFORM`：用于测序DNA的测序平台名称。可能的选项有：ILLUMINA（当fastq文件在Illumina™机器上产生时）；IONTORRENT（当fastq文件在Life Technologies™ Ion-Torrent™机器上产生时）；ELEMENT（当fastq文件在Element Biosciences™机器上产生时）；DNBSEQ（当fastq文件在MGI™机器上产生时）；ULTIMA（当fastq文件在Ultima Genomics™机器上产生时）。
- `NUMBER_THREADS`：计算中使用的线程数。我们建议该数量不要超过系统中可用的计算核心数。我们建议BWA和util二进制文件使用相同数量的线程。
- `REFERENCE`：参考FASTA文件的路径。您应确保*表4-1*中指定的所有额外参考数据都在同一位置，并具有一致的命名。
- `FASTQ`：样本FASTQ文件的路径。如果数据来自双端测序技术，您还需要输入FASTQ2作为相应的配对样本FASTQ文件。
- `SORTED_BAM`：映射并排序后的 BAM 输出文件的路径和文件名。系统将同时创建一个对应的索引文件（.bai）。

BWA会根据命令中使用的线程数产生略微不同的比对结果。这是因为 BWA 是基于数据块来计算插入片段大小分布的，而数据块的大小取决于线程数。为了保证结果与使用的线程数无关，您应该使用选项`-K 10000000`来固定数据块大小（以碱基为单位）。

#### （2）计算数据指标

运行单条命令以生成5项关于数据质量和流程分析质量结果的统计摘要：

```
sentieon driver -t NUMBER_THREADS -r REFERENCE -i SORTED_BAM \
  --algo GCBias --summary GC_SUMMARY_TXT GC_METRIC_TXT \
  --algo MeanQualityByCycle MQ_METRIC_TXT \
  --algo QualDistribution QD_METRIC_TXT \
  --algo InsertSizeMetricAlgo IS_METRIC_TXT \
  --algo AlignmentStat ALN_METRIC_TXT
```

运行以下四条命令以从统计摘要中生成图表：

```
sentieon plot GCBias -o GC_METRIC_PDF GC_METRIC_TXT
sentieon plot MeanQualityByCycle -o MQ_METRIC_PDF MQ_METRIC_TXT
sentieon plot QualDistribution -o QD_METRIC_PDF QD_METRIC_TXT
sentieon plot InsertSizeMetricAlgo -o IS_METRIC_PDF IS_METRIC_TXT
```

这些命令需要以下输入参数：

- `NUMBER_THREADS`：计算中将使用的线程数。建议该数量不要超过系统中可用的计算核心数。
  
- `REFERENCE`：参考FASTA文件的路径。需确保参考序列与映射阶段使用的完全一致。
- `SORTED_BAM`：前一个映射阶段存储结果的路径。
- `GC_SUMMARY_TXT`：GC偏差指标摘要结果输出文件的路径和文件名。
- `GC_METRIC_TXT`：GC偏差指标结果输出文件的路径和文件名。
- `MQ_METRIC_TXT`：映射质量指标结果输出文件的路径和文件名。
- `QD_METRIC_TXT`：质量/深度指标结果输出文件的路径和文件名。
- `IS_METRIC_TXT`：插入片段大小指标结果输出文件的路径和文件名。
- `ALN_METRIC_TXT`：比对指标结果输出文件的路径和文件名。
- `GC_METRIC_PDF`：GC偏差指标报告输出文件的路径和文件名。
- `MQ_METRIC_PDF`：映射质量指标报告输出文件的路径和文件名。
- `QD_METRIC_PDF`：质量/深度指标报告输出文件的路径和文件名。
- `IS_METRIC_PDF`：插入片段大小指标报告输出文件的路径和文件名。

#### （3）去除或标记重复序列

在比对和排序完成后，通过两条独立命令对 BAM 文件执行重复序列的移除或标记。第一条命令收集 读段信息，第二条命令执行去重；`--rmdup` 选项控制是直接移除重复读段还是仅将其标记为重复。

```
sentieon driver -t NUMBER_THREADS -i SORTED_BAM \
  --algo LocusCollector --fun score_info SCORE.gz
sentieon driver -t NUMBER_THREADS -i SORTED_BAM \
  --algo Dedup [--rmdup] --score_info SCORE.gz \
  --metrics DEDUP_METRIC_TXT DEDUPED_BAM
```

这些命令需要以下输入参数：
- `NUMBER_THREADS`：计算中将使用的线程数。我们建议该数量不要超过系统中可用的计算核心数。
 
- `SORTED_BAM`：前一个映射阶段存储结果的路径。
- `SCORE.gz`：临时分值输出文件的路径和文件名。务必确保两条命令使用的是同一个文件。
- `DEDUP_METRICS_TXT`：去重指标结果输出文件的路径和文件名。
- `DEDUPED_BAM`：去重BAM输出文件的路径和文件名。系统将创建相应的索引文件（.bai）。

#### （4）碱基质量分数重校准（BQSR；可选）

运行单条命令来计算序列测序数据中单个碱基质量分数所需的修正值；实际的重校准应用将在变异检测阶段执行。

```
sentieon driver -t NUMBER_THREADS -r REFERENCE \
  -i DEDUPED_BAM --algo QualCal [-k KNOWN_SITES] RECAL_DATA.TABLE
```

运行三条命令来应用重校准并生成碱基质量分数重校准的报告。第一条命令应用重校准以计算校准后的数据表，并额外对BAM文件执行重校准；第二条命令生成用于绘图的数据；第三条命令将校准前后的数据表绘制成PDF中的图表。

```
sentieon driver -t NUMBER_THREADS -r REFERENCE -i DEDUPED_BAM \
  -q RECAL_DATA.TABLE --algo QualCal [-k KNOWN_SITES] \
  RECAL_DATA.TABLE.POST [--algo ReadWriter RECALIBRATED_BAM]
sentieon driver -t NUMBER_THREADS --algo QualCal --plot \
  --before RECAL_DATA.TABLE --after RECAL_DATA.TABLE.POST RECAL_RESULT.CSV
sentieon plot QualCal -o BQSR_PDF RECAL_RESULT.CSV
```

这些命令需要以下输入参数：

- `NUMBER_THREADS`：计算中将使用的线程数。我们建议该数量不要超过系统中可用的计算核心数。
 
- `REFERENCE`：参考FASTA文件的路径及文件名。需确保参考序列与映射阶段使用的完全一致。
- `DEDUPED_BAM`：前一去重阶段存储结果的路径和文件名。
- `RECAL_DATA.TABLE`：重校准表的路径和文件名。
- `RECAL_DATA.TABLE.POST`：生成的临时校准后重校准表的路径和文件名。
- `RECAL_RESULT.CSV`：用于绘图的临时重校准结果输出文件的路径和文件名。
- `BQSR_PDF`：BSQR结果输出文件的路径和文件名。
  
以下输入是可选的参数：

- `KNOWN_SITES`：用作已知位点集合的VCF文件的路径及文件。您可以通过重复使用`-k KNOWN_SITES`选项来包含多个已知位点集合。

- `RECALIBRATED_BAM`：重校准BAM输出文件的路径和文件名。系统将创建相应的索引文件（.bai）。这个输出是可选的，因为Sentieon®变异检测工具可以使用重校准前的BAM文件配合重校准表，实时执行重校准。

#### （5）变异检测

运行单条命令来检测变异，并同时应用此前计算得到的BQSR。

```
sentieon driver -t NUMBER_THREADS -r REFERENCE -i DEDUPED_BAM \
  -q RECAL_DATA.TABLE --algo Haplotyper [-d dbSNP] VARIANT_VCF
```

您可能只想重新运行变异检测，例如使用Genotyper（基于位点算法，等效于 Unified Genotyper）变异检测算法。在这种情况下，您不需要重新应用BQSR，可以直接使用之前生成的已重校准的BAM文件：

```
sentieon driver -t NUMBER_THREADS -r REFERENCE -i RECALIBRATED_BAM \
  --algo Genotyper [-d dbSNP] VARIANT_VCF
```

在这两种情况下，使用重校准的BAM或重校准前的BAM加上重校准数据表，都会得到相同的结果；但是，您应当注意不要将重校准数据表与已经重校准过的BAM一起使用，因为这会导致重校准被应用两次，从而导致不正确的结果。

这些命令需要以下输入参数：

* `NUMBER_THREADS`：计算中将使用的线程数。我们建议该数量不要超过系统中可用的计算核心数。
  
* `REFERENCE`：参考FASTA文件的路径及文件名。需确保参考序列与映射阶段使用的完全一致。
* `DEDUPED_BAM`：前一去重阶段存储结果的路径和文件名。
* `RECAL_DATA.TABLE`：前一个BQSR阶段存储结果的路径和文件名。
* `RECALIBRATED_BAM`：已重校准BAM文件的路径。
* `VARIANT_VCF`：变异检测输出文件的路径和文件名。系统将创建相应的索引文件。如果使用 `.gz` 扩展名，工具将输出压缩文件。

以下输入是可选的：

* `dbSNP`：将用于标记已知变异的单核苷酸多态性数据库（dbSNP）的路径和文件名。您只能使用一个dbSNP文件。

### 4.1.3 DNAseq® CCDG标准分析脚本

以下是遵循CCDG标准化流程的DNA测序的Sentieon DNAseq分析脚本示例：

```
#!/bin/sh

# *********************************************************************************
# Script to perform DNA seq variant calling using Sentieon following
# the functional equivalent pipeline described in
# https://github.com/CCDG/Pipeline-Standardization/blob/master/PipelineStandard.md
# *********************************************************************************

set -eu

# Update with the fullpath location of your sample FASTQ
SM="sample" #sample name
RGID="rg_$SM" #read group ID
PL="ILLUMINA" #or other sequencing platform
FASTQ_1="${SM}_r1.fastq.gz"
FASTQ_2="${SM}_r2.fastq.gz" #if using 2 FASTQ inputs

# Update with the location of the reference data files
FASTA_DIR="/home/regression/references/hg38bundle"
FASTA="$FASTA_DIR/Homo_sapiens_assembly38.fasta"
KNOWN_DBSNP="$FASTA_DIR/Homo_sapiens_assembly38.dbsnp138.vcf.gz"
KNOWN_INDELS="$FASTA_DIR/Homo_sapiens_assembly38.known_indels.vcf.gz"
KNOWN_MILLS="$FASTA_DIR/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz"

# Update with the location of the Sentieon software package and license file
SENTIEON_INSTALL_DIR=/home/release/sentieon-genomics-|release_version|
export SENTIEON_LICENSE=/home/Licenses/Sentieon.lic #or using licsrvr: c1n11.sentieon.com:5443

# Other settings
NT=$(nproc) #number of threads to use in computation
SAMBLASTER=/home/release/other_tools/samblaster-0.1.23/samblaster
START_DIR="$PWD/test/CCDG" #Determine where the output files will be stored

# You do not need to modify any of the lines below unless you want to tweak the pipeline

# ************************************************************************************************************************************************************************

# ******************************************
# 0. Setup
# ******************************************
WORKDIR="$START_DIR/${SM}" 
mkdir -p $WORKDIR
LOGFILE=$WORKDIR/run.log
exec >$LOGFILE 2>&1
cd $WORKDIR

# ******************************************
# 1. Mapping BWA-MEM 0.7.15 util sort
# ******************************************
SENTIEON_VERSION=$($SENTIEON_INSTALL_DIR/bin/sentieon driver --version)
if (( $(echo "${SENTIEON_VERSION##*-} < 201911" |bc -l) )); then
        ( $SENTIEON_INSTALL_DIR/bin/sentieon bwa mem -R "@RG\tID:$RGID\tSM:$SM\tPL:$PL" -t $NT \
            -K 100000000 -Y $FASTA $FASTQ_1 $FASTQ_2 || { echo -n 'bwa error'; exit 1; } ) | \
            ( $SAMBLASTER --addMateTags -a || { echo -n 'samblaster error'; exit 1; } ) | \
        $SENTIEON_INSTALL_DIR/bin/sentieon util sort -r $FASTA -o sorted.bam -t $NT --sam2bam -i -
else
        #Sentieon 201911 and higher use BWA 0.7.17, which already produce MC tags in the output
        ( $SENTIEON_INSTALL_DIR/bin/sentieon bwa mem -R "@RG\tID:$RGID\tSM:$SM\tPL:$PL" -t $NT \
            -K 100000000 -Y $FASTA $FASTQ_1 $FASTQ_2 || { echo -n 'error'; exit 1; } ) | \
        $SENTIEON_INSTALL_DIR/bin/sentieon util sort -r $FASTA -o sorted.bam -t $NT --sam2bam -i -
fi

# ******************************************
# 2. Mark Duplicates with Sentieon
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -t $NT -i sorted.bam --algo LocusCollector \
    --fun score_info score.txt || { echo "LocusCollector failed"; exit 1; }

$SENTIEON_INSTALL_DIR/bin/sentieon driver -t $NT -i sorted.bam --algo Dedup --score_info score.txt \
   --metrics mark_dup_metrics.txt --output_dup_read_name tmp_dup_qname.txt || \
   { echo "Dedup1 failed"; exit 1; }

$SENTIEON_INSTALL_DIR/bin/sentieon driver -t $NT -i sorted.bam --algo Dedup \
   --dup_read_name tmp_dup_qname.txt markduped.bam || { echo "Dedup2 failed"; exit 1; }

# ******************************************
# 3. Base Quality Score Recalibration with Sentieon
# ******************************************
interval_arg="--interval chr1,chr2,chr3,chr4,chr5,chr6,chr7,chr8,chr9,chr10,chr11,\
chr12,chr13,chr14,chr15,chr16,chr17,chr18,chr19,chr20,chr21,chr22"
$SENTIEON_INSTALL_DIR/bin/sentieon driver $interval_arg -r $FASTA -t $NT -i markduped.bam \
   --algo QualCal -k $KNOWN_MILLS -k $KNOWN_INDELS -k $KNOWN_DBSNP recal_data.table || \
   { echo "QualCal failed"; exit 1; }

$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT -i markduped.bam \
   --read_filter QualCalFilter,table=recal_data.table,prior=-1.0,indel=false,levels=10/20/30,min_qual=6 \
   --algo ReadWriter recaled_RW.cram || { echo "ReadWriter failed"; exit 1; }

# ******************************************
# 4. Haplotyper with Sentieon
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT -i recaled_RW.cram --algo Haplotyper \
    Haplotyper.vcf.gz || { echo "Haplotyper failed"; exit 1; }
```

### 4.1.4 DNAseq® 多样本FASTQ分析脚本

以下是Sentieon DNAseq用于处理单个样本多组fastq文件的分析脚本示例：

```
#!/bin/sh

# *******************************************
# Script to perform DNA seq variant calling
# using a single sample with more than one
# set of input fastq files (in this example
# named set1_1.fastq.gz, set2_1.fastq.gz
# set3_1.fastq.gz and set4_1.fastq.gz)
# *******************************************

set -eu

# Update with the fullpath location of your sample fastq
SM="sample" #sample name
RGID_PREFIX="rg_$SM" #read group ID
PL="ILLUMINA" #or other sequencing platform
FASTQ_FOLDER="/home/pipeline/samples"
NUM_SETS="4"
FASTQ_PREFIX="set"
FASTQ_SUFFIX_1="_1.fastq.gz"
FASTQ_SUFFIX_2="_2.fastq.gz" #If using Illumina paired data

# Update with the location of the reference data files
FASTA_DIR="/home/regression/references/b37/"
FASTA="$FASTA_DIR/human_g1k_v37_decoy.fasta"
KNOWN_DBSNP="$FASTA_DIR/dbsnp_138.b37.vcf.gz"
KNOWN_INDELS="$FASTA_DIR/1000G_phase1.indels.b37.vcf.gz"
KNOWN_MILLS="$FASTA_DIR/Mills_and_1000G_gold_standard.indels.b37.vcf.gz"

# Update with the location of the Sentieon software package and license file
SENTIEON_INSTALL_DIR=/home/release/sentieon-genomics-|release_version|
export SENTIEON_LICENSE=/home/Licenses/Sentieon.lic #or using licsrvr: c1n11.sentieon.com:5443

# Other settings
NT=$(nproc) #number of threads to use in computation, set to number of cores in the server
START_DIR="$PWD/test/DNAseq_multiFASTQ" #Determine where the output files will be stored

# You do not need to modify any of the lines below unless you want to tweak the pipeline

# ************************************************************************************************************************************************************************

# ******************************************
# 0. Setup
# ******************************************
WORKDIR="$START_DIR"
mkdir -p $WORKDIR
LOGFILE=$WORKDIR/run.log
exec >$LOGFILE 2>&1
cd $WORKDIR

# ******************************************
# 1. Mapping each set of input fastq with BWA-MEM, sorting
# ******************************************
#The results of this call are dependent on the number of threads used. To have number of threads independent results, add chunk size option -K 10000000 
BAM_INPUT=""
for i in $(seq 1 $NUM_SETS); do
 BAM_INPUT="$BAM_INPUT -i sorted_set$i.bam"
 ( $SENTIEON_INSTALL_DIR/bin/sentieon bwa mem \
     -R "@RG\tID:${RGID_PREFIX}_$i\tSM:$SM\tPL:$PL" -t $NT -K 10000000 $FASTA \
     $FASTQ_FOLDER/$FASTQ_PREFIX$i$FASTQ_SUFFIX_1 \
     $FASTQ_FOLDER/$FASTQ_PREFIX$i$FASTQ_SUFFIX_2 || { echo -n 'bwa error'; exit 1; } ) | \
     $SENTIEON_INSTALL_DIR/bin/sentieon util sort -r $FASTA -o sorted_set$i.bam \
     -t $NT --sam2bam -i - || { echo "Alignment failed"; exit 1; }
done

# ******************************************
# 2. Metrics on the multiple sorted BAM files
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT $BAM_INPUT \
    --algo MeanQualityByCycle mq_metrics.txt --algo QualDistribution qd_metrics.txt \
    --algo GCBias --summary gc_summary.txt gc_metrics.txt --algo AlignmentStat \
    --adapter_seq '' aln_metrics.txt --algo InsertSizeMetricAlgo is_metrics.txt || \
    { echo "Metrics failed"; exit 1; }

$SENTIEON_INSTALL_DIR/bin/sentieon plot GCBias -o gc-report.pdf gc_metrics.txt
$SENTIEON_INSTALL_DIR/bin/sentieon plot QualDistribution -o qd-report.pdf qd_metrics.txt
$SENTIEON_INSTALL_DIR/bin/sentieon plot MeanQualityByCycle -o mq-report.pdf mq_metrics.txt
$SENTIEON_INSTALL_DIR/bin/sentieon plot InsertSizeMetricAlgo -o is-report.pdf is_metrics.txt

# ******************************************
# 3. Remove Duplicate Reads. It is possible
# to remove instead of mark duplicates
# by adding the --rmdup option in Dedup
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -t $NT $BAM_INPUT --algo LocusCollector \
    --fun score_info score.txt || { echo "LocusCollector failed"; exit 1; }

$SENTIEON_INSTALL_DIR/bin/sentieon driver -t $NT $BAM_INPUT --algo Dedup \
    --score_info score.txt --metrics dedup_metrics.txt deduped.bam || \
    { echo "Dedup failed"; exit 1; }

# ******************************************
# 2a. Coverage metrics
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT -i deduped.bam \
    --algo CoverageMetrics coverage_metrics || { echo "CoverageMetrics failed"; exit 1; }

# ******************************************
# 5. Base recalibration
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT -i deduped.bam --algo QualCal \
    -k $KNOWN_DBSNP -k $KNOWN_MILLS -k $KNOWN_INDELS recal_data.table
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT -i deduped.bam -q recal_data.table \
    --algo QualCal -k $KNOWN_DBSNP -k $KNOWN_MILLS -k $KNOWN_INDELS recal_data.table.post
$SENTIEON_INSTALL_DIR/bin/sentieon driver -t $NT --algo QualCal --plot \
    --before recal_data.table --after recal_data.table.post recal.csv
$SENTIEON_INSTALL_DIR/bin/sentieon plot QualCal -o recal_plots.pdf recal.csv

# ******************************************
# 6b. HC Variant caller
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT -i deduped.bam -q recal_data.table \
    --algo Haplotyper -d $KNOWN_DBSNP output-hc.vcf.gz || { echo "Haplotyper failed"; exit 1; }

```

### 4.1.5 DNAseq® 全外显子测序分析脚本

以下是Sentieon DNAseq在全外显子测序（WES）中的分析脚本示例：

```
#!/bin/sh

# *******************************************
# Script to perform DNA seq variant calling
# using an exome sample with fastq files
# named 1.fastq.gz and 2.fastq.gz
# *******************************************

set -eu

# Update with the fullpath location of your sample fastq
SM="sample" #sample name
RGID="rg_$SM" #read group ID
PL="ILLUMINA" #or other sequencing platform
FASTQ_FOLDER="/home/pipeline/samples"
FASTQ_1="$FASTQ_FOLDER/1.fastq.gz"
FASTQ_2="$FASTQ_FOLDER/2.fastq.gz" #If using Illumina paired data

# Update with the location of the reference data files
FASTA_DIR="/home/regression/references/b37/"
FASTA="$FASTA_DIR/human_g1k_v37_decoy.fasta"
KNOWN_DBSNP="$FASTA_DIR/dbsnp_138.b37.vcf.gz"
KNOWN_INDELS="$FASTA_DIR/1000G_phase1.indels.b37.vcf.gz"
KNOWN_MILLS="$FASTA_DIR/Mills_and_1000G_gold_standard.indels.b37.vcf.gz"
INTERVAL_FILE="$FASTA_DIR/TruSeq_exome_targeted_regions.b37.bed"

# Update with the location of the Sentieon software package and license file
SENTIEON_INSTALL_DIR=/home/release/sentieon-genomics-|release_version|
export SENTIEON_LICENSE=/home/Licenses/Sentieon.lic #or using licsrvr: c1n11.sentieon.com:5443

# Other settings
NT=$(nproc) #number of threads to use in computation, set to number of cores in the server
START_DIR="$PWD/test/DNAseq_interval" #Determine where the output files will be stored

# You do not need to modify any of the lines below unless you want to tweak the pipeline

# ************************************************************************************************************************************************************************

# ******************************************
# 0. Setup
# ******************************************
WORKDIR="$START_DIR/${SM}"
mkdir -p $WORKDIR
LOGFILE=$WORKDIR/run.log
exec >$LOGFILE 2>&1
cd $WORKDIR

# ******************************************
# 1. Mapping reads with BWA-MEM, sorting
# ******************************************
#The results of this call are dependent on the number of threads used. To have number of threads independent results, add chunk size option -K 10000000 
( $SENTIEON_INSTALL_DIR/bin/sentieon bwa mem -R "@RG\tID:$RGID\tSM:$SM\tPL:$PL" \
    -t $NT -K 10000000 $FASTA $FASTQ_1 $FASTQ_2 || { echo -n 'BWA error'; exit 1; } ) | \
    $SENTIEON_INSTALL_DIR/bin/sentieon util sort -r $FASTA -o sorted.bam -t $NT \
    --sam2bam -i - || { echo "Alignment failed"; exit 1; }

# ******************************************
# 2. Metrics
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT \
    ${INTERVAL_FILE:+--interval $INTERVAL_FILE} -i sorted.bam --algo MeanQualityByCycle \
    mq_metrics.txt --algo QualDistribution qd_metrics.txt --algo GCBias \
    --summary gc_summary.txt gc_metrics.txt --algo AlignmentStat --adapter_seq '' \
    aln_metrics.txt --algo InsertSizeMetricAlgo is_metrics.txt || \
    { echo "Metrics failed"; exit 1; }

$SENTIEON_INSTALL_DIR/bin/sentieon plot GCBias -o gc-report.pdf gc_metrics.txt
$SENTIEON_INSTALL_DIR/bin/sentieon plot QualDistribution -o qd-report.pdf qd_metrics.txt
$SENTIEON_INSTALL_DIR/bin/sentieon plot MeanQualityByCycle -o mq-report.pdf mq_metrics.txt
$SENTIEON_INSTALL_DIR/bin/sentieon plot InsertSizeMetricAlgo -o is-report.pdf is_metrics.txt

# ******************************************
# 3. Remove Duplicate Reads. It is possible
# to remove instead of mark duplicates
# by adding the --rmdup option in Dedup
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -t $NT -i sorted.bam --algo LocusCollector \
    --fun score_info score.txt || { echo "LocusCollector failed"; exit 1; }

$SENTIEON_INSTALL_DIR/bin/sentieon driver -t $NT -i sorted.bam --algo Dedup \
    --score_info score.txt --metrics dedup_metrics.txt deduped.bam || \
    { echo "Dedup failed"; exit 1; }

# ******************************************
# 2a. Coverage metrics
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT \
    ${INTERVAL_FILE:+--interval $INTERVAL_FILE} -i deduped.bam --algo CoverageMetrics \
    coverage_metrics || { echo "CoverageMetrics failed"; exit 1; }

# ******************************************
# 5. Base recalibration
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT \
    ${INTERVAL_FILE:+--interval $INTERVAL_FILE} -i deduped.bam --algo QualCal \
    -k $KNOWN_DBSNP -k $KNOWN_MILLS -k $KNOWN_INDELS recal_data.table
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT \
    ${INTERVAL_FILE:+--interval $INTERVAL_FILE} -i deduped.bam -q recal_data.table \
    --algo QualCal -k $KNOWN_DBSNP -k $KNOWN_MILLS -k $KNOWN_INDELS recal_data.table.post
$SENTIEON_INSTALL_DIR/bin/sentieon driver -t $NT --algo QualCal --plot \
    --before recal_data.table --after recal_data.table.post recal.csv
$SENTIEON_INSTALL_DIR/bin/sentieon plot QualCal -o recal_plots.pdf recal.csv

# ******************************************
# 6b. HC Variant caller
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA \
    ${INTERVAL_FILE:+--interval $INTERVAL_FILE} -t $NT -i deduped.bam -q recal_data.table \
    --algo Haplotyper -d $KNOWN_DBSNP --emit_conf=30 --call_conf=30 output-hc.vcf.gz || \
    { echo "Haplotyper failed"; exit 1; }

# ******************************************
# 5b. ReadWriter to output recalibrated bam
# This stage is optional as variant callers
# can perform the recalibration on the fly
# using the before recalibration bam plus
# the recalibration table
# This stage should not include interval
# option to prevent read loss
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT -i deduped.bam \
    -q recal_data.table --algo ReadWriter recaled.bam || \
    { echo "ReadWriter failed"; exit 1; }
```

### 4.1.6 DNAseq® 全基因组测序分析脚本

以下是Sentieon DNAseq在全基因组测序（WGS）中的分析脚本示例：

```
#!/bin/sh

# *******************************************
# Script to perform DNA seq variant calling
# using a single sample with fastq files
# named 1.fastq.gz and 2.fastq.gz
# *******************************************

set -eu

# Update with the fullpath location of your sample fastq
SM="sample" #sample name
RGID="rg_$SM" #read group ID
PL="ILLUMINA" #or other sequencing platform
FASTQ_FOLDER="/home/pipeline/samples"
FASTQ_1="$FASTQ_FOLDER/1.fastq.gz"
FASTQ_2="$FASTQ_FOLDER/2.fastq.gz" #If using Illumina paired data

# Update with the location of the reference data files
FASTA_DIR="/home/regression/references/b37/"
FASTA="$FASTA_DIR/human_g1k_v37_decoy.fasta"
KNOWN_DBSNP="$FASTA_DIR/dbsnp_138.b37.vcf.gz"
KNOWN_INDELS="$FASTA_DIR/1000G_phase1.indels.b37.vcf.gz"
KNOWN_MILLS="$FASTA_DIR/Mills_and_1000G_gold_standard.indels.b37.vcf.gz"

# Update with the location of the Sentieon software package and license file
SENTIEON_INSTALL_DIR=/home/release/sentieon-genomics-|release_version|
export SENTIEON_LICENSE=/home/Licenses/Sentieon.lic #or using licsrvr: c1n11.sentieon.com:5443

# Other settings
NT=$(nproc) #number of threads to use in computation, set to number of cores in the server
START_DIR="$PWD/test/DNAseq" #Determine where the output files will be stored

# You do not need to modify any of the lines below unless you want to tweak the pipeline

# ************************************************************************************************************************************************************************

# ******************************************
# 0. Setup
# ******************************************
WORKDIR="$START_DIR/${SM}" 
mkdir -p $WORKDIR
LOGFILE=$WORKDIR/run.log
exec >$LOGFILE 2>&1
cd $WORKDIR

# ******************************************
# 1. Mapping reads with BWA-MEM, sorting
# ******************************************
#The results of this call are dependent on the number of threads used. To have number of threads independent results, add chunk size option -K 10000000 
( $SENTIEON_INSTALL_DIR/bin/sentieon bwa mem -R "@RG\tID:$RGID\tSM:$SM\tPL:$PL" \
    -t $NT -K 10000000 $FASTA $FASTQ_1 $FASTQ_2 || { echo -n 'BWA error'; exit 1; } ) | \
    $SENTIEON_INSTALL_DIR/bin/sentieon util sort -r $FASTA -o sorted.bam -t $NT \
    --sam2bam -i - || { echo "Alignment failed"; exit 1; }

# ******************************************
# 2. Metrics
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT -i sorted.bam \
    --algo MeanQualityByCycle mq_metrics.txt --algo QualDistribution qd_metrics.txt \
    --algo GCBias --summary gc_summary.txt gc_metrics.txt --algo AlignmentStat \
    --adapter_seq '' aln_metrics.txt --algo InsertSizeMetricAlgo is_metrics.txt || \
    { echo "Metrics failed"; exit 1; }

$SENTIEON_INSTALL_DIR/bin/sentieon plot GCBias -o gc-report.pdf gc_metrics.txt
$SENTIEON_INSTALL_DIR/bin/sentieon plot QualDistribution -o qd-report.pdf qd_metrics.txt
$SENTIEON_INSTALL_DIR/bin/sentieon plot MeanQualityByCycle -o mq-report.pdf mq_metrics.txt
$SENTIEON_INSTALL_DIR/bin/sentieon plot InsertSizeMetricAlgo -o is-report.pdf is_metrics.txt

# ******************************************
# 3. Remove Duplicate Reads. It is possible
# to remove instead of mark duplicates
# by adding the --rmdup option in Dedup
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -t $NT -i sorted.bam --algo LocusCollector \
    --fun score_info score.txt || { echo "LocusCollector failed"; exit 1; }

$SENTIEON_INSTALL_DIR/bin/sentieon driver -t $NT -i sorted.bam --algo Dedup \
    --score_info score.txt --metrics dedup_metrics.txt deduped.bam || \
    { echo "Dedup failed"; exit 1; }

# ******************************************
# 5. Base recalibration
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT -i deduped.bam --algo QualCal \
    -k $KNOWN_DBSNP -k $KNOWN_MILLS -k $KNOWN_INDELS recal_data.table
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT -i deduped.bam -q recal_data.table \
    --algo QualCal -k $KNOWN_DBSNP -k $KNOWN_MILLS -k $KNOWN_INDELS recal_data.table.post
$SENTIEON_INSTALL_DIR/bin/sentieon driver -t $NT --algo QualCal --plot \
    --before recal_data.table --after recal_data.table.post recal.csv
$SENTIEON_INSTALL_DIR/bin/sentieon plot QualCal -o recal_plots.pdf recal.csv

# ******************************************
# 6b. HC Variant caller
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT -i deduped.bam -q recal_data.table \
    --algo Haplotyper -d $KNOWN_DBSNP output-hc.vcf.gz || \
    { echo "Haplotyper failed"; exit 1; }

# ******************************************
# 5b. ReadWriter to output recalibrated bam
# This stage is optional as variant callers
# can perform the recalibration on the fly
# using the before recalibration bam plus
# the recalibration table
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT -i deduped.bam -q recal_data.table \
    --algo ReadWriter recaled.bam || { echo "ReadWriter failed"; exit 1; }
```

## 4.2 DNAscope

Sentieon® Genomics软件包含一个改进的算法来执行胚系DNA分析的变异检测步骤。DNAscope使用的流程类似于DNAseq®中描述的流程，但在比对和变异检测阶段均存在差异。DNAscope支持使用模型文件以提高处理速度和准确性，除了检测SNP和短indel外，还可以执行结构变异检测。DNAscope推荐用于人类或其他哺乳动物样本的测序数据集。

### 4.2.1 概述
在这个生信分析流程中，您需要以下输入文件：

- FASTA 文件：包含与待分析样本对应的参考基因组核苷酸序列。
 
- FASTQ文件：一个或多个包含待分析样本核苷酸序列的文件。这些文件包含来自DNA测序的原始读数。软件支持输入使用GZIP压缩的FASTQ文件。软件仅支持包含Sanger格式（Phred+33）质量分数的文件。

- 机器学习模型文件：可从 https://github.com/Sentieon/sentieon-models 获取特定测序平台机器学习模型文件。

- （可选）包含变异检测区间的 BED 文件。推荐用于全外显子组或靶向测序数据。  
- （可选）您希望包含在流程中的单核苷酸多态性数据库（dbSNP）数据。数据以 VCF 文件的形式使用；您可以使用经过 bgzip 压缩并建立索引的 VCF 文件。

DNAscope的典型生信分析流程包括以下步骤：

1. 将读数映射到参考基因组：此步骤将 FASTQ 文件中的读段比对并映射到 FASTA 文件中的参考基因组上。该步骤确保了数据能够被置于基因组上下文背景中（确定其位置）。

3. 计算数据指标：此步骤生成关于数据质量和流程分析质量的统计摘要。
4. 去除或标记重复序列：此步骤检测表明同一DNA分子被多次测序的读数。这些重复序列不具有信息性，不应作为额外的证据进行计数。

5. 使用 DNAscope 结合机器学习模型进行变异检测：此步骤识别数据中相对于参考基因组出现变异的位点，并计算每个样本在这些位点上的基因型。

### 4.2.2 DNAscope使用步骤

#### （1）将读段映射到参考基因组

运行单条命令以高效地使用BWA执行比对，并使用Sentieon®软件创建BAM文件并进行排序：

```
(sentieon bwa mem -R '@RG\tID:GROUP_NAME\tSM:SAMPLE_NAME\tPL:PLATFORM' \
  -t NUMBER_THREADS -x DNASCOPE_MODEL/bwa.model REFERENCE FASTQ [FASTQ2] \
  || echo -n 'error' ) \
  | sentieon util sort -r REFERENCE -o SORTED_BAM -t NUMBER_THREADS --sam2bam -i -
```

BWA的输入和选项在手册中有详细说明。

与DNAseq®中描述的BWA用法相比，此处通过参数 `-x DNASCOPE_MODEL/bwa.model` 增加了 `DNASCOPE_MODEL`（DNAscope 模型）。

该命令需要以下输入参数：

- `GROUP_NAME`：将添加到读组头行的读组标识符。RG：ID在所有您计划使用的所有数据集中必须是唯一的，这在处理多个输入文件或执行肿瘤-正常对照分析时尤为重要。
  
- `SAMPLE_NAME`：将添加到读组头行的样本名称。
- `PLATFORM`：用于测序DNA的测序平台名称。可能的选项有：ILLUMINA（当fastq文件在Illumina™机器上产生时）；IONTORRENT（当fastq文件在Life Technologies™ Ion-Torrent™机器上产生时）；ELEMENT（当fastq文件在Element Biosciences™机器上产生时）；DNBSEQ（当fastq文件在MGI™机器上产生时）；ULTIMA（当fastq文件在Ultima Genomics™机器上产生时）。
- `NUMBER_THREADS`：计算中使用的线程数。我们建议该数量不要超过系统中可用的计算核心数。我们建议BWA和util二进制文件使用相同数量的线程。
- `REFERENCE`：参考FASTA文件的路径。您应确保*表4-1*中指定的所有额外参考数据都在同一位置，并具有一致的命名。
- `FASTQ`：样本FASTQ文件的路径。如果数据来自双端测序技术，您还需要输入FASTQ2作为相应的配对样本FASTQ文件。
- `SORTED_BAM`：映射并排序后的 BAM 输出文件的路径和文件名。系统将同时创建一个对应的索引文件（.bai）。
- `DNASCOPE_MODEL`：DNAscope模型包的路径。该模型将用于确定比对和变异检测阶段所使用的设置。

BWA会根据命令中使用的线程数产生略微不同的比对结果。这是因为 BWA 是基于数据块来计算插入片段大小分布的，而数据块的大小取决于线程数。为了保证结果与使用的线程数无关，您应该使用选项`-K 10000000`来固定数据块大小（以碱基为单位）。

对于指标收集和重复去除阶段，请参考 *第4.1.2节* 的获取详细的使用说明。

#### （2）使用机器学习模型进行胚系变异检测

建议使用带机器学习模型的DNAscope来执行变异检测，通过改进候选检测和过滤步骤，来实现更高的准确性。

Sentieon®可以为您提供特定测序平台的模型，该模型使用 https://github.com/genome-in-a-bottle 中GiAB真集的部分数据训练而成的。这些模型是通过将参考样本HG001-HG007进行处理而创建，流程包括 Sentieon® BWA-mem 比对和 Sentieon® 去重，并利用变异检测结果校准模型以拟合真集。

此外，Sentieon®可以协助您使用自有数据创建模型，从而针对您特定的测序和生物信息分析流程进行校准。

**1）在DNAscope中使用机器学习模型**

运行两条单独的命令来检测变异并应用机器学习模型。输入的BAM文件应该来自仅执行了比对和去重（没有BQSR或indel重新比对）的流程，以匹配模型创建方法。

```
PCRFREE=true #PCRFREE=true means the sample is PCRFree, change it to false for PCR samples.
if [ "$PCRFREE" = true ] ; then
    sentieon driver -t NUMBER_THREADS -r REFERENCE -i DEDUPED_BAM \
    [--interval INTERVAL_FILE] --algo DNAscope [-d dbSNP] \
    --pcr_indel_model none --model DNASCOPE_MODEL/dnascope.model \
TMP_VARIANT_VCF
else
    sentieon driver -t NUMBER_THREADS -r REFERENCE -i DEDUPED_BAM \
    [--interval INTERVAL_FILE] --algo DNAscope [-d dbSNP] \
--model DNASCOPE_MODEL/dnascope.model TMP_VARIANT_VCF
fi
sentieon driver -t NUMBER_THREADS -r REFERENCE --algo DNAModelApply \
  --model DNASCOPE_MODEL/dnascope.model -v TMP_VARIANT_VCF VARIANT_VCF
```

**提醒：** 如果您使用的数据是不含PCR的，运行 DNAscope 时务必添加选项 `--pcr_indel_model NONE`。

根据测序是否涉及PCR步骤，DNAscope 在寻找显著的 INDEL 变异时会使用不同的先验概率，这可以通过 `--pcr_indel_model` 选项进行控制。默认的 `--pcr_indel_model` 设置针对的是 PCR 样本。因此，对于无 PCR 样本，设置 `--pcr_indel_model none` 至关重要。

该命令需要以下输入参数：

- `NUMBER_THREADS`：计算中将使用的线程数。建议该数量不要超过系统中可用的计算核心数。
  
- `REFERENCE`：参考FASTA文件的路径。需确保参考序列与映射阶段使用的完全一致。
- `DEDUPED_BAM`：输入BAM文件的路径和文件名。
- `TMP_VARIANT_VCF`：DNAscope变异检测输出的路径和文件名。这是一个临时文件。
- `VARIANT_VCF`：变异检测输出的路径和文件名。系统将创建相应的索引文件。如果使用 `.gz` 扩展名，工具将输出压缩文件。

- `DNASCOPE_MODEL`：机器学习模型文件的路径。在DNAscope命令中，该模型将用于确定比对和变异检测阶段所使用的设置。
  
**提醒：** 使用机器学习模型运行DNAscope时，绝大多数高级设置均由模型本身决定；除 `--pcr_indel_model` 选项外，为其他选项设置特定值可能会对结果产生负面影响。

该命令的以下输入参数是可选的：

- `INTERVAL_FILE`：BED文件的路径和文件名。
  
- `dbSNP`：将用于标记已知变异的单核苷酸多态性数据库（dbSNP）的路径和文件名。您只能使用一个dbSNP文件。

**2）使用DNAscope生成GVCF输出文件**

从 202112.04 版本开始，DNAscope 支持配合模型生成基因组 VCF格式的变异检测结果。GVCF 格式包含了被分析样本中参考等位基因纯合位点的额外信息。此功能需要使用近期训练的 DNAscope 模型；如果使用 202112.01 或更早版本的 Sentieon 训练的模型，则会导致运行报错。

运行两条单独的命令来检测变异并应用机器学习模型。输入的BAM文件应该来自仅执行了比对和去重的流程，以匹配模型的创建方法。

```
PCRFREE=true #PCRFREE=true means the sample is PCRFree, change it to false for PCR samples.
if [ "$PCRFREE" = true ] ; then
    sentieon driver -t NUMBER_THREADS -r REFERENCE -i DEDUPED_BAM \
    [--interval INTERVAL_FILE] --algo DNAscope [-d dbSNP] \
    --pcr_indel_model none --model DNASCOPE_MODEL/dnascope.model \
--emit_mode gvcf TMP_VARIANT_GVCF
else
    sentieon driver -t NUMBER_THREADS -r REFERENCE -i DEDUPED_BAM \
    [--interval INTERVAL_FILE] --algo DNAscope [-d dbSNP] \
--model DNASCOPE_MODEL/dnascope.model --emit_mode gvcf TMP_VARIANT_GVCF
fi
sentieon driver -t NUMBER_THREADS -r REFERENCE --algo DNAModelApply \
  --model DNASCOPE_MODEL/dnascope.model -v TMP_VARIANT_GVCF VARIANT_GVCF
```

**提醒：** 如果您使用的数据是不含PCR的，在运行DNAscope时务必添加`--pcr_indel_model NONE`选项。

根据测序是否包含 PCR 步骤，DNAscope 在寻找显著的 INDEL 变异时会使用不同的先验概率 ，这可以通过 `--pcr_indel_model` 选项进行控制。默认的 `--pcr_indel_model` 设置针对的是 PCR 样本。因此，对于无 PCR 样本，设置 `--pcr_indel_model none` 至关重要。

该命令需要以下输入参数：

- `NUMBER_THREADS`：计算中将使用的线程数。建议该数量不要超过系统中可用的计算核心数。
  
- `REFERENCE`：参考FASTA文件的路径。需确保参考序列与映射阶段使用的完全一致。
- `DEDUPED_BAM`：输入BAM文件的路径和文件名。
- `TMP_VARIANT_GVCF`：DNAscope 生成的 GVCF 输出的路径及文件名。这是一个临时文件。

- `VARIANT_GVCF`：GVCF输出的路径和文件名。系统将创建相应的索引文件。如果使用 `.gz` 扩展名，工具将输出压缩文件。

- `DNASCOPE_MODEL`：机器学习模型文件的路径。在DNAscope命令中，该模型将用于确定变异检测阶段所使用的设置。
  
该命令的以下输入参数是可选的：

- `INTERVAL_FILE`：BED文件的路径和文件名。
  
- `dbSNP`：将用于标记已知变异的单核苷酸多态性数据库（dbSNP）的路径和文件名。您只能使用一个dbSNP文件。

**3）对DNAscope生成的GVCF文件进行基因型分析**

使用 Sentieon 202112.06 及更高版本中的 `GVCFtyper` 算法，可以对生成的 GVCF 输出文件进行单样本基因分型，或与其他样本的 GVCF 进行联合分型，最终输出单样本或多样本的 VCF 文件。

```
sentieon driver -r REFERENCE --algo GVCFtyper \
  -v s1_VARIANT_GVCF -v s2_VARIANT_GVCF -v s3_VARIANT_GVCF VARIANT_VCF
```

请查看Sentieon手册以获取有关GVCFtyper算法的更多详细信息，https://support.sentieon.com/manual/usages/general/#gvcftyper-algorithm 。

**提醒：** GVCFtyper可用于将来自多个测序平台的DNAscope GVCF基因型分析为单个多样本VCF。

GVCFtyper不支持将 DNAscope GVCF 与未使用机器学习模型生成的 DNAscope GVCF 混合进行联合分型，也不支持将其与其他工具生成的 GVCF 混合处理。

#### （3）结构变异检测

为了执行结构变异检测，您需要在 DNAscope 命令中添加输出断裂端信息的选项；这可以通过启用 `bnd` 变异类型来实现。结构变异检测由两条独立的命令完成。

```
sentieon driver -t NUMBER_THREADS -r REFERENCE -i DEDUPED_BAM \
  --algo DNAscope --var_type bnd \
  [-d dbSNP] TMP_VARIANT_VCF
sentieon driver -t NUMBER_THREADS -r REFERENCE --algo SVSolver  \
  -v TMP_VARIANT_VCF STRUCTURAL_VARIANT_VCF
```

该命令需要以下输入参数：

- `NUMBER_THREADS`：计算中将使用的线程数。我们建议该数量不要超过系统中可用的计算核心数。

- `REFERENCE`：参考FASTA文件的路径及文件名。需确保参考序列与映射阶段使用的完全一致。

- `DEDUPED_BAM`：输入BAM文件的路径和文件名。
- `TMP_VARIANT_VCF`：DNAscope 生成的包含 BND 信息的变异检测输出文件的路径及文件名。在检测结构变异时，这是一个临时文件。

- `STRUCTURAL_VARIANT_VCF`：包含结构变异检测结果的输出文件的路径及文件名。系统将创建相应的索引文件。如果使用 `.gz` 扩展名，工具将输出压缩文件。

该命令的以下输入参数是可选的：

- `dbSNP`：将用于标记已知变异的单核苷酸多态性数据库（dbSNP）的路径和文件名。您只能使用一个dbSNP文件。

**请注意**，结构变异检测与DNAscope模型输入文件不兼容。特别是，当设置了`--var_type BND`时，应避免使用`--model`选项。

### 4.2.3 DNAscope 全基因组测序分析脚本

以下是Sentieon DNAscope在全基因组测序（WGS）中的分析脚本示例：

```
#!/bin/sh

# *******************************************
# Script to perform DNAscope variant calling
# using a single sample with fastq files
# named 1.fastq.gz and 2.fastq.gz
# *******************************************

set -eu

# Update with the fullpath location of your sample fastq
SM="sample" #sample name
RGID="rg_$SM" #read group ID
PL="ILLUMINA" #or other sequencing platform
FASTQ_FOLDER="/home/pipeline/samples"
FASTQ_1="$FASTQ_FOLDER/1.fastq.gz"
FASTQ_2="$FASTQ_FOLDER/2.fastq.gz" #If using Illumina paired data

# Update with the location to the DNAscope model file
# Model files can be found at, https://github.com/Sentieon/sentieon-models
DNASCOPE_MODEL=/home/pipeline/models/DNAscopeIlluminaWGS2.0.bundle

# Update with the location of the reference data files
FASTA_DIR="/home/regression/references/b37/"
FASTA="$FASTA_DIR/human_g1k_v37_decoy.fasta"
KNOWN_DBSNP="$FASTA_DIR/dbsnp_138.b37.vcf.gz"
KNOWN_INDELS="$FASTA_DIR/1000G_phase1.indels.b37.vcf.gz"
KNOWN_MILLS="$FASTA_DIR/Mills_and_1000G_gold_standard.indels.b37.vcf.gz"

# Update with the location of the Sentieon software package and license file
SENTIEON_INSTALL_DIR=/home/release/sentieon-genomics-|release_version|
export SENTIEON_LICENSE=/home/Licenses/Sentieon.lic #or using licsrvr: c1n11.sentieon.com:5443

# Other settings
PCRFREE=true # The data was sequenced with a PCR-free library prep
NT=$(nproc) #number of threads to use in computation, set to number of cores in the server
START_DIR="$PWD/test/DNAscope" #Determine where the output files will be stored

# You do not need to modify any of the lines below unless you want to tweak the pipeline

# ************************************************************************************************************************************************************************

# ******************************************
# 0. Setup
# ******************************************
WORKDIR="$START_DIR/${SM}" 
mkdir -p $WORKDIR
LOGFILE=$WORKDIR/run.log
exec >$LOGFILE 2>&1
cd $WORKDIR

# ******************************************
# 1. Mapping reads with BWA-MEM, sorting
# ******************************************
#The results of this call are dependent on the number of threads used. To have number of threads independent results, add chunk size option -K 10000000 
( $SENTIEON_INSTALL_DIR/bin/sentieon bwa mem -R "@RG\tID:$RGID\tSM:$SM\tPL:$PL" \
    -t $NT -K 10000000 -x $DNASCOPE_MODEL/bwa.model \
    $FASTA $FASTQ_1 $FASTQ_2 || { echo -n 'BWA error'; exit 1; } ) | \
    $SENTIEON_INSTALL_DIR/bin/sentieon util sort -r $FASTA -o sorted.bam -t $NT \
    --sam2bam -i - || { echo "Alignment failed"; exit 1; }

# ******************************************
# 2. Metrics
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT -i sorted.bam \
    --algo MeanQualityByCycle mq_metrics.txt --algo QualDistribution qd_metrics.txt \
    --algo GCBias --summary gc_summary.txt gc_metrics.txt --algo AlignmentStat \
    --adapter_seq '' aln_metrics.txt --algo InsertSizeMetricAlgo is_metrics.txt || \
    { echo "Metrics failed"; exit 1; }

$SENTIEON_INSTALL_DIR/bin/sentieon plot GCBias -o gc-report.pdf gc_metrics.txt
$SENTIEON_INSTALL_DIR/bin/sentieon plot QualDistribution -o qd-report.pdf qd_metrics.txt
$SENTIEON_INSTALL_DIR/bin/sentieon plot MeanQualityByCycle -o mq-report.pdf mq_metrics.txt
$SENTIEON_INSTALL_DIR/bin/sentieon plot InsertSizeMetricAlgo -o is-report.pdf is_metrics.txt

# ******************************************
# 3. Remove Duplicate Reads. It is possible
# to remove instead of mark duplicates
# by adding the --rmdup option in Dedup
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -t $NT -i sorted.bam --algo LocusCollector \
    --fun score_info score.txt || { echo "LocusCollector failed"; exit 1; }

$SENTIEON_INSTALL_DIR/bin/sentieon driver -t $NT -i sorted.bam --algo Dedup \
    --score_info score.txt --metrics dedup_metrics.txt deduped.bam || \
    { echo "Dedup failed"; exit 1; }

# ******************************************
# 4a. DNAscope variant calling
# ******************************************
indel_model_arg=""
if [ "$PCRFREE" = true ]; then
    indel_model_arg="--pcr_indel_model none"
fi
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT -i deduped.bam \
    --algo DNAscope $indel_model_arg --model $DNASCOPE_MODEL/dnascope.model \
    -d $KNOWN_DBSNP output-ds_tmp.vcf.gz || \
    { echo "DNAscope failed"; exit 1; }

# ******************************************
# 4b. Variant filtering and genotyping
# ******************************************
$SENTIEON_INSTALL_DIR/bin/sentieon driver -r $FASTA -t $NT \
    --algo DNAModelApply --model $DNASCOPE_MODEL/dnascope.model \
    -v output-ds_tmp.vcf.gz output-ds.vcf.gz || \
    { echo "DNAModelApply failed"; exit 1; }
```

### 4.2.4 DNAscope 外显子测序分析脚本

以下是Sentieon DNAscope在全外显子测序（WES）中的分析脚本示例：

```
#!/bin/sh

# *******************************************
# Script to perform DNAscope variant calling
# using an exome sample with fastq files
# named 1.fastq.gz and 2.fastq.gz
# *******************************************

set -eu

# Update with the fullpath location of your sample fastq
SM="sample" #sample name
RGID="rg_$SM" #read group ID
PL="ILLUMINA" #or other sequencing platform
FASTQ_FOLDER="/home/pipeline/samples"
FASTQ_1="$FASTQ_FOLDER/1.fastq.gz"
FASTQ_2="$FASTQ_FOLDER/2.fastq.gz" #If using Illumina paired data

# Update with the location to the DNAscope model file
# Model files can be found at, https://github.com/Sentieon/sentieon-models
DNASCOPE_MODEL=/home/pipeline/models/DNAscopeIlluminaWES2.0.bundle