Sentieon推出混合型短读长和长读长变异检测DNAscope Hybrid流程（上）

# 一、DNAscope Hybrid介绍
短读长测序技术在解析基因组“盲区”（如难以比对区域）及结构变异方面存在着局限性。尽管长读长测序凭借超过15kb的读段显著改善了SV检测，但仍面临高错误率（尤其是同聚物区域的插入/缺失，Indel）和高成本的挑战。

Sentieon开发了创新的混合分析流程DNAscope Hybrid，有效地整合了短读长和长读长测序技术的优势，能生成比单独使用一种技术更准确的变异检测结果，从而实现更全面和准确的基因组分析。

该流程通过组合分析可将典型的长读长覆盖度需求降低2-3倍，同时提高样本结果的准确性和全面性。DNAscope Hybrid不仅能够全面检测SNP、Indel、SV和CNV，还能在保持高准确度的同时降低成本。

![](https://fileserver.developer.huaweicloud.com/FileServer/getFile/communitytemp/20260129/community/582/309/312/0001716866582309312.20260129014307.98622690402067109081299109665651:20260129114931:2415:31716AAD4743F75F1851B285B65CDEF55A83AF9F9D68D715937E4DD1B75CB72D.jpg)

*图1  DNAscope Hybrid变异检测流程的处理步骤概述*

相比于HELLO、blend-seq和Variantyx等现有的混合分析流程，DNAscope Hybrid的独特优势在于：利用长读长单体型指导短读段重新比对，实现深度融合分析；通过单体型解析和并行化处理优化计算效率，完美适配临床应用场景；

本篇将重点介绍DNAscope Hybrid的基本操作流程，下篇将深入解析DNAscope Hybrid具体的性能评测指标。

------------

# 二、系统要求
## 1.  软件许可说明
DNAscope Hybrid流程使用Sentieon软件包实现，需要有效的许可证。请联系info@sentieon.com获取Sentieon软件和评估许可。

## 2.  使用DNAscope Hybrid的前提
- 需要Sentieon软件包202503.01或更高版本
- 需要Python 3.8或更高版本
- 需要bcftools 1.10或更高版本
- 需要bedtools工具包
- 需要MultiQC 1.18或更高版本，用于生成指标报告
- 需要samtools 1.16或更高版本
- 需要mosdepth 0.2.6或更高版本，用于长读段数据的覆盖度指标收集

Sentieon、python、bcftools、bedtools、samtools、multiqc和mosdepth这些可执行文件将通过用户的PATH环境变量进行访问。

# 三、输入数据要求
## 1.  参考基因组
DNAscope LongRead将相对于FASTA格式的高质量参考基因组检测样本中存在的变异。除了参考基因组文件外，还需要samtools fasta索引文件(.fai)。短读段比对还需要bwa索引文件。

我们建议比对到不含替代片段的参考基因组。如果基因组中存在替代片段且流程正在执行短读段比对，请同时提供".alt"文件以激活bwa中的alt感知比对。

## 2.  支持输入数据格式（需要同时提供短读段和长读段数据）
- 未比对的短读段数据(gzipped FASTQ格式)
- 已比对的短读段数据(BAM或CRAM格式)
- 未比对的长读段数据(uBAM或uCRAM格式)
- 已比对的长读段数据(BAM或CRAM格式)

# 四、使用方法
运行两个独立的命令来进行CNV检测和应用机器学习模型。输入的BAM文件应该来自已经完成比对和去重复的流程。

## 1.  从已比对的短读长和长读长数据进行胚系变异检测

运行单个命令从已比对的短读段和长读段数据中调用SNP、Indel、SV和CNV：

sentieon-cli dnascope-hybrid \
      -r REFERENCE \
      --sr_aln SR_ALN [SR_ALN ...] \
      --lr_aln LR_ALN [LR_ALN ...] \
      -m MODEL_BUNDLE \
      [-b DIPLOID_BED] \
      [-d DBSNP] \
      [--dry_run] \
      [--gvcf] \
      [--sr_duplicate_marking MARKDUP] \
      [-t NUMBER_THREADS] \
      sample.vcf.gz

DNAscope Hybrid流程需要以下必备参数：

- `-r REFERENCE`：参考FASTA文件的路径。还需要对应的fasta索引".fai"文件。
- `--sr_aln`：BAM或CRAM格式的输入短读段比对文件，支持在参数后输入多个文件。
- `--lr_aln`：BAM或CRAM格式的输入长读段比对文件，支持在参数后输入多个文件。
- `-m MODEL_BUNDLE`：模型包的路径，可以在sentieon-models仓库中找到（https://github.com/Sentieon/sentieon-models ）
- `sample.vcf.gz`：SNV和indel输出VCF文件的路径，要求输出文件以".vcf.gz"后缀结尾。

DNAscope Hybrid流程接受以下可选参数：

- `-b DIPLOID_BED`：BED文件格式的参考中限制二倍体变异调用的区间，提供此文件将限制二倍体变异调用在BED文件内的区间。
- `-d DBSNP`：用于标记已知变异的单核苷酸多态性数据库(dbSNP)的位置，VCF(.vcf)或bgzip压缩的VCF(.vcf.gz)格式。仅支持一个文件，提供此文件将用dbSNP refSNP ID号注释变异，需要VCF索引文件。
- `--dry_run`：打印流程命令，而不实际执行。
- `--gvcf`：在生成VCF的同时生成一个 gVCF格式的输出文件。
- `--sr_duplicate_marking`：设置重复序列标记模式。使用 markdup将标记重复读段。使用 rmdup 将直接移除重复读段。使用 none 将跳过重复序列标记步骤。默认设置为 markdup。
- `-t NUMBER_THREADS`：软件运行并行进程所使用的计算线程数。若省略，流程将使用服务器拥有的所有线程。
- `-h`：打印命令行帮助并退出。

## 2.  从未比对的短读长和长读长数据进行胚系变异检测
运行单个命令从未比对的短读段和长读段数据中调用SNP、Indel、SV和CNV：

sentieon-cli dnascope-hybrid \
      -r REFERENCE \
      --sr_r1_fastq SR_R1_FQ [SR_R1_FQ ...] \
      --sr_r2_fastq SR_R2_FQ [SR_R2_FQ ...] \
      --sr_readgroups SR_READGROUP [SR_READGROUP ...] \
      --lr_aln LR_ALN [LR_ALN ...] \
      --lr_align_input \
      -m MODEL_BUNDLE \
      [-b DIPLOID_BED] \
      [--bam_format] \
      [-d DBSNP] \
      [--dry_run] \
      [--gvcf] \
      [--sr_duplicate_marking MARKDUP] \
      [-t NUMBER_THREADS] \
      sample.vcf.gz

DNAscope Hybrid流程需要以下必备参数：

- `--sr_r1_fastq`：gzipped FASTQ格式的R1短读段输入数据。可以在参数后输入多个文件。
- `--sr_r2_fastq`：gzipped FASTQ格式的R2短读段输入数据。可以在参数后输入多个文件。
- `--sr_readgroups`：对应每个FASTQ的读组信息。流程将期望--sr_r1_fastq和--sr_readgroups有相同数量的参数。
 	- 示例参数为"`@RG\tID:HG002-1\tSM:HG002\tLB:HG002-LB-1\tPL:ILLUMINA`"
- `--lr_aln`：uBAM或uCRAM格式的长读段输入数据。可以在参数后输入多个文件。
- `--lr_align_input`：指示流程对输入的长读段进行比对。

DNAscope Hybrid流程接受以下可选参数：

- `--bam_format`：对输出的比对文件使用BAM格式而不是默认的CRAM格式。
- `--lr_input_ref`：用于解码输入长读段文件的参考fasta。长读段uCRAM或CRAM输入时需要，可以与-r参数使用的fasta不同。

------------

# 五、输出结果
## 1.  默认输出文件类型
- VCF格式的小变异(SNP和Indel)
- VCF格式的结构变异（SV）
- VCF格式的拷贝数变异(CNV)
- 如果输入未比对的reads，还会输出BAM或CRAM格式的比对结果。

## 2.  输出文件列表
DNAscope Hybrid流程输出以下文件：

- `sample.vcf.gz`：-b DIPLOID_BED文件中定义的基因组区域的SNV和indel变异检测。
- `sample.sv.vcf.gz`：Sentieon LongReadSV工具的结构变异检测。
- `sample.cnv.vcf.gz`：Sentieon CNVscope工具的拷贝数变异检测。
- `sample_deduped.cram`：来自输入FASTQ文件的已比对、坐标排序和重复标记的短读段数据。
- `sample_mm2_sorted_*.cram`：来自输入uBAM、uCRAM、BAM或CRAM文件的已比对和坐标排序的长读段。
- `sample_metrics`：包含已分析样本的质控指标的目录。

------------

# 六、故障排除
##  错误提示："输入...具有不同的RG-SM标签"
当流程检测到输入文件具有（或将具有）不同的读组标签时，会出现此错误。要修复此错误，请使用--rgsm参数在变异检测过程中调整输入文件的SM标签。请注意，使用此参数时，输入文件中的所有读数都将在变异检测过程中被使用。

------------

# 七、总结
DNAscope Hybrid不仅适用于全基因组测序数据分析，还支持靶向测序分析（如Twist Alliance Dark Genes Panel），展现出了高鲁棒性和多功能性，使其成为对准确性和全面性要求极严苛的临床诊断场景的理想选择。下一篇将展示与现有方法相比，DNAscope Hybrid在基准测试中所拥有的卓越性能，进一步印证Sentieon在混合数据分析领域的创新。

当前，长读长-短读长混合测序分析领域正处于高速迭代期，Sentieon团队将持续对DNAscope Hybrid进行优化，朝着更高的准确性、更强的通量和更低的成本三个维度实现突破。将与行业伙伴共同推动精准医疗的发展，助力基因组学研究和应用迈向新的高度。