Sentieon
Sentieon 中文手册
Sentieon 中文手册(上册)
Sentieon 中文手册(下册)
Sentieon 软件应用教程
Sentieon | 应用教程: 使用DNAscope对HiFi长读长数据进行胚系变异检测分析
Sentieon | 应用教程: 利用Sentieon Python API引擎为自研算法加速
Sentieon | 应用教程: 关于读段组的建议
Sentieon | 应用教程: TNscope® 使用机器学习模型进行有匹配正常样本的体细胞变异发现
Sentieon | 应用教程: CCDG使用Sentieon®的功能等效流程
Sentieon | 应用教程: 利用共识功能去除PCR重复
Sentieon | 应用教程: 适用于PacBio HiFi和Oxford Nanopore长读长测序数据的结构变异检测
Sentieon | 应用教程: 使用 Sentieon进行大型基因组重测序分析
Sentieon | 应用教程: 体细胞SNP/Indel变异检测
Sentieon | 应用教程: DNAscope使用机器学习模型进行胚系变异调用
Sentieon | 应用教程: 唯一分子标识符(UMI)
Sentieon | 应用教程: Sentieon分布模式
Sentieon | 应用教程:使用CNVscope进行CNV检测分析
Sentieon发布核心家系(trio)基因分析最佳实践方案
Sentieon推出Segdup-caller:针对片段重复区域的专用精准变异检测工具
Sentieon软件版本更新
Sentieon | 发布V202503.01版本
Sentieon | 发布V202503.02版本
Sentieon软件快速入门指南
Sentieon 软件模块总述
Sentieon 特色流程 - DNAscope
Sentieon | DNAscope Illumina 流程
sentieon | DNAscope Complete Genomics 流程
Sentieon | DNAscope LongRead PacBio 流程
Sentieon | DNAscope Ultima Genomics 流程
Sentieon | DNAscope Element Bio 流程
Sentieon | DNAscope LongRead Nanopore 流程
Sentieon混合分析流程 - DNAscope Hybrid
Sentieon推出混合型短读长和长读长变异检测DNAscope Hybrid流程(上)
Sentieon推出混合型短读长和长读长变异检测DNAscope Hybrid流程(下)
毅硕Sentieon | 泛基因组分析流程详解
毅硕Sentieon | RNA-seq 变异检测全流程详解
毅硕Sentieon | 物种全基因组(WGS)分析流程
毅硕Sentieon | 植物全基因组(GWS)分析流程
毅硕Sentieon | 小麦(Triticum_aestivum)全基因组WGS分析流程
毅硕Sentieon | 水稻(Oryza_sativa)全基因组WGS分析流程
毅硕Sentieon | 拟南芥(Arabidopsis_thaliana)全基因组WGS分析流程
毅硕Sentieon | 马铃薯(Solanum_tuberosum)全基因组WGS分析流程
毅硕Sentieon | 巨桉(Eucalyptus grandis)全基因组WGS分析流程
毅硕Sentieon | 向日葵(Helianthus annuus)全基因组WGS分析流程
毅硕Sentieon | 野草莓(Fragaria vesca)全基因组WGS分析流程
毅硕Sentieon | 银杏(Ginkgo biloba)全基因组WGS分析流程
毅硕Sentieon | 大豆(Glycine max)全基因组WGS分析流程
毅硕Sentieon | 陆地棉(Gossypium hirsutum)全基因组WGS分析流程
毅硕Sentieon | 动物全基因组(WGS)分析流程
毅硕Sentieon | 猪(sus scrofa)全基因组WGS分析流程
毅硕Sentieon | 鸡(Gallus gallus)全基因组WGS分析流程
毅硕Sentieon | 家鼠(Mus musculus)全基因组WGS分析流程
毅硕Sentieon | 家犬(canis lupus familiaris)全基因组WGS分析流程
毅硕Sentieon | 东方蜜蜂(Apis cerana)全基因组WGS分析流程
毅硕Sentieon | 电鳗(Electrophorus electricus)全基因组WGS分析流程
毅硕Sentieon | 红隼(Falco tinnunculus)全基因组WGS分析流程
毅硕Sentieon | 家猫(Felis catus)全基因组WGS分析流程
毅硕Sentieon | 尼罗罗非鱼(Oreochromis niloticus)全基因组WGS分析流程
毅硕Sentieon文献解读
Sentieon文献解读 | Population Sequencing
Sentieon文献解读 | Agrigenomics
Sentieon | Agrigenomics-泛基因组揭示小麦结构变异与栖息地及育种的关联
Sentieon文献解读 | Genetic Disease
Sentieon文献解读 | Tumor Sequencing
Sentieon文献解读 | Benchmark and Method Study
Sentieon文献解读 | Long Read Sequencing
Sentieon文献解读 | Clinical Trial
Sentieon文献解读 | Epidemiology
Sentieon文献解读 | Gene Editing
Sentieon文献解读 | Liquid Biopsy
-
+
首页
Sentieon推出混合型短读长和长读长变异检测DNAscope Hybrid流程(上)
# 一、DNAscope Hybrid介绍 短读长测序技术在解析基因组“盲区”(如难以比对区域)及结构变异方面存在着局限性。尽管长读长测序凭借超过15kb的读段显著改善了SV检测,但仍面临高错误率(尤其是同聚物区域的插入/缺失,Indel)和高成本的挑战。 Sentieon开发了创新的混合分析流程DNAscope Hybrid,有效地整合了短读长和长读长测序技术的优势,能生成比单独使用一种技术更准确的变异检测结果,从而实现更全面和准确的基因组分析。 该流程通过组合分析可将典型的长读长覆盖度需求降低2-3倍,同时提高样本结果的准确性和全面性。DNAscope Hybrid不仅能够全面检测SNP、Indel、SV和CNV,还能在保持高准确度的同时降低成本。  *图1 DNAscope Hybrid变异检测流程的处理步骤概述* 相比于HELLO、blend-seq和Variantyx等现有的混合分析流程,DNAscope Hybrid的独特优势在于:利用长读长单体型指导短读段重新比对,实现深度融合分析;通过单体型解析和并行化处理优化计算效率,完美适配临床应用场景; 本篇将重点介绍DNAscope Hybrid的基本操作流程,下篇将深入解析DNAscope Hybrid具体的性能评测指标。 ------------ # 二、系统要求 ## 1. 软件许可说明 DNAscope Hybrid流程使用Sentieon软件包实现,需要有效的许可证。请联系info@sentieon.com获取Sentieon软件和评估许可。 ## 2. 使用DNAscope Hybrid的前提 - 需要Sentieon软件包202503.01或更高版本 - 需要Python 3.8或更高版本 - 需要bcftools 1.10或更高版本 - 需要bedtools工具包 - 需要MultiQC 1.18或更高版本,用于生成指标报告 - 需要samtools 1.16或更高版本 - 需要mosdepth 0.2.6或更高版本,用于长读段数据的覆盖度指标收集 Sentieon、python、bcftools、bedtools、samtools、multiqc和mosdepth这些可执行文件将通过用户的PATH环境变量进行访问。 # 三、输入数据要求 ## 1. 参考基因组 DNAscope LongRead将相对于FASTA格式的高质量参考基因组检测样本中存在的变异。除了参考基因组文件外,还需要samtools fasta索引文件(.fai)。短读段比对还需要bwa索引文件。 我们建议比对到不含替代片段的参考基因组。如果基因组中存在替代片段且流程正在执行短读段比对,请同时提供".alt"文件以激活bwa中的alt感知比对。 ## 2. 支持输入数据格式(需要同时提供短读段和长读段数据) - 未比对的短读段数据(gzipped FASTQ格式) - 已比对的短读段数据(BAM或CRAM格式) - 未比对的长读段数据(uBAM或uCRAM格式) - 已比对的长读段数据(BAM或CRAM格式) # 四、使用方法 运行两个独立的命令来进行CNV检测和应用机器学习模型。输入的BAM文件应该来自已经完成比对和去重复的流程。 ## 1. 从已比对的短读长和长读长数据进行胚系变异检测 运行单个命令从已比对的短读段和长读段数据中调用SNP、Indel、SV和CNV: sentieon-cli dnascope-hybrid \ -r REFERENCE \ --sr_aln SR_ALN [SR_ALN ...] \ --lr_aln LR_ALN [LR_ALN ...] \ -m MODEL_BUNDLE \ [-b DIPLOID_BED] \ [-d DBSNP] \ [--dry_run] \ [--gvcf] \ [--sr_duplicate_marking MARKDUP] \ [-t NUMBER_THREADS] \ sample.vcf.gz DNAscope Hybrid流程需要以下必备参数: - `-r REFERENCE`:参考FASTA文件的路径。还需要对应的fasta索引".fai"文件。 - `--sr_aln`:BAM或CRAM格式的输入短读段比对文件,支持在参数后输入多个文件。 - `--lr_aln`:BAM或CRAM格式的输入长读段比对文件,支持在参数后输入多个文件。 - `-m MODEL_BUNDLE`:模型包的路径,可以在sentieon-models仓库中找到(https://github.com/Sentieon/sentieon-models ) - `sample.vcf.gz`:SNV和indel输出VCF文件的路径,要求输出文件以".vcf.gz"后缀结尾。 DNAscope Hybrid流程接受以下可选参数: - `-b DIPLOID_BED`:BED文件格式的参考中限制二倍体变异调用的区间,提供此文件将限制二倍体变异调用在BED文件内的区间。 - `-d DBSNP`:用于标记已知变异的单核苷酸多态性数据库(dbSNP)的位置,VCF(.vcf)或bgzip压缩的VCF(.vcf.gz)格式。仅支持一个文件,提供此文件将用dbSNP refSNP ID号注释变异,需要VCF索引文件。 - `--dry_run`:打印流程命令,而不实际执行。 - `--gvcf`:在生成VCF的同时生成一个 gVCF格式的输出文件。 - `--sr_duplicate_marking`:设置重复序列标记模式。使用 markdup将标记重复读段。使用 rmdup 将直接移除重复读段。使用 none 将跳过重复序列标记步骤。默认设置为 markdup。 - `-t NUMBER_THREADS`:软件运行并行进程所使用的计算线程数。若省略,流程将使用服务器拥有的所有线程。 - `-h`:打印命令行帮助并退出。 ## 2. 从未比对的短读长和长读长数据进行胚系变异检测 运行单个命令从未比对的短读段和长读段数据中调用SNP、Indel、SV和CNV: sentieon-cli dnascope-hybrid \ -r REFERENCE \ --sr_r1_fastq SR_R1_FQ [SR_R1_FQ ...] \ --sr_r2_fastq SR_R2_FQ [SR_R2_FQ ...] \ --sr_readgroups SR_READGROUP [SR_READGROUP ...] \ --lr_aln LR_ALN [LR_ALN ...] \ --lr_align_input \ -m MODEL_BUNDLE \ [-b DIPLOID_BED] \ [--bam_format] \ [-d DBSNP] \ [--dry_run] \ [--gvcf] \ [--sr_duplicate_marking MARKDUP] \ [-t NUMBER_THREADS] \ sample.vcf.gz DNAscope Hybrid流程需要以下必备参数: - `--sr_r1_fastq`:gzipped FASTQ格式的R1短读段输入数据。可以在参数后输入多个文件。 - `--sr_r2_fastq`:gzipped FASTQ格式的R2短读段输入数据。可以在参数后输入多个文件。 - `--sr_readgroups`:对应每个FASTQ的读组信息。流程将期望--sr_r1_fastq和--sr_readgroups有相同数量的参数。 - 示例参数为"`@RG\tID:HG002-1\tSM:HG002\tLB:HG002-LB-1\tPL:ILLUMINA`" - `--lr_aln`:uBAM或uCRAM格式的长读段输入数据。可以在参数后输入多个文件。 - `--lr_align_input`:指示流程对输入的长读段进行比对。 DNAscope Hybrid流程接受以下可选参数: - `--bam_format`:对输出的比对文件使用BAM格式而不是默认的CRAM格式。 - `--lr_input_ref`:用于解码输入长读段文件的参考fasta。长读段uCRAM或CRAM输入时需要,可以与-r参数使用的fasta不同。 ------------ # 五、输出结果 ## 1. 默认输出文件类型 - VCF格式的小变异(SNP和Indel) - VCF格式的结构变异(SV) - VCF格式的拷贝数变异(CNV) - 如果输入未比对的reads,还会输出BAM或CRAM格式的比对结果。 ## 2. 输出文件列表 DNAscope Hybrid流程输出以下文件: - `sample.vcf.gz`:-b DIPLOID_BED文件中定义的基因组区域的SNV和indel变异检测。 - `sample.sv.vcf.gz`:Sentieon LongReadSV工具的结构变异检测。 - `sample.cnv.vcf.gz`:Sentieon CNVscope工具的拷贝数变异检测。 - `sample_deduped.cram`:来自输入FASTQ文件的已比对、坐标排序和重复标记的短读段数据。 - `sample_mm2_sorted_*.cram`:来自输入uBAM、uCRAM、BAM或CRAM文件的已比对和坐标排序的长读段。 - `sample_metrics`:包含已分析样本的质控指标的目录。 ------------ # 六、故障排除 ## 错误提示:"输入...具有不同的RG-SM标签" 当流程检测到输入文件具有(或将具有)不同的读组标签时,会出现此错误。要修复此错误,请使用--rgsm参数在变异检测过程中调整输入文件的SM标签。请注意,使用此参数时,输入文件中的所有读数都将在变异检测过程中被使用。 ------------ # 七、总结 DNAscope Hybrid不仅适用于全基因组测序数据分析,还支持靶向测序分析(如Twist Alliance Dark Genes Panel),展现出了高鲁棒性和多功能性,使其成为对准确性和全面性要求极严苛的临床诊断场景的理想选择。下一篇将展示与现有方法相比,DNAscope Hybrid在基准测试中所拥有的卓越性能,进一步印证Sentieon在混合数据分析领域的创新。 当前,长读长-短读长混合测序分析领域正处于高速迭代期,Sentieon团队将持续对DNAscope Hybrid进行优化,朝着更高的准确性、更强的通量和更低的成本三个维度实现突破。将与行业伙伴共同推动精准医疗的发展,助力基因组学研究和应用迈向新的高度。
chsnp
2026年1月29日 17:58
转发
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
Word文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码
有效期