Sentieon
Sentieon 中文手册
Sentieon 中文手册(上册)
Sentieon 中文手册(下册)
Sentieon 软件应用教程
Sentieon | 应用教程: 使用DNAscope对HiFi长读长数据进行胚系变异检测分析
Sentieon | 应用教程: 利用Sentieon Python API引擎为自研算法加速
Sentieon | 应用教程: 关于读段组的建议
Sentieon | 应用教程: TNscope® 使用机器学习模型进行有匹配正常样本的体细胞变异发现
Sentieon | 应用教程: CCDG使用Sentieon®的功能等效流程
Sentieon | 应用教程: 利用共识功能去除PCR重复
Sentieon | 应用教程: 适用于PacBio HiFi和Oxford Nanopore长读长测序数据的结构变异检测
Sentieon | 应用教程: 使用 Sentieon进行大型基因组重测序分析
Sentieon | 应用教程: 体细胞SNP/Indel变异检测
Sentieon | 应用教程: DNAscope使用机器学习模型进行胚系变异调用
Sentieon | 应用教程: 唯一分子标识符(UMI)
Sentieon | 应用教程: Sentieon分布模式
Sentieon | 应用教程:使用CNVscope进行CNV检测分析
Sentieon发布核心家系(trio)基因分析最佳实践方案
Sentieon推出Segdup-caller:针对片段重复区域的专用精准变异检测工具
Sentieon软件版本更新
Sentieon | 发布V202503.01版本
Sentieon | 发布V202503.02版本
Sentieon软件快速入门指南
Sentieon 软件模块总述
Sentieon 特色流程 - DNAscope
Sentieon | DNAscope Illumina 流程
sentieon | DNAscope Complete Genomics 流程
Sentieon | DNAscope LongRead PacBio 流程
Sentieon | DNAscope Ultima Genomics 流程
Sentieon | DNAscope Element Bio 流程
Sentieon | DNAscope LongRead Nanopore 流程
Sentieon混合分析流程 - DNAscope Hybrid
Sentieon推出混合型短读长和长读长变异检测DNAscope Hybrid流程(上)
Sentieon推出混合型短读长和长读长变异检测DNAscope Hybrid流程(下)
Sentieon | 泛基因组分析流程详解
Sentieon | 物种全基因组(WGS)分析流程
Sentieon | 植物全基因组(GWS)分析流程
毅硕Sentieon | 小麦(Triticum_aestivum)全基因组WGS分析流程
毅硕Sentieon | 水稻(Oryza_sativa)全基因组WGS分析流程
毅硕Sentieon | 拟南芥(Arabidopsis_thaliana)全基因组WGS分析流程
毅硕Sentieon | 马铃薯(Solanum_tuberosum)全基因组WGS分析流程
毅硕Sentieon | 巨桉(Eucalyptus grandis)全基因组WGS分析流程
毅硕Sentieon | 向日葵(Helianthus annuus)全基因组WGS分析流程
毅硕Sentieon | 野草莓(Fragaria vesca)全基因组WGS分析流程
毅硕Sentieon | 银杏(Ginkgo biloba)全基因组WGS分析流程
毅硕Sentieon | 大豆(Glycine max)全基因组WGS分析流程
毅硕Sentieon | 陆地棉(Gossypium hirsutum)全基因组WGS分析流程
Sentieon | 动物全基因组(WGS)分析流程
毅硕Sentieon | 猪(sus scrofa)全基因组WGS分析流程
毅硕Sentieon | 鸡(Gallus gallus)全基因组WGS分析流程
毅硕Sentieon | 家鼠(Mus musculus)全基因组WGS分析流程
毅硕Sentieon | 家犬(canis lupus familiaris)全基因组WGS分析流程
毅硕Sentieon | 东方蜜蜂(Apis cerana)全基因组WGS分析流程
毅硕Sentieon | 电鳗(Electrophorus electricus)全基因组WGS分析流程
毅硕Sentieon | 红隼(Falco tinnunculus)全基因组WGS分析流程
毅硕Sentieon | 家猫(Felis catus)全基因组WGS分析流程
毅硕Sentieon | 尼罗罗非鱼(Oreochromis niloticus)全基因组WGS分析流程
Sentieon文献解读
Sentieon文献解读 | Population Sequencing
Sentieon文献解读 | Agrigenomics
Sentieon | Agrigenomics-泛基因组揭示小麦结构变异与栖息地及育种的关联
Sentieon文献解读 | Genetic Disease
Sentieon文献解读 | Tumor Sequencing
Sentieon文献解读 | Benchmark and Method Study
Sentieon文献解读 | Long Read Sequencing
Sentieon文献解读 | Clinical Trial
Sentieon文献解读 | Epidemiology
Sentieon文献解读 | Gene Editing
Sentieon文献解读 | Liquid Biopsy
-
+
首页
Sentieon发布核心家系(trio)基因分析最佳实践方案
# 一、背景介绍 在罕见病诊断中,单样本基因组/ 外显子组测序常面临 “瓶颈”—— 无法判断变异是否呈现家系共分离,漏检率高,致病变异筛选如同 “大海捞针”。而核心家系分析(先证者 + 生物学父母联合测序)恰好破解这一难题:若父母未患病,其基因组变异大概率与孩子病情无关,可大幅缩小候选致病变异范围。 研究数据印证了这一优势:进行核心家系分析的儿童,诊断率比单样本分析约高5 倍;平均仅向临床团队报告 1 个候选变异(单样本分析平均报告 2.5 个),“10万基因组计划” 也显示,核心家系检测的患者最易获得确诊结果。 Sentieon 的 DNAscope 流程基于预训练机器学习模型,已实现单样本分析准确度的大幅提升。如今,针对核心家系分析需求,Sentieon 推出专属流程,聚焦孟德尔错误(ME) 与新生突变(Denovo Mutation) 的精准识别,进一步降低假阳性、减少漏检,为临床诊断提供更可靠的数据支撑。 --- # 二、适用场景 **研究对象**:疑似罕见病患者及其父母(核心家系); **数据类型**:全基因组测序(WGS)数据,支持 PCR-free 和 PCR 建库样本; **核心目标**:判断变异的家系共分离模式;精准识别孟德尔错误位点;高效筛选对诊断至关重要的新生突变。 --- ## 1. 环境必备 - 软件授权:Sentieon license - 软件下载:[https://ftp.insvast.com/user/Sentieon/release/arm-sentieon-genomics-202503.02.tar.gz](https://ftp.insvast.com/user/Sentieon/release/arm-sentieon-genomics-202503.02.tar.gz) - 软件下载用户名:insvast;密码:Ins@1234; - 模型下载:https://github.com/Sentieon/sentieon-models/ --- ## 2. 分析流程 该分析流程主要针对家系WGS 的数据,核心目标是准确识别先证者的 de novo 突变。流程通过 **“初步检测→联合调用→筛选孟德尔不兼容变异→重调用优化→二次联合调用”** 的步骤,逐步提高变异检测的准确性,最终输出高质量的家系变异结果,尤其是新突变的注释信息。  该流程用于处理家系(trio,通常指先证者及其父母)全基因组测序数据的变异检测,使用Sentieon和bcftools进行分析。核心分析流程如下: **步骤1:单样本变异检测** 使用DNAscope对家系每个样本进行变异检测,生成 GVCF。 ``` # 先证者变异检测 sentieon-cli dnascope -r FASTA --r1-fastq P_FQ1 --r2-fastq P_FQ2 \ --readgroups "@RG\tID:proband_name\tSM:proband_name\tPL:platform" \ -m MODEL_BUNDLE -d dbsnp --duplicate-marking rmdup \ --assay WGS --gvcf --skip-svs --skip-multiqc --pcr-free proband_name.vcf.gz # 父亲/母亲变异检测(命令结构与先证者一致,仅样本名和输入文件不同) sentieon-cli dnascope ... father_name.vcf.gz sentieon-cli dnascope ... mother_name.vcf.gz ``` **步骤2:家系联合基因型进行初轮联合变异检测** 使用GVCFtyper合并三人GVCF生成初步联合VCF。 ``` sentieon driver -r FASTA --algo GVCFtyper \ -v proband_name.g.vcf.gz -v father_name.g.vcf.gz -v mother_name.g.vcf.gz \ joint-call_pass1.vcf.gz ``` **步骤3: de novo 突变检测** 检测家系中的de novo 突变,添加DNM标签标记新发突变位点。 ``` bcftools +trio-dnm2 -p proband_name,father_name,mother_name -X GRCh38 \ -o trio-dnm2.output.vcf.gz -Oz --use-NAIVE joint-call_pass1.vcf.gz ``` **步骤4:变异位点分类** 对变异位点进行分类,筛选孟德尔兼容/ 不兼容变异。 ``` # 筛选孟德尔不兼容变异(可能是DNM) bcftools view -i "FMT/DNM[0]==1" trio-dnm2.output.vcf.gz | \ sentieon util vcfconvert - mendelian-incompatible.vcf.gz # 筛选孟德尔兼容变异(符合遗传规律) bcftools view -e "FMT/DNM[0]==1" trio-dnm2.output.vcf.gz | \ sentieon util vcfconvert - mendelian-compatible.vcf.gz ``` **步骤5:重召回孟德尔不兼容变异** ``` sentieon driver -r FASTA \ -i proband_name_deduped.cram -i father_name_deduped.cram -i mother_name_deduped.cram \ --algo DNAscope --pcr_indel_modelnone --given mendelian-incompatible.vcf.gz \ --model MODEL_BUNDLE/dnascope.model mendelian-incompatible.recalled.vcf.gz ``` **步骤6:筛选高置信度重召回结果** ``` bcftools view -e "QUAL<qual_thresh" mendelian-incompatible.recalled.vcf.gz | \ sentieon util vcfconvert - mendelian-incompatible.recalled.highconf.vcf.gz ``` **步骤7:合并结果并进行第二次联合调用** ``` bcftools concat --allow-overlaps mendelian-compatible.vcf.gz \ mendelian-incompatible.recalled.highconf.vcf.gz | \ bcftools sort - | sentieon util vcfconvert - joint-call_pass2.vcf.gz ``` **步骤8:第二次检测 de novo 突变并建立索引** ``` bcftools +trio-dnm2 -p proband_name,father_name,mother_name -X GRCh38 \ -o trio-dnm2.joint-call_pass2.vcf.gz -Oz --use-NAIVE joint-call_pass2.vcf.gz sentieon util vcfindex trio-dnm2.joint-call_pass2.vcf.gz ``` **参数说明** - `FASTA`:参考基因组 FASTA 文件路径,需与比对阶段使用的参考一致(如hg38的hs38.fa); - `dbsnp`:dbSNP 数据库 VCF 文件路径,用于变异注释(如hg38的dbsnp138版本); - `MODEL_BUNDLE`:DNAscope 预训练模型路径,需使用与数据平台匹配的模型(如Illumina WGS 的2.0 版本); - `--readgroups`:读组信息,需包含 ID(Read Group ID,读组ID)、SM(样本名)、PL(测序平台,如Illumina); - `--duplicate-marking`:PCR重复标记与处理,rmdup为去除重复,none为不处理(预处理阶段建议rmdup); **结果说明** triodnm2.joint-call_pass2.vcf.gz是整个家系(trio)变异检测流程的核心输出文件之一,专门用于存储经过二次优化后筛选出的de novo 突变(DNM,即先证者中出现、父母均未携带的新突变)信息。该文件遵循 VCF标准格式,是基因组变异数据的通用存储格式。其中家系 DNM 相关注释如下: 1. ##FORMAT=<ID=DNM,Number=1,Type=Integer,Description="De novo mutation status (1=de novo, 0=not de novo, .=unknown)">:关键字段,标记该变异是否为 DNM(1 表示是 DNM)。 3. ##INFO=<ID=TRIO_STATUS,Number=1,Type=String,Description="Relationship status in trio (e.g., mendelian_compatible, de_novo)">:描述变异在家系中的遗传状态(如 “de_novo” 表示符合 DNM 特征)。 --- # 三、DNAscope 核心家系设计优势 Sentieon 核心家系流程的准确性依赖以下核心设计: 1. **双轮迭代策略**:PASS 1 通过联合调用筛选候选 ME 位点,PASS 2 通过多样本共比对(co-alignment)重新召回,修正单样本漏检导致的假阳性; 3. **真集训练与验证**:模型训练与流程验证采用 HG002 T2T(端到端)基因组真集及泛基因组样本,确保对复杂区域变异的准确识别; 4. **样本适配性**:同时支持 PCR-free 与 PCR 建库样本,通过动态参数调整(如--pcr-free、qual_thresh)适配不同实验条件。 --- # 四、分析流程评测 为检测流程的准确率,我们分析了瓶中基因组核⼼家系标准品HG002、HG003、HG004的30 x Illmina WGS的PCR-free建库数据集。将检测得到的结果和真集中的ME进行比较,计算准确率。几乎不存在漏检,假阳性也被控制在⼀个合理的区间,如下图所示:  <center>SNP与INDEL变异检测的准确性评估</center> - TP(真阳性):在样本最终MElist中被列出,同时也存在于真集的MElist 。 - FN(假阴性):存在于真集中但不在样本的最终MElist,表明该位点在先证者数据中被漏检或者错检。 - FP(假阳性):存在于样本的最终MElist 但是不在真集中,表明该位点在先证者数据中就是假阳性或者在父母样本中漏检。 [**想了解更多Sentieon软件应用教程,可以点击此处进行跳转**](https://doc.insvast.com/doc/10/)
chsnp
2026年2月4日 09:55
转发
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
Word文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码
有效期