Sentieon
Sentieon 中文手册
Sentieon 中文手册(上册)
Sentieon 中文手册(下册)
Sentieon 软件应用教程
Sentieon | 应用教程: 使用DNAscope对HiFi长读长数据进行胚系变异检测分析
Sentieon | 应用教程: 利用Sentieon Python API引擎为自研算法加速
Sentieon | 应用教程: 关于读段组的建议
Sentieon | 应用教程: TNscope® 使用机器学习模型进行有匹配正常样本的体细胞变异发现
Sentieon | 应用教程: CCDG使用Sentieon®的功能等效流程
Sentieon | 应用教程: 利用共识功能去除PCR重复
Sentieon | 应用教程: 适用于PacBio HiFi和Oxford Nanopore长读长测序数据的结构变异检测
Sentieon | 应用教程: 使用 Sentieon进行大型基因组重测序分析
Sentieon | 应用教程: 体细胞SNP/Indel变异检测
Sentieon | 应用教程: DNAscope使用机器学习模型进行胚系变异调用
Sentieon | 应用教程: 唯一分子标识符(UMI)
Sentieon | 应用教程: Sentieon分布模式
Sentieon | 应用教程:使用CNVscope进行CNV检测分析
Sentieon发布核心家系(trio)基因分析最佳实践方案
Sentieon推出Segdup-caller:针对片段重复区域的专用精准变异检测工具
Sentieon软件版本更新
Sentieon | 发布V202503.01版本
Sentieon | 发布V202503.02版本
Sentieon软件快速入门指南
Sentieon 软件模块总述
Sentieon 特色流程 - DNAscope
Sentieon | DNAscope Illumina 流程
sentieon | DNAscope Complete Genomics 流程
Sentieon | DNAscope LongRead PacBio 流程
Sentieon | DNAscope Ultima Genomics 流程
Sentieon | DNAscope Element Bio 流程
Sentieon | DNAscope LongRead Nanopore 流程
Sentieon混合分析流程 - DNAscope Hybrid
Sentieon推出混合型短读长和长读长变异检测DNAscope Hybrid流程(上)
Sentieon推出混合型短读长和长读长变异检测DNAscope Hybrid流程(下)
毅硕Sentieon | 泛基因组分析流程详解
毅硕Sentieon | RNA-seq 变异检测全流程详解
毅硕Sentieon | 物种全基因组(WGS)分析流程
毅硕Sentieon | 植物全基因组(GWS)分析流程
毅硕Sentieon | 小麦(Triticum_aestivum)全基因组WGS分析流程
毅硕Sentieon | 水稻(Oryza_sativa)全基因组WGS分析流程
毅硕Sentieon | 拟南芥(Arabidopsis_thaliana)全基因组WGS分析流程
毅硕Sentieon | 马铃薯(Solanum_tuberosum)全基因组WGS分析流程
毅硕Sentieon | 巨桉(Eucalyptus grandis)全基因组WGS分析流程
毅硕Sentieon | 向日葵(Helianthus annuus)全基因组WGS分析流程
毅硕Sentieon | 野草莓(Fragaria vesca)全基因组WGS分析流程
毅硕Sentieon | 银杏(Ginkgo biloba)全基因组WGS分析流程
毅硕Sentieon | 大豆(Glycine max)全基因组WGS分析流程
毅硕Sentieon | 陆地棉(Gossypium hirsutum)全基因组WGS分析流程
毅硕Sentieon | 动物全基因组(WGS)分析流程
毅硕Sentieon | 猪(sus scrofa)全基因组WGS分析流程
毅硕Sentieon | 鸡(Gallus gallus)全基因组WGS分析流程
毅硕Sentieon | 家鼠(Mus musculus)全基因组WGS分析流程
毅硕Sentieon | 家犬(canis lupus familiaris)全基因组WGS分析流程
毅硕Sentieon | 东方蜜蜂(Apis cerana)全基因组WGS分析流程
毅硕Sentieon | 电鳗(Electrophorus electricus)全基因组WGS分析流程
毅硕Sentieon | 红隼(Falco tinnunculus)全基因组WGS分析流程
毅硕Sentieon | 家猫(Felis catus)全基因组WGS分析流程
毅硕Sentieon | 尼罗罗非鱼(Oreochromis niloticus)全基因组WGS分析流程
毅硕Sentieon文献解读
Sentieon文献解读 | Population Sequencing
Sentieon文献解读 | Agrigenomics
Sentieon | Agrigenomics-泛基因组揭示小麦结构变异与栖息地及育种的关联
Sentieon文献解读 | Genetic Disease
Sentieon文献解读 | Tumor Sequencing
Sentieon文献解读 | Benchmark and Method Study
Sentieon文献解读 | Long Read Sequencing
Sentieon文献解读 | Clinical Trial
Sentieon文献解读 | Epidemiology
Sentieon文献解读 | Gene Editing
Sentieon文献解读 | Liquid Biopsy
-
+
首页
Sentieon | 应用教程: 使用 Sentieon进行大型基因组重测序分析
# 一、介绍 全基因组重测序是通过对已有参考序列(Reference Sequence)的物种的不同个体进⾏基因组测序,并以此为基础进⾏个体或群体水平的遗传差异性分析。通过全基因组重测序,研究者可以找到大量的单核苷酸多态性位点(SNP)、拷贝数变异(Copy Number Variation,CNV)、插⼊缺失(InDel, Insertion/Deletion)、结构变异(Structure Variation,SV)等变异位点。以往研究者对于大型基因组的处理常常因分析流程中不同分析软件对于⼤型染⾊体的支持差而不得不采取折中的办法来对大型染色体进行拆分处理。  <center>图 1. 小麦基因组研究中的染色体拆分处理</center> **为了解决以上问题,Sentieon 在v202308.01 版本中增加csi 格式索引支持并为大型基因组长染色体处理提供了完整解决方案。** --- # 二、Sentieon大型基因组重测序分析示例 由于 bai 格式索引的限制以及大型基因组重测序数据存储的问题,Sentieon 在大型基因组重测序比对部分需要生成 cram 格式及相应的索引文件。在指定了 cram 格式之后,Sentieon 后续的 remove duplicate、 BQSR 等步骤则均需要指定相同的参考基因组文件。在后续变异检测过程中,Sentieon 会根据输入数据生成带 csi 索引的 GVCF 文件,为后续大型基因组 joint calling 提供了后续的支持。 以下将以异源六倍体小麦分析过程代码为示例。 ``` SM_id=$1 # SampleID WORKDIR=$2 FASTQ_1=$3 # clean read1 FASTQ_2=$4 # clean read2 FASTA=$5 # 参考基因组 SM=$SM_id RGID="rg_$SM" PL="ILLUMINA" # 测序平台 # 软件环境和证书 # 根据机器配置指定⽐对过程使⽤的内存⼤⼩ export bwt_max_mem=48G tmpdir=/tmp # 中间⽂件临时⽬录 # Other settings NT=$(nproc) # 分析使⽤的线程数,默认使⽤计算节点上的所有线程数 # ****************************************** # 0. Setup # ****************************************** [ -e $WORKDIR ]||mkdir -p $WORKDIR LOGFILE=$WORKDIR/${SM}_run.log exec >>$LOGFILE 2>&1 cd $WORKDIR # ****************************************** # 1. Mapping reads with BWA-MEM, sorting # ****************************************** ( $SENTIEON_INSTALL_DIR/bin/sentieon bwa mem -R "@RG\tID:$RGID\tSM:$SM\tPL:$PL" \ -t $NT -K 10000000 $FASTA $FASTQ_1 $FASTQ_2 || { echo -n 'BWA error'; exit 1; } ) | \ $SENTIEON_INSTALL_DIR/bin/sentieon util sort --temp_dir $tmpdir -r $FASTA -o ${SM}-sorted.cram -t $NT \ --sam2bam -i - || { echo "Alignment failed"; exit 1; } # 标记重复 $SENTIEON_INSTALL_DIR/bin/sentieon driver --temp_dir $tmpdir -r $FASTA -t $NT -i ${SM}-sorted.cram --algo LocusCollector \ --fun score_info $SM.score.txt || { echo "LocusCollector failed"; exit 1; } $SENTIEON_INSTALL_DIR/bin/sentieon driver --temp_dir $tmpdir -r $FASTA -t $NT -i ${SM}-sorted.cram --algo Dedup \ --score_info $SM.score.txt --metrics $SM.dedup_metrics.txt $SM.deduped.cram || \ { echo "Dedup failed"; exit 1; } # Metrics $SENTIEON_INSTALL_DIR/bin/sentieon driver --temp_dir $tmpdir -r $FASTA -t $NT -i ${SM}.deduped.cram \ --algo WgsMetricsAlgo WGS_METRICS.txt \ --algo MeanQualityByCycle $SM.mq_metrics.txt \ --algo QualDistribution $SM.qd_metrics.txt \ --algo GCBias --summary $SM.gc_summary.txt $SM.gc_metrics.txt \ --algo AlignmentStat $SM.aln_metrics.txt \ --algo BaseDistributionByCycle $SM.bd_metrics.txt \ --algo QualityYield $SM.qy_metrics.txt \ --algo InsertSizeMetricAlgo $SM.is_metrics.txt || \ { echo "Metrics failed"; exit 1; } $SENTIEON_INSTALL_DIR/bin/sentieon plot GCBias -o $SM.gc-report.pdf $SM.gc_metrics.txt $SENTIEON_INSTALL_DIR/bin/sentieon plot QualDistribution -o $SM.qd-report.pdf $SM.qd_metrics.txt $SENTIEON_INSTALL_DIR/bin/sentieon plot MeanQualityByCycle -o $SM.mq-report.pdf $SM.mq_metrics.txt $SENTIEON_INSTALL_DIR/bin/sentieon plot InsertSizeMetricAlgo -o $SM.is-report.pdf $SM.is_metrics.txt # ****************************************** # 5. Base recalibration # ****************************************** KNOWN_DBSNP=WHEAT.variant.vcf.gz $SENTIEON_INSTALL_DIR/bin/sentieon driver --temp_dir $tmpdir -r $FASTA -t $NT -i $SM.deduped.cram --algo QualCal \ -k $KNOWN_DBSNP recal_data.table $SENTIEON_INSTALL_DIR/bin/sentieon driver --temp_dir $tmpdir -r $FASTA -t $NT -i $SM.deduped.cram -q recal_data.table \ --algo QualCal -k $KNOWN_DBSNP recal_data.table.post $SENTIEON_INSTALL_DIR/bin/sentieon driver --temp_dir $tmpdir -t $NT -- algo QualCal --plot \ --before recal_data.table --after recal_data.table.post recal.csv $SENTIEON_INSTALL_DIR/bin/sentieon plot QualCal -o recal_plots.pdf recal.csv # 变异检测 mode=gvcf # gvcf output gVCF; variant output VCF $SENTIEON_INSTALL_DIR/bin/sentieon driver --temp_dir $tmpdir -q recal_data.table.post -r $FASTA -t $NT -i $SM.deduped.cram \ --algo Haplotyper --emit_conf=30 --call_conf=30 --emit_mode $mode -- ploidy 2 \ $SM-output-hc.$mode.gz || { echo "Haplotyper failed"; exit 1; } ``` 分析目录相关结果如下:  小麦样本全基因组分析测试信息:  --- # 三、总结 Sentieon v202308.01 版本更新中,增加了 csi格式索引支持。通过在比对过程生成 cram 文件+csi 格式 GVCF索引,Sentieon 处理大型基因组重测序分析更加丝滑。 [**想了解更多Sentieon软件应用教程,可以点击此处进行跳转**](https://doc.insvast.com/doc/10/)
chsnp
2025年11月26日 17:31
转发
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
Word文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码
有效期