毅硕Sentieon | 泛基因组分析流程详解

在传统的基因组学中，我们习惯于将一个“参考基因组”视为一个物种的遗传“标准答案”。然而，这就像仅凭一张标准户型图去理解所有家庭的房屋户型，必然会遗漏大量个性化的细节。
 
泛基因组（Pan-genome）的提出，彻底打破了这一局限，为我们描绘了一幅更为宏大、精准且动态的物种遗传图谱。

***

# <center> 泛基因组基本信息</center>

## 一、泛基因组核心概念

泛基因组：指的是一个物种所有个体中全部基因的集合。它不再依赖于单个参考基因组，而是承认没有任何一个个体能够拥有其物种的全部基因。

![gr1_lrg](https://img2024.cnblogs.com/blog/3218664/202510/3218664-20251030100010646-678990853.jpg)

<center>图1  植物泛基因组中与可变DNA序列相关的结构变异(SVs)的主要驱动力概述 </center>

为更好地理解泛基因组，科学家将其划分为三个部分：

**1.  核心基因组（Core Genome）**

定义：在所有或绝大多数（通常＞95%）个体中都存在的基因集合。 
角色：它们是物种的“生存必需品”，编码维持基本生命活动所必需的蛋白质，如基础代谢、DNA复制、核糖体组装等。这是物种稳定的遗传基础。

**2.  可变基因组（Dispensable / Variable / Accessory Genome）**

定义：只存在于部分个体中。 
角色：它们是物种的“自适应工具包”，通常与环境适应性和功能多样性密切相关。例如：
- 抗生素耐药性基因
- 致病因子（毒力基因）
- 特殊代谢途径（如降解某种污染物的能力）

**3.  独特基因组（Unique/Strain-Specific Genes）**

定义：仅存在于某一个特定个体中的基因。 
角色：通常是最近通过水平基因转移（HGT） 或快速进化产生的新基因，赋予了该个体极其独特的性状。

**一个生动的比喻：乐高模型**

单一参考基因组：就像是一辆标准版乐高跑车的说明书。
泛基因组：则是整个乐高汽车系列所有型号（跑车、卡车、消防车、警车）的全部零件库。
- 核心基因组：是所有型号都必需的通用零件（车轮、车窗）。
- 可变基因组：是某些型号特有的功能零件（消防车的云梯、警车的警灯）。
- 独特基因组：可能是某款限量版独有的特殊装饰零件。

![pp720411](https://img2024.cnblogs.com/blog/3218664/202510/3218664-20251030100136968-2121984454.gif)

<center>图2  核心基因与非核心基因示意图</center>

***

## 二、泛基因组研究的重要性

**1.  弥补参考基因组的缺陷**

微生物或高等动植物个体间的基因内容差异巨大。研究表明，在某些细菌物种中，高达30%-40%的基因不存在于参考基因组中。而泛基因组分析能全面回收这些“缺失的遗传力”。

**2.  精准追踪病原体与抗生素耐药性**

许多毒力因子和耐药基因都位于可变基因组中。通过构建病原菌（如肺炎链球菌、大肠杆菌）的泛基因组，可以精准追踪这些危险基因的传播轨迹和组合方式，为流行病学调查和公共卫生干预提供关键线索。

**3.  驱动下一代动植物育种革命**

这是泛基因组在农业中最激动人心的应用。作物的泛基因组（如水稻、番茄、玉米）揭示了现代高产栽培品种在驯化过程中丢失的大量优异基因（如抗病、抗逆、风味物质合成基因）。育种家可以将这些“丢失的宝藏”重新引入品种，培育出更强壮、更美味、更环境友好的新品种。

![屏幕截图 2025-10-14 105130](https://img2024.cnblogs.com/blog/3218664/202510/3218664-20251030100317749-1631142484.jpg)

<center>图3  泛基因组在遗传变异发掘和植物分子育种中应用</center>

![gr3_lrg](https://img2024.cnblogs.com/blog/3218664/202510/3218664-20251030100333921-1130140955.jpg)

<center>图4 泛基因组在遗传研究和育种实践中的应用</center>

**4.  助力人类精准医学**

人类泛基因组参考联盟（HPRC） 正致力于构建代表全球人群多样性的泛基因组参考。这将极大地改善基于欧洲人群单一参考基因组的偏差，让遗传病诊断、药物基因组学研究等更精准地服务于全人类。

## 三、植物泛基因组的主要研究进展及应用

目前，研究人员已在水稻、玉米、小麦、大豆、棉花、高粱、番茄等十余种作物中，通过Map-to-pan策略、全基因组序列比对或图形基因组技术成功构建了泛基因组图谱。这些泛基因组所包含的序列集合大小可达到单一线性基因组的3倍以上，显著扩展了遗传变异的覆盖范围。借助泛基因组图谱，全基因组关联分析（GWAS）能够检测到以往基于单个基因组无法识别的基因位点，进一步凸显了泛基因组在结构完整性和变异检测准确性方面的优势。

此外，相关研究还系统总结了泛基因组中非编码区域的多态性特征，以及整合多个物种形成的“超级泛基因组”资源，强调了挖掘非编码区功能变异及利用野生种基因资源在作物改良中的重要作用。

![gr2_lrg](https://img2024.cnblogs.com/blog/3218664/202510/3218664-20251030100255790-274928181.jpg)

<center>图5 植物参考基因组构建(上)和植物泛基因组表征方法(下)的主要事件时间线</center>

**泛基因组研究流程：** 构建全景（特征分析）→ 深度挖掘（变异分析/新基因鉴定）→ 历史解读（系统进化）→ 实践应用（群体变异与育种）。

***

# <center>Sentieon泛基因组分析流程</center>

Sentieon泛基因组流程是一个利用泛基因组图进行短读长DNA序列数据比对和变异识别的分析流程。该流程基于图结构的参考基因组表示法，旨在提升比对和变异检测的分析效率和精度，特别是在具有高序列多样性的复杂基因组区域中。

该流程使用vg工具包进行泛基因组比对和结构变异识别。Sentieon工具用于小变异识别、CNV检测、片段重复变异识别、数据预处理和质量指标收集。此外，还使用专门工具进行HLA/KIR基因分型和重复扩增分析。

流程接受FASTQ格式的未比对的reads作为输入，输出VCF格式的变异结果、BAM格式的比对后的reads以及全面的质量控制指标。

## 一、系统环境

**1.  软件安装包（Sentieon 202503版本或更高版本）**

下载链接：
https://insvast-download.oss-cn-shanghai.aliyuncs.com/Sentieon/release/sentieon-genomics-202503.01.tar.gz

**2.  CLI 系统环境配置**

CLI安装：
```
curl -LO https://github.com/Sentieon/sentieon-cli/releases/download/v1.4.0/sentieon_cli-1.4.0.tar.gz
pip install sentieon_cli-1.4.0.tar.gz
```

环境配置：

```
python3 -m venv /path/to/new/virtual/environment/sentieon_cli
source /path/to/new/virtual/environment/sentieon_cli/bin/activate
pip install poetry
git clone https://github.com/sentieon/sentieon-cli.git
cd sentieon-cli
poetry install
```

**3.  配套工具**

|  软件    |  用途    |  版本要求    |
| ---- | ---- | ---- |
|vg|用于泛基因组比对操作的vg工具包|-|
|KMC|用于k-mer计数|KMC 3.0.0 或更高版本|
|samtools|用于比对操作|samtools 1.16或更高版本|
|bcftools|用于VCF操作|bcftools版本1.10或更高版本|
|MultiQC|用于生成指标报告汇总|MultiQC1.18或更高版本|
|T1K（可选）|用于HLA和KIR基因分型|- |
|ExpansionHunter（可选）|用于重复扩增识别|- |
|segdup-caller（可选）|用于片段重复变异识别|- |

这些可执行文件需要通过用户的PATH环境变量进行设置。

## 二、输入数据要求

**1.  参考基因组**

泛基因组流程将识别样本中相对于高质量参考基因组序列存在的变异。除了参考基因组文件外，还需要提供fasta索引文件（.fai）。

**2.  泛基因组图文件**

该流程需要以下几个泛基因组图文件：
- GBZ文件：GBZ格式的泛基因组图。
- 单倍型文件：泛基因组的单倍型信息。
- Snarls文件：GBZ文件对应的VG snarls文件（使用vg -snarls命令生成）。
- XG文件：GBZ文件对应的VG XG索引文件（使用vg convert命令生成）。

|  文件类型 |常见格式 |内容描述  |     
| ---- | ---- | ---- |
|图文件 |.gbz (GFA BZip） |这是泛基因组图的核心文件，以GFA格式存储图的节点（Node）和边（Edge）结构，并经过压缩。节点代表DNA序列片段，边表示序列片段之间的连接关系。 |
|单倍型文件 |.hapl |此文件记录了泛基因组图中已知的单倍型路径（Haplotype Path）信息。它指明了不同的序列路径如何组合成特定的单倍型。 |
|拓扑结构文件 | .snarls |由vg snarls命令生成，描述了图的拓扑结构。Snarls是图中的一个概念，指图中两个端点之间所有可能的路径结构，有助于简化复杂区域的分析。 |
|索引文件 |.xg |由vg convert命令生成，是vg工具用于快速查询和遍历泛基因组图的磁盘索引文件。它加速了对图中序列和路径的访问速度。 |
|序列文件 |.fasta |虽然泛基因组图本身整合了序列，但原始的参考基因组FASTA文件及其索引（.fai）通常仍是必需的输入，作为坐标投影和比对的基础。 |

**3.  模型包（Model bundle）**

需要一个包含用于变异识别的机器学习模型的Sentieon模型包。模型包文件可以在sentieon-models代码库中找到。

泛基因组模型下载链接：

https://s3.amazonaws.com/sentieon-release/other/SentieonIlluminaPangenomeWGS1.0.bundle

## 三、使用方法
**1.  从FASTQ进行泛基因组比对和变异识别**

通过运行单一命令即可将读段比对到泛基因组图，并识别小变异、SV和CNV：
```
sentieon-cli pangenome [-h] \
  -r REFERENCE \
  --gbz GBZ \
  --hapl HAPL \
  --snarls SNARLS \
  --xg XG \
  -m MODEL_BUNDLE \
  --r1_fastq R1_FASTQ ... \
  --r2_fastq R2_FASTQ ... \
  --readgroups READGROUPS ... \
  [-d DBSNP] \
  [--known_sites KNOWN_SITES ...] \
  [-t CORES] \
  [--kmer_memory KMER_MEMORY] \
  [--expansion_catalog EXPANSION_CATALOG] \
  [--t1k_hla_seq T1K_HLA_SEQ] \
  [--t1k_hla_coord T1K_HLA_COORD] \
  [--t1k_kir_seq T1K_KIR_SEQ] \
  [--t1k_kir_coord T1K_KIR_COORD] \
  [--segdup_caller_genes SEGDUP_CALLER_GENES] \
  [--dry_run] \
  sample.vcf.gz
```

**2.  泛基因组流程需要以下参数：**

`-r REFERENCE`：参考基因组FASTA文件的位置。同时需要对应的索引文件“.fai”。

`--gbz GBZ`：GBZ格式的泛基因组图文件。

`--hapl HAPL`：泛基因组的单倍型文件。

`--snarls SNARLS`：GBZ文件对应的vg snarls文件。

`--xg XG`：GBZ文件对应的XG文件。

`-m MODEL_BUNDLE`：包含DNAscope和CNVscope模型的模型包的位置。

`--r1_fastq R1_FASTQ`：R1输入的FASTQ文件。可指定多个文件。

`--r2_fastq R2_FASTQ`：R2输入的FASTQ文件。可指定多个文件。

`--readgroups READGROUPS`：每个FASTQ文件的读段组（readgroup）信息。示例参数为：`--readgroups "@RG\tID:HG002-1\tSM:HG002\tLB:HG002-LB-1\tPL:ILLUMINA"`。

`sample.vcf.gz`：输出小变异VCF文件的位置。流程要求输出文件以“.vcf.gz”为后缀。不带此后缀的文件路径将用作其他输出文件的基名称。

**3.  泛基因组流程接受以下可选参数：**

`-d DBSNP`：用于标记已知变异的单核苷酸多态性数据库（dbSNP）VCF文件的位置。需要提供VCF索引文件。

`--known_sites KNOWN_SITES`：用于 indel 重新比对的已知位点，VCF格式。需要提供VCF索引文件。

`-t CORES`：要使用的计算线程/核心数。默认为所有可用核心。

`--kmer_memory KMER_MEMORY`：KMC进行k-mer计数的内存限制（单位GB）。默认为128 GB。

`--expansion_catalog EXPANSION_CATALOG`：用于重复扩增识别的ExpansionHunter变异目录。

`--t1k_hla_seq T1K_HLA_SEQ`：用于T1K HLA分型的DNA HLA序列FASTA文件。需要与`--t1k_hla_coord`一起使用。

`--t1k_hla_coord T1K_HLA_COORD`：用于T1K HLA分型的DNA HLA坐标FASTA文件。需要与`--t1k_hla_seq`一起使用。

`--t1k_kir_seq T1K_KIR_SEQ`：用于T1K KIR分型的DNA KIR序列FASTA文件。需要与`--t1k_kir_coord`一起使用。

`--t1k_kir_coord T1K_KIR_COORD`：用于T1K KIR分型的DNA KIR坐标FASTA文件。需要与`--t1k_kir_seq`一起使用。

`--segdup_caller_genes SEGDUP_CALLER_GENES`：用于片段重复识别的基因。示例：`'CFH,CFHR3,CYP11B1,CYP2D6,GBA,NCF1,PMS2,SMN1,STRC'`。

`-h`：打印命令行帮助信息并退出。

`--dry_run`：打印流程命令，但不实际执行。

## 四、流程工作流
泛基因组流程包含多个阶段，通过两个有向无环图（DAG）执行：

**第一个DAG**

- K-mer计数：`kmc`从输入的FASTQ文件中计数k-mer。
- 样本特异性泛基因组：`vg haplotypes`利用k-mer频率创建样本特异性的泛基因组。
- 泛基因组比对：`vg giraffe`将读段比对到样本特异性泛基因组。
- 读段支持度计算：`vg pack`计算变异体的读段支持度。
- 结构变异识别：`vg call`根据读段支持度识别结构变异。
- 线性参考基因组比对：`vg surject`将泛基因组比对结果投射回线性参考基因组。
- 重复标记：`Sentieon Dedup`标记重复读段并计算相关指标。
- Indel重新比对：`Sentieon Realigner`执行indel重新比对。
- 小变异识别：`Sentieon DNAscope`识别小变异（SNV和indel）。
- 倍性估计：估计样本性别和倍性，用于下游处理。
- HLA/KIR基因分型：`T1K`对HLA和KIR基因座进行分型（可选）。
- 片段重复变异识别：`segdup-caller`识别片段重复区域的变异（可选）。

**第二个DAG**

- CNV识别：`Sentieon CNVscope`识别拷贝数变异，并进行性别特异性处理。
- 重复扩增识别：`ExpansionHunter`识别重复扩增（可选）。

## 五、流程输出

**1.  输出文件列表：**

处理全基因组测序（WGS）FASTQ时，会输出以下文件：

`sample.vcf.gz`：来自DNAscope的小变异识别结果（SNV和indel）。

`sample_pangenome-aligned.bam`：比对至线性参考基因组、经过坐标排序并标记了重复的读段数据。

`sample_svs.vcf.gz`：来自vg call的结构变异识别结果。

`sample_cnv.vcf.gz`：来自CNVscope的拷贝数变异识别结果。

`sample_ploidy.json`：估计的样本性别和倍性数据。

`sample_metrics`：一个包含所分析样本QC指标的目录。

`sample_metrics/{sample}.txt.alignment_stat.txt`：来自AlignmentStat算法的指标。

`sample_metrics/{sample}.txt.base_distribution_by_cycle.txt`：来自BaseDistributionByCycle算法的指标。

`sample_metrics/{sample}.txt.dedup_metrics.txt`：来自Dedup算法的指标。

`sample_metrics/{sample}.txt.gc_bias*`：来自GCBias算法的指标。

`sample_metrics/{sample}.txt.insert_size.txt`：来自InsertSizeMetricAlgo算法的指标。

`sample_metrics/{sample}.txt.mean_qual_by_cycle.txt`：来自MeanQualityByCycle算法的指标。

`sample_metrics/{sample}.txt.qual_distribution.txt`：来自QualDistribution算法的指标。

`sample_metrics/{sample}.txt.wgs.txt`：来自WgsMetricsAlgo算法的指标。

`sample_metrics/multiqc_report.html`：由MultiQC汇总的QC指标报告。

**2.  可选输出文件：**

当启用可选分析时，还会生成：

`sample_hla/`：来自T1K的HLA基因分型结果（当提供了HLA文件时）。

`sample_kir/`：来自T1K的KIR基因分型结果（当提供了KIR文件时）。

`sample_segdups/`：片段重复变异识别结果（当指定了基因时）。

`sample_expansion*`：来自ExpansionHunter的重复扩增识别结果（当提供了目录时）。

***
# <center>Sentieon泛基因组分析流程精度评估</center>

Sentieon 泛基因组分析工具在Complete Genomics T1+测序平台上分析标准数据集的检测精度，结果如下图所示：

![屏幕截图 2025-10-21 150918](https://img2024.cnblogs.com/blog/3218664/202510/3218664-20251030102458963-1096816689.jpg)

通过对Sentieon泛基因组分析工具在不同数据集上的性能评估显示，该工具展现出优异的变异检测能力。整体来看，在两个数据集中，F1 Score均达到0.98以上，证实其检测结果的可靠性和稳定性；SNP的检测准确度略高于INDEL；

在某些情况下，随着测序深度从30x到60x的增加，检测效果得到了显著提升，主要由于更高的测序深度能显著改善INDEL的检测，减少漏报。值得注意的是，尽管在T2T Q100数据集中观察到相对较多的错误检测，但其F1 Score仍然保持在较高水平。

***

# <center>Sentieon泛基因组分析示例</center>

## 一、运行前所需文件

**获取泛基因组组图文件**

1.  从HPRC存储库下载vg公共人类泛基因组：
```
curl -LO 
"https://s3-us-west-2.amazonaws.com/human-pangenomics/pangenomes/freeze/freeze1/minigraph-cactus/hprc-v1.1-mc-grch38/hprc-v1.1-mc-grch38.gbz"
curl -LO 
"https://s3-us-west-2.amazonaws.com/human-pangenomics/pangenomes/freeze/freeze1/minigraph-cactus/hprc-v1.1-mc-grch38/hprc-v1.1-mc-grch38.hapl"
```
2.  使用vg snarls从.gbz文件生成snarls文件：
```
vg snarls hprc-v1.1-mc-grch38.gbz > hprc-v1.1-mc-grch38.snarls
```
3.  使用vg convert从.gbz文件生成xg文件：
```
vg convert -x --drop-haplotypes hprc-v1.1-mc-grch38.gbz > hprc-v1.1-mc-grch38.xg
```

**下载hg38参考基因组**

下载参考fasta文件和samtools faidx文件：
```
curl -L 
'https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz' | gzip -dc > GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna
curl -LO 
'https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.fai'
```

**下载临床相关扩增的扩展目录**
```
curl -L 
'https://github.com/Illumina/ExpansionHunter/raw/refs/tags/v5.0.0/variant_catalog/hg38/variant_catalog.json' > hg38_variant_catalog.json
```
**下载t1k fasta文件**

下载两个数据库：

```
perl t1k-build.pl -o hlaidx --download IPD-IMGT/HLA
perl t1k-build.pl -o kiridx --download IPD-KIR 
```

下载hg38的gencode gtf文件

```
curl -L 'https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_38/gencode.v38.annotation.gtf.gz' | gzip -dc > gencode.v38.annotation.gtf
```

构建坐标文件

```
perl t1k-build.pl -o hlaidx -d hlaidx/hla.dat -g gencode.v38.annotation.gtf
perl t1k-build.pl -o kiridx -d kiridx/kir.dat -g gencode.v38.annotation.gtf
```

下载30x WGS fastq
```
curl -LO 
'https://storage.googleapis.com/brain-genomics-public/research/sequencing/fastq/novaseq/wgs_pcr_free/30x/HG002.novaseq.pcr-free.30x.R1.fastq.gz'
curl -LO 
'https://storage.googleapis.com/brain-genomics-public/research/sequencing/fastq/novaseq/wgs_pcr_free/30x/HG002.novaseq.pcr-free.30x.R2.fastq.gz'
```

## 二、运行泛基因组流程

```
sentieon-cli -v pangenome \
  --reference GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna \
  --gbz hprc-v1.1-mc-grch38.gbz \
  --hapl hprc-v1.1-mc-grch38.hapl \
  --snarls hprc-v1.1-mc-grch38.snarls \
  --xg hprc-v1.1-mc-grch38.xg \
  --model_bundle pangenome.bundle \
  --r1_fastq HG002.novaseq.pcr-free.30x.R1.fastq.gz \
  --r2_fastq HG002.novaseq.pcr-free.30x.R2.fastq.gz \
  --readgroups '@RG\tID:HG002-1\tSM:HG002\tPL:ILLUMINA' \
  --expansion_catalog hg38_variant_catalog.json \
  --segdup_caller_genes 'CFH,CFHR3,CYP11B1,CYP2D6,GBA,NCF1,PMS2,SMN1,STRC' \
  --t1k_hla_seq hlaidx/data_dna_seq.fa \
  --t1k_hla_coord hlaidx/data_dna_coord.fa \
  --t1k_kir_seq kiridx/data_dna_seq.fa \
  --t1k_kir_coord kiridx/data_dna_coord.fa \
  HG002_pangenome_analysis.vcf.gz
```

**脚本部分详细解释：**

以下是对提供的 `sentieon-cli pangenome` 命令及其参数的详细解释：

(1)`sentieon-cli -v pangenome`

- `sentieon-cli`: 这是 Sentieon 软件的命令行接口 （Command Line Interface）。
- `-v`: 通常表示 “verbose” 模式，会让程序输出更详细的运行日志信息，有助于调试和监控流程执行。
- `pangenome`: 指定运行名为 “pangenome” 的分析流程。

(2)`--reference GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna`

- `--reference`: 此参数指定线性参考基因组序列文件（FASTA格式）的路径。这是比对的最终坐标基础，许多变异也是相对于此参考序列进行定义的。
- 路径指向的是 GRCh38 参考基因组的一个版本（不含 ALT contigs 的分析集）。

(3)`--gbz hprc-v1.1-mc-grch38.gbz`

`--gbz`: 此参数指定泛基因组图文件（GBZ格式）的路径。GBZ 是泛基因组图的一种压缩二进制格式，包含了多个基因组序列的变异信息，用于更准确的比对。

(4)`--hapl hprc-v1.1-mc-grch38.hapl`

`--hapl`: 此参数指定单倍型文件（Haplotype file）的路径。该文件提供了泛基因组图中路径（paths）所代表的单倍型信息，有助于样本特异性图的构建和基因分型。

(5)`--snarls hprc-v1.1-mc-grch38.snarls`

`--snarls`: 此参数指定 Snarls 文件的路径。Snarls 是泛基因组图中的一种结构，代表嵌套的气泡结构（bubbles），通常包含变异（如 SNP, indel）。此文件由 vg snarls 命令生成，用于高效地遍历图中的变异位点，对变异识别 （vg call） 至关重要。

(6)`--xg hprc-v1.1-mc-grch38.xg`

`--xg`: 此参数指定 XG 文件的路径。XG 是泛基因组图的一种索引格式，优化了图的查询和遍历操作（如比对）。此文件由` vg convert -x `命令生成。

(7)`--model_bundle pangenome.bundle`

`--model_bundle`: 此参数指定 Sentieon 模型包（Model Bundle）的路径。该包包含机器学习模型（例如用于 `DNAscope `小变异识别和 `CNVscope `拷贝数变异识别），这些模型经过训练可以提升变异识别的准确性和稳健性。

(8)`--r1_fastq HG002.novaseq.pcr-free.30x.R1.fastq.gz`

`--r1_fastq`: 此参数指定双端测序读段中 R1（read 1）端的 FASTQ 文件路径（通常是 gzip 压缩格式）。可以指定多个文件（例如来自不同 lane 的数据）。

(9)`--r2_fastq HG002.novaseq.pcr-free.30x.R2.fastq.gz`

`--r2_fastq`: 此参数指定双端测序读段中 R2（read 2）端的 FASTQ 文件路径。应与 R1 文件配对出现。

(10)`--readgroups '@RG\tID:HG002-1\tSM:HG002\tPL:ILLUMINA'`

- `--readgroups`: 此参数为输入的 FASTQ 数据提供读段组（Read Group, RG）信息。这是一个非常重要的元数据，格式为 @RG\tID:xxx\tSM:xxx...。
- `ID`: 读段组的唯一标识符。
- `SM`: 样本标识符（Sample），所有来自同一样本的读段组应有相同的 SM 值，变异识别会基于此进行。
- `PL`: 测序平台（Platform），例如 ILLUMINA。
（此示例中缺少 `LB`（文库标识符）信息，完整的 RG 通常还包含` LB` 和 `PU`（平台单元）等）。

(11)`--expansion_catalog hg38_variant_catalog.json`

`--expansion_catalog`: 这是一个可选参数，指定了 ExpansionHunter 工具使用的变异目录文件（JSON 格式）的路径。该文件定义了需要检测的短串联重复（STR）位点及其特征。提供此参数将启用重复扩增变异分析。

(12)`--segdup_caller_genes 'CFH,CFHR3,CYP11B1,CYP2D6,GBA,NCF1,PMS2,SMN1,STRC'`

`--segdup_caller_genes`: 这是一个可选参数，指定了一个逗号分隔的基因列表。这些基因位于片段重复（Segmental Duplications）区域，常规分析较困难。提供此参数将启用 `segdup-caller` 来专门分析这些基因区域的变异。

(13)`--t1k_hla_seq hlaidx/data_dna_seq.fa`

`--t1k_hla_seq`: 这是一个可选参数，指定 T1K 工具用于 HLA 分型的参考序列文件（FASTA 格式）。需要与 `--t1k_hla_coord` 参数一同使用以启用 HLA 分型。

(14)`--t1k_hla_coord hlaidx/data_dna_coord.fa`

`--t1k_hla_coord`: 这是一个可选参数，指定 T1K 工具用于 HLA 分型的坐标文件。需要与 `--t1k_hla_seq `参数一同使用。

(15)`--t1k_kir_seq kiridx/data_dna_seq.fa`

`--t1k_kir_seq`: 这是一个可选参数，指定 T1K 工具用于 KIR 分型的参考序列文件（FASTA 格式）。需要与` --t1k_kir_coord` 参数一同使用以启用 KIR 分型。

(16)`--t1k_kir_coord kiridx/data_dna_coord.fa`

`--t1k_kir_coord`: 这是一个可选参数，指定 T1K 工具用于 KIR 分型的坐标文件。需要与 `--t1k_kir_seq `参数一同使用。

(17)`HG002_pangenome_analysis.vcf.gz`

这是流程的主输出文件的指定路径和名称。它将是存储小变异（SNPs 和 Indels）识别结果的 gzip 压缩 VCF 文件。流程会以此文件名的基名称（`HG002_pangenome_analysis `）为基础，自动生成其他输出文件（如 BAM, SVs VCF, CNV VCF, metrics 目录等）。

## 三、输出结果

以下截图为整个Sentieon泛基因组分析流程跑完之后输出的结果文件：

![图片1](https://img2024.cnblogs.com/blog/3218664/202510/3218664-20251030103524886-298951216.png)

![图片2](https://img2024.cnblogs.com/blog/3218664/202510/3218664-20251030103532761-1237639338.png)

***

# <center>总 结</center>

这个命令配置并启动了一个完整的 Sentieon 泛基因组分析流程。它使用 HPRC 提供的泛基因组图 （`hprc-v1.1-mc-grch38.*`） 和 GRCh38 线性参考基因组对样本 HG002 的双端测序数据 （`HG002.novaseq.pcr-free.30x.R*.fastq.gz`） 进行分析。

流程将输出小变异、SV、CNV结果，并且由于提供了额外的可选参数，它还会执行 HLA 分型、KIR 分型、特定片段重复基因的变异分析以及重复扩增分析。最终的主要小变异结果将保存在 HG002_pangenome_analysis.vcf.gz 文件中。-v 选项会让流程输出详细信息以便监控。