–https://doi.org/10.1038/s41576-024-00778-y
Genome-wide association testing beyond SNPs
留意更多内容,欢迎关注微信公众号:组学之心
综述简介
全基因组关联研究 (GWAS) 在揭示复杂性状和疾病的遗传基础方面取得了显著成就,尤其是通过对常见 SNP 的分析。
专用存储库(如 NHGRI-EBI GWAS)目前包含来自 90,000 多个 GWAS 的 50 多万个主要关联,它以开放、一致和可靠的方式向科学界提供专家精选的结果和基础汇总统计数据。
–https://www.ebi.ac.uk/gwas/
利用GWAS结果和meta数据是实现下游有效应用的关键,例如 Open Targets Platform 通过孟德尔随机化进行因果推断或将数据纳入药物发现流程。
–https://platform.opentargets.org/
研究现状
在使用 GWAS 与人类性状或疾病相关的数千种遗传变异中,大多数是效应大小较低的常见 SNP,也就是说,它们对总体疾病风险的影响相当小。
此外,GWAS 对某些性状的常见 SNP 的信号已接近饱和,仅仅依靠常见 SNP 已不足以解释遗传变异的全貌。特别是在高度复杂的人类性状中,大量的表型变异未能通过常见 SNP 进行解释,因为它们不能很好地标记因果变异,所以有必要探索其他类型的遗传变异。(表型变异在多大程度上可以用包括遗传变异、隐性亲缘关系、上位性和环境因素在内的不同因素来解释,是一个长期存在、仍有待解答的研究问题。)
拷贝数变异 (CNV) 是一类结构变异,其在表型差异中扮演着重要角色:
-
1.CNV 的重要性:CNV 是指 DNA 片段的拷贝数发生变化,这种变化可能包括基因的缺失或重复。CNV 在人类和其他物种的表型差异中具有显著影响,尤其在农业和牲畜的基因型到表型映射过程中得到充分体现。
-
2.CNV 与复杂性状的关联:研究表明,CNV 对人类复杂性状和疾病有显著影响。例如,CNV 与多种常见疾病(如克罗恩病、类风湿性关节炎、1 型和 2 型糖尿病)之间存在显著关联。
-
3.传统 SNP 基因分型阵列的局限性:传统的 SNP 基因分型阵列在检测 CNV 方面存在局限性。这些阵列对双等位基因 CNV 的检测分辨率低,对多等位基因 CNV 的代表性也有限,导致 CNV 在 GWAS 中的代表性严重不足。
-
4.高通量 DNA 测序的推动作用:高通量 DNA 测序(也称为下一代测序 (NGS))能够以单碱基对分辨率检测 CNV,目前已在多个人群规模的人类队列中使用。这使得研究者能够更精确地进行 CNV 的全基因组分析,为揭示其在复杂性状和疾病中的作用提供了新的机会。
2021 年至 2023 年间添加到 GWAS 目录中的基于 SNP 和 CNV 的检测的关联研究的累积总数:
这篇综述回顾了 CNV 的生物学和临床重要性,探讨了目前 CNV-GWAS 的技术现状和面临的挑战,并为未来研究提出了指导建议。
尽管目前基础设施、软件工具和方法学的不足限制了 CNV-GWAS 结果的广泛应用,但随着这些问题的逐步解决,CNV 有望为我们全面理解遗传对人类性状和疾病的影响提供关键的补充视角。
1.CNV 的生物学和临床意义
1.遗传变异的多种形式:遗传变异可以分为多种形式,包括:
- 单核苷酸变异 (SNV):单个核苷酸的变化。
- 插入和缺失 (indels):少量碱基的插入或缺失。
- 拷贝数变异 (CNV):包括基因组特定区域的缺失、插入和重复,是一种重要的结构变异形式。
2.CNV 的定义:CNV 是指在不同个体之间基因组某些区域的拷贝数发生变化,包括缺失、插入和重复。染色体之间的不平衡易位也可能导致 CNV 的产生。
3.CNV 的产生机制:
- 非平行同源重组:通过重复序列之间的非平行性同源重组产生,通常会导致具有相同断点的反复性 CNV。
- 非同源重组机制:例如,非同源末端连接可以在基因组中产生具有可变断裂点的 CNV。
4.CNV 的检测与评估:CNV 通常基于参考基因组进行评估,将测序读数与参考主链排列,并在样品中识别出拷贝数变量的位置(called)。通常,此过程涉及参考基因组中所有位置的正常(“动态平均”)拷贝数的定义,然后检测拷贝数估计的差异与参考基线。
5.CNV 对基因组的影响:由于 CNV 的大小从千碱基到百万碱基不等,它们在基因组结构和调控区域上具有巨大的影响潜力,既可以影响其位置附近的基因,也可以对远距离的基因产生作用。
6.CNV 的频率与关联:
- CNV 频率:CNV 在人群中的频率各不相同,大多数 CNV 是罕见的,但有些 CNV 具有较高的次等位基因频率(>0.05),这些常见 CNV 可能与附近的 SNP 处于连锁不平衡状态。
- CNV 与 GWAS 中的关联:在 GWAS 数据中,总共报告了大约 16,000 个显著的 CNV-性状关联,相比之下,SNP 的主效应关联则超过 5 亿个。
- 重复性 CNV 的存在:重复性 CNV 比重复性 SNP 更常见,且占据了基因组中碱基对差异的更大比例。
7.CNV 的临床意义:CNV 在复杂疾病的致病机制中扮演重要角色。它们可以影响基因表达、基因调控网络,甚至可能是某些疾病的直接致病原因。在临床上,识别 CNV 可以用于疾病的早期检测、风险评估和靶向治疗开发。
1.1 群体遗传学
大型参考人群数据库(如 gnomAD)极大地提高了研究全球不同人群遗传差异的能力,是变异解释流程中的重要组成部分。而 CNV 是遗传多样性的主要来源,其地理差异模式与单核苷酸多态性(SNP)相似,反映了人类起源于非洲及其后的迁移。
–https://gnomad.broadinstitute.org/
连锁不平衡与 CNV 的挑战:
与 SNP 单倍型相似,全球范围内的连锁不平衡模式变异为基因型推断带来了挑战。某些 CNV 的高突变率使得连锁不平衡的稳定性受到侵蚀,增加了基因型推断的复杂性。
CNV 参考集的作用:
来自多个群体的 CNV 参考集在健康对照组中提供了良好的频率分布,有助于评估不同人群间的频率差异,并排除可能的良性变异。CNV 频率的正确估计依赖于准确的 CNV 断点估计。为了解决断点确定的困难,可以应用不那么严格的 CNV 起止位置标准或迭代互惠重叠规则。
虽然这些方法改进了估算过程,但也有可能错误地合并不同的 CNV 事件,导致不一致的频率估算。
不同人群中 CNV 频率差异的生物学例子:
-
1.AMY1 基因的 CNV:唾液淀粉酶基因 AMY1 的拷贝数范围从 2 到超过 10 个,历史上高淀粉饮食的人群中 AMY1 基因的拷贝数较高。AMY1 拷贝数增加是第一个被报道的全球人群中 CNV 正选择的例子,拷贝数较低的携带者可能具有更高的胰岛素抵抗风险。
-
2.UGT2B17 基因的 CNV:UGT2B17 基因中的 CNV 被发现会改变睾酮代谢,增加前列腺癌风险。该基因的单拷贝缺失在人群间的频率不同,可能影响前列腺癌的群体特异性风险。
CNV 频率估计与剂量敏感性:
群体水平的 CNV 频率估计有助于得出剂量敏感性的度量,预测基因组区域内变异的可能致病性。罕见的 CNV 事件比常见的更有可能是有害的,特别是在结构重排容易发生的基因组区域(如重复序列高的区域)。某些基因组背景(突变热点)具有较高的体细胞突变率,使得生殖系 CNV 的分析更加复杂。
蛋白质编码基因中功能丧失 SNV 的缺失或聚集稀有性对发现基因破坏性变异具有重要价值,如 gnomAD 中的功能丧失观察/预期上限分数(LOEUF 分数)。
未来发展与需求:
全基因组剂量敏感性图谱可用于新的遗传发现、解释已知关联,以及制定临床诊断指南。随着更大规模的队列和更高的基因组分辨率,聚合所有变异类型的信息对于更全面的关联测试和临床解释具有重要意义。
1.2 人类疾病与临床诊断
在 CNV 检测的初期,CNV 与罕见孟德尔遗传疾病的关联就已为人所知。近期研究表明,CNV 与复杂性状和疾病易感性也密切相关。
基于芯片的比较基因组杂交等技术已被用于分析单个受影响家庭,提出了众多 CNV 与疾病的关联。尽管分辨率有限,几项基于队列的研究评估了 CNV 对整体疾病负担的贡献。
de novo CNV 与基因组疾病:
反复发生的 de novo CNV(新生 CNV)与多种基因组疾病相关,通常伴随神经发育迟缓,如普拉德-威利综合征和戴乔治综合征(22q11.2 缺失综合征)。
神经发育和神经精神疾病是 CNV 研究的重要领域,罕见 CNV 解释了精神分裂症、双相情感障碍和自闭症谱系障碍的相当比例的风险。
22q11.2 染色体区域是关键示例:缺失与精神分裂症的高风险相关(OR = 67.7),而复制具有保护作用(OR = 0.15)。
CNV 在大规模疾病队列中的研究:
大规模疾病队列的可用性促成了多项有价值的 CNV 研究。例如,最近的研究显示体细胞 CNV 解释了精神分裂症中一小部分但值得注意的比例。
另一项关于自闭症谱系障碍的研究使用了广泛的全基因组序列注释,涵盖了罕见和常见变异,包括 CNV。
CNV 在临床遗传学中的应用:
迄今为止,数百个 CNV 位置已被优先用于临床遗传学环境中的诊断测试。这些位置包括在 NHS 英格兰罕见与遗传性疾病工作组指导下开发的国家基因组测试目录,以及美国医学遗传学学院和临床基因组资源(ClinGen)对 CNV 的解释和报告的建议。
https://www.nature.com/articles/s41436-019-0686-8
CNV 的作用模式:
CNV 具有不同的作用模式,如功能缺失和功能增益。功能缺失变异可能影响一个或两个拷贝的基因,并与对侧等位基因上的不同遗传变异相互作用,导致完全的功能丧失(或复合杂合变异)。这些不同的作用模式在变异优先级排序和临床诊断测试中是重要的考虑因素。
CNV 分类与评估:
大多数 CNV 诊断测试是基于来自外显子测序或多重连接依赖探针扩增的 CNV 分类开发的。这些测试由临床遗传学家、专业医生、科学家和专门的患者群体进行评估,以确保其在诊断中的有效性。
1.3 药物遗传学
药物遗传学是研究遗传变异如何影响药物反应的学科。参与吸收、分布、代谢和排泄(ADME)过程的基因可影响药物的药代动力学,而编码药物靶点或与其通路相互作用的基因可影响药物的药效学。这些基因中的遗传变异(包括 CNV)会影响药物治疗的效果、患者所需的剂量及不良反应的风险。
药物遗传学检测已在多个医疗系统中临床应用,尤其是在处方关键药物之前进行检测,以提供个性化治疗建议。这些检测的目标是识别关键基因与药物之间的关系,以提高药物的疗效并减少不良反应。
CYP2D6 基因的 CNV 与药物反应:
CYP2D6 是药物代谢的重要基因,影响如止痛药和抗抑郁药等常用药物的代谢。CYP2D6 位于 22 号染色体的一段区域,该区域还有两个假基因(CYP2D7 和 CYP2D8)。
CYP2D6 具有高度多态性和结构复杂性,拥有超过 130 种单倍型(星等位基因),包括单核苷酸变异(SNVs)、全基因缺失(*5)、基因复制与扩增,以及与 CYP2D7 的基因转化或杂合结构。
随着对更多多样化人群的研究,新等位基因不断被报告,并且已开发了多种方法从 NGS 数据中识别 CYP2D6 等位基因。
CYP2D6 CNV 与临床药物管理:
- 超快速代谢者:CYP2D6 超快速代谢者的活性评分大于 2.25,例如双倍型包括野生型等位基因的全基因复制(*1/*1×N)。这些患者服用可待因或曲马多时,吗啡生成量增加,需避免使用这些药物,以防止严重的药物引起的毒性反应。
– 代谢功能差的患者:CYP2D6 代谢功能差的患者活性评分为 0(如全基因缺失的双倍型 *5/*5)。这些患者吗啡生成显著减少,导致镇痛效果下降,因此不推荐使用可待因,因为药物疗效不足。
- PharmGKB 警告与药物标签:关于 CYP2D6 代谢状态的警告已由 PharmGKB 注释,并出现在药品标签中。在处方某些药物之前,必须检测代谢状态。
其他复杂位点的例子:
主要组织相容性复合体 (MHC) 和 杀伤细胞免疫球蛋白样受体 (KIRs) 也涉及药物代谢和疗效的差异,是复杂位点的经典例子。
药物遗传学的临床意义:
CNV 对药物代谢具有重要的临床影响,可影响治疗效果和不良反应的发生。
通过识别药物代谢相关的 CNV,可优化个体化用药,特别是在阿片类药物管理和其他具有显著基因-药物相互作用的治疗中。
2.CNV-GWAS研究分析方法
2.1 CNV-GWAS研究步骤简述
2.1.1 CNV 数据的获取与处理
进行 CNV 关联测试的第一步是将芯片或测序数据转换为相对覆盖率信息或 CNV 调用,作为全基因组拷贝数的代理。
基于芯片的方法使用探针强度来推断拷贝数,而基于测序的方法则通过读取深度和比对信息识别 CNV。
然后是进行样本和探针级别的质量控制,通常在 CNV 调用之前和之后进行。
2.1.2 标准的前期任务
-
群体级别的 CNV 合并:定义拷贝数事件及其频率分布。
-
主成分分析 (PCA):从 CNV 信息中得出一组遗传主成分。
-
选择合适的关联测试模型:包括 GWAS 测试和/或区域负担测试。
-
选择显著性阈值。
2.1.3 关联测试的模型选择
最直接的方法是将探针级别的拷贝数估计用作线性或逻辑回归测试中的线性剂量变量,这与标准的 SNP-GWAS 模型类似。这种方法还允许不同区域边界的 CNV 在同一测试中组合,而不需要强加关于合并单个 CNV 的重叠规则。
在关联模型中加入性别、年龄、身高、体重等标准协变量是合理的,根据性状类型的不同具体定义协变量。
2.1.4 频率阈值的选择
标准的 CNV 频率阈值为 1% 或 5% 的群体频率作为起点,但低于这一范围的 CNV 事件或探针位置在某些情况下也能提供可靠的关联结果。
必须考虑 CNV 调用中断点估计的准确性,以及参考频率的具体计算方法,这可能通过外部群体队列或内部频率估计来实现。
2.1.5 主成分分析 (PCA)
进行 PCA 以获得可能的混杂因素,并将其包含在关联测试模型中。通常将样本中的罕见和常见 CNV 事件分别进行 PCA,得到每个变异类别的一组主成分。一般每个 PCA 中前 20 个主成分通常会被包含在关联测试模型中。
基于 CNV 的 PCA 主成分可能包括噪声测量、遗传祖先群体和隐秘亲缘关系,这些因素应在全基因组测试中加以考虑。
2.1.6 显著性阈值的设定
使用 Bonferroni 校正是设定全基因组显著性阈值的保守方法,以考虑到执行的测试次数。其他方法如假发现率 (FDR) 或置换测试也可以用于设定显著性阈值。
CNV 的“标准”全基因组阈值仍然是一个开放问题,可能取决于 CNV 区域间连锁不平衡的崩解速度等因素。
2.2 基于测序的 CNV 调用工具
自短读段下一代测序(NGS)技术发展以来,已经开发出大量用于从测序数据中调用 CNV 和其他变异的工具。这些工具通常针对罕见事件进行优化,只有少数能够扩展到生物库级别的数据。
2.2.1 CNest 工具的应用:
为了解决现有工具在大规模数据应用中的不足,开发了基于读取深度的 CNV 调用工具 CNest。
CNest 被应用于 UK Biobank 的 20 万个全外显子组序列,识别出 862 个与 78 种不同性状相关的 CNV。最近,包含单倍型信息的方法被用于 468,570 个全外显子组序列,识别出与 41 种定量性状以及高血压和 2 型糖尿病相关的 CNV。
–https://github.com/tf2/CNest
2.2.2 UK Biobank 的全基因组测序数据:
2021 年底,UK Biobank 发布了 20 万人的全基因组测序(WGS)数据,成为世界上最大的 WGS 资源之一。
–https://www.ukbiobank.ac.uk/
deCODE 使用 Illumina 的 Manta 软件对 150,119 名 UK Biobank 参与者进行了结构变异调用,Manta 利用成对末端和分裂读取的比对证据来识别 CNV 以及拷贝数中性事件(如倒位、易位和插入)。
–https://github.com/Illumina/manta
这些调用与长读段测序研究中的调用结合,并使用 GraphTyper 在所有个体中进行基因分型。
2.2.3 DRAGEN SV 调用工具的应用:
在 UK Biobank 最终的 50 万个全基因组序列集中,Manta 被 DRAGEN SV 调用工具替代。
DRAGEN SV 调用工具还被应用于英格兰基因组计划、“All of Us” 研究项目以及新加坡精准健康研究(PRECISE)。
–https://support-docs.illumina.com/SW/DRAGEN_v39/Content/SW/DRAGEN/SVOverview.htm
这些新方法在扩展疾病遗传研究范围上表现出很大的潜力,尤其是针对先前难以大规模测试的变异。通过结合多种技术和调用工具,能够更准确地识别复杂的结构变异,并推进大规模遗传研究。
2.3 基于CNV的全基因组关联测试(GWAS)
单个变异的关联测试对罕见事件(如 SNV 和 CNV)的统计效能不足。为了提高统计效能,CNV 的研究通过在组水平上合并罕见 CNV,根据其重叠的功能区域(如基因)和类别(如复制或缺失)进行合并。
负担测试通过将多个 CNV 组合,使用 Fisher 确切检验(对于二元性状)或线性回归(用于定量性状)来测试其显著性,也可以应用基于核的测试 (SKAT)。
负担式分析与 CNV 模型
负担式分析通过将 CNV 的存在作为一个指示变量来研究那些通过破坏蛋白质序列影响疾病的 CNV。CNV 的拷贝数估计也可以作为连续变量,用于测试通过调节基因剂量而导致疾病的模型。
CNV 核关联测试被提议用于处理具有相似效应的 CNV 的异质性,这有助于提高发现的统计效能。
罕见合并基因负担测试的必要性
对于涉及 CNV 的罕见合并基因负担测试,有必要基于位置和频率信息对个别事件进行分类。应包括关于 CNV 对基因功能破坏程度的预测,例如整基因复制和基因截断复制的影响可能存在显著差异,后者更可能导致功能丧失。
涉及单个外显子或部分基因缺失的情况可以根据删除的基因组内容及其对转录或蛋白质结构的可能影响分配不同的功能丧失概率。
其他涉及多个基因的 CNV 在基因合并测试中难以建模,可以选择将 CNV 单独考虑,并仅在其具有相关特征时包括在内(如预测的功能丧失)。
探针级拷贝数估计的使用
一些研究避免逐个调用 CNV 并进行区域或基因级负担测试,而是选择使用探针级拷贝数估计。类似于 SNP-GWAS 方法,执行一个标准发现过程,并仅对统计上显著的感兴趣区域进行精细定位的变异分析,而不是理解每个基因组位置的精确结构。
CNV-GWAS 在生物库中的应用:
这些方法在深度表型化的生物库队列中的应用促成了许多调节基因-性状关联的新 CNV 的发现。
例如,最近使用 UK Biobank 全外显子组序列对 57 种遗传定量性状进行了编码 CNV 表型关联研究,发现了 100 个新的蛋白质功能丧失基因-性状关联,比仅使用 SNV 或 indel 的方法增加了 20%。
测试区域常见编码 CNV 负担的剂量模型也显示了 99 个基因座,这些基因座无法被附近的 SNP 充分标记,突显了将 CNV 纳入 GWAS 的必要性。CNV 与 SNV 的相互作用使得关联发现数量增加了 20%。
3.当前研究的挑战
在 CNV-GWAS(拷贝数变异-全基因组关联研究)成为更加常规的工具并为下游应用提供更多实用价值之前,仍有一些技术挑战需要克服。这些限制可以分为三个方面:数据来源与可用性、方法与模型、以及基础设施与标准。
3.1 数据来源与可用性
数据分辨率与灵敏度差异
大多数大型人类队列具有不同程度的 CNV 相关数据,这些数据在分辨率和灵敏度上表现出显著差异。
SNP 基因分型数据是最常见的,但分辨率有限;短读段测序数据分辨率更高;长读段测序数据能够以最高能力解析复杂重排。经典和较新方法(如 FISH 和光学映射)提供了不同视角和独立验证技术。
数据类型的整合与基准测试
这些数据类型各有优缺点,应用或整合 GWAS 汇总统计数据时必须加以考虑。有必要对相关推断参考面板进行精确的基准测试,确保单倍型参考面板包含高分辨率的相位 CNV 调用。
CNV 信息必须作为事件级别的基因型与 SNV 变异一起提供,以便将 CNV 位置和拷贝数状态与周围的 SNV 基因型关联起来。
多样化人群的代表性不足:
多个大型人类队列(如 UK Biobank、Finngen 和 “All of Us” 项目)使用不同的 CNV 调用工具生成了 CNV 数据。
非洲人群中的广泛 CNV 多样性未被充分捕获,迫切需要在多样化的群体中继续增加队列规模,以解决这一问题。
3.2 方法与模型
CNV 调用方法的多样性
从 NGS 数据中调用 CNV 的方法有很多,每种方法都使用了不同的建模选择,社区尚无一致意见,也没有金标准或公认的 CNV-GWAS 工具和指南。
目前对大量假阳性的普遍担忧依然存在,大多数 CNV-GWAS 模型涉及定义一组重叠和合并规则,然后进行负担测试。
模型与工具的缺乏
目前尚无用于 CNV-GWAS 的标准软件,类似于 SNP-GWAS 的 REGENIE 或 PLINK 等工具也没有相应的版本。
仅有少数研究在 CNV-GWAS 中使用了 NGS 衍生的 CNV 数据,且没有标准的文件格式来存储全基因组范围的 CNV 剂量信息。
SNP-CNV 关联建模的不足
尽管已有方法描述了 SNP 和 CNV 之间的共同遗传模式,但缺乏一个维护良好且可靠的 SNP 和 CNV 之间连锁不平衡的图谱,以支持变异类别之间的信号链接和共同建模。社区主导的指导方针和一致的方法对于 CNV-GWAS 的进一步发展和应用至关重要。
3.3 标准与基础设施
CNV 关联报告的标准缺乏
缺乏统一的 CNV 关联报告标准,导致数据难以纳入公共数据库。GWAS 目录接受 CNV 关联的提交,但变异的表示方式各不相同,可能包括染色体位置、碱基对位置,以及不同的模型和表示方式,使得数据整合困难。
共享数据的可访问性不足
由于缺乏标准化,GWAS 目录中共享的 CNV 数据无法进行跨研究查询,限制了其可访问性。通过对 CNV-GWAS 汇总统计提交数据的分析,发现大多数研究在发表后并未提供全基因组汇总统计数据,数据的共享和整合较为欠缺。
社区主导的标准化需求
SNP-GWAS 数据的标准化已极大地提高了其实用性和可重复使用性,通过社区主导的汇总统计标准,使得多基因评分(PGS)和孟德尔随机化等分析得以实现。
对 CNV-GWAS 数据的等效标准迫在眉睫,CNV 的标准化以及在标准存储库(如 GWAS 目录)中共享完整数据集,有望极大地增加其下游应用价值。
在同一资源中整合 SNP 和 CNV 数据,特别是在连锁不平衡的背景下,将有助于评估 CNV 是否增强了已知基因座的证据或代表新的发现,并在效应基因或药物发现中与 SNP 联合建模。
4.新兴机会
4.1 长读段和图谱基因组
长读段测序的优势与挑战
长读段测序数据能够提供覆盖整个结构变异边界的单条读段,从而非常精确地确定 CNV 和其他结构变异 (SV) 的断点位置。
针对长读段测序,开发了几种专门的 SV 调用工具,但在非常大型人类队列中,长读段数据的可用性有限。存储这些数据集以及应用 SV 检测方法的计算需求是一个巨大的挑战。
泛基因组图谱的应用
1000 基因组项目的 ONT 测序联盟已在来自多样化人群的数千人中生成了高深度的长读段数据,并使用泛基因组图谱等新技术来代表更加完整的基因组变异视角。使用长读段衍生的 SV 表示可提高在大群体中调用、表征和解释 SV 的能力。
4.2 多基因评分 (PGS)
PGS 的构建与应用
GWAS 汇总统计数据和个体级数据可用于估算一个人对特定性状或疾病的遗传倾向,这些汇总效应称为多基因评分 (PGS)。
PGS 被证明可以显著预测许多性状和疾病,具有潜在的临床应用价值,且已有努力在报告、临床实施和风险沟通方面制定通用标准。
CNV 在 PGS 中的作用
PGS 主要基于 SNP 数据构建,但现在研究开始将基于 SNP 的 PGS 与 CNV 结合,以评估其对性状和疾病的贡献。
在全基因组背景下分析 CNV 的重要性愈加凸显,尤其是对精神分裂症、认知和社会经济性状的研究。预计将 CNV 纳入 PGS 作为有效标记或致病变异,将提高 PGS 的表现,增强其在病因学研究和风险预测中的应用价值。
4.3 罕见疾病与常见 CNV 修饰
相位信息的使用
破坏同一基因的遗传变异可能发生在相同的相位或不同的相位,导致不同的效应。
使用群体单倍型参考面板(如 SHAPEIT5)推断稀有变异的相位是一个挑战,但为常见和罕见变异的相位感知等位基因关联提供了新的机会。
复杂等位基因系列的研究
在英国生物银行中,使用相位信息发现了复合杂合事件及其对复杂常见疾病的贡献。使用相位信息进行进一步研究有助于发现与疾病相关的新基因,为药物靶点开发提供遗传支持。
4.4 药物靶点识别
CNV-GWAS 对药物靶点识别的作用
CNV-GWAS 可为新药靶点的识别提供新的见解,帮助优先选择药物发现的靶点。
系统性 CNV-GWAS 有助于发现新的性状关联,特别是对于先前仅从非编码 SNP 中识别出的信号,通过预测方法映射到可能的致病基因时。
共定位分析与“位点到基因”(L2G)模型工作流的扩展
将 CNV-GWAS 信号纳入关联共定位分析,可用于测试关联信号是否共享致病变异,从而支持共享致病机制的证据。
CNV-性状关联可帮助判断药物靶点的调节方式是否适合产生特定的治疗结果,帮助排除可能带来严重不良反应的靶点,优先确定合适的药物靶点。