昊为泰生物多年专注于深耕遗传学和基因组学等领域科研特色技术的开发,不断跟进国际先进的科研成果及技术发展,创新研发了许多特色专利技术和领域内前沿的检测服务项目,受到广大专业科研用户的认可和好评。
精神分裂症(SCZ)是一种复杂的精神障碍,具有重大的社会负担,影响大约0.3%的人口,其特征是具有精神病症状、认知缺陷和功能障碍。了解SCZ的潜在致病机制对于改善诊断、治疗和患者预后至关重要。通过全基因组关联研究(GWAS)识别遗传危险因素已经取得了相当大的进展。这些研究为SCZ的遗传结构提供了有价值的见解,表明该疾病受到许多常见遗传变异的综合影响。然而,将GWAS的发现转化为临床有用的风险预测模型一直具有挑战性。单独的遗传风险因素往往预测能力有限,因为SCZ的复杂发病机制可能涉及遗传变异以外的多种分子机制的相互作用。
转录组学分析已成为一种补充的方法来阐明SCZ的分子基础。通过研究疾病驱动的基因表达模式,研究人员可以发现SCZ发病机制中涉及的关键基因和通路,这些基因和通路也可能包含潜在疾病易感性和发展的重要遗传变异。
近的生物医学研究为识别疾病相关特征开辟了新的途径,特别是通过使用机器学习(ML)等人工智能技术。虽然之前的研究利用ML对外周血或前额叶皮层(PFC)转录组学数据来区分SCZ病例和健康对照,但缺乏对鉴定基因的外部验证和功能分析,破坏了可重复性,限制了它们作为稳定的疾病反应特征的实用性。此外,这些研究通常局限于血液或PFC数据,缺乏同时包括外周和中心转录组谱的整合方法。这一差距凸显了通过ML整合PFC和外周血转录组学来发现更稳定的疾病反应特征和可靠的外周血生物标志物的必要性。
近日,西安交通大学官方霖教授团队联合多个科研团队于Advanced Science杂志(IF:14.3,中科院1区top)发表了新研究成果“Integrated Transcriptome Analysis Reveals Novel Molecular Signatures for Schizophrenia Characterization”,通过整合转录组数据分析揭示了精神分裂症的新的分子特征。
基于GWAS的见解,该研究采用综合方法将转录组学分析与基因组数据及实验验证相结合,以确定增强SCZ表征的疾病响应必需基因(disease-responsive essential genes, DREGs)。通过将先进的ML方法应用于大量死后大脑和外周血RNA测序数据,目标是捕获核心SCZ驱动的转录模式,阐明潜在的生物学机制,并评估这些DREGs作为潜在的疾病标志物。
为了更好地说明当前工作的分析框架和工作流程,图1中提供了一个详细的示意图。与以往的研究不同,该研究靶向参与SCZ发病机制的疾病驱动的分子特征。该综合方法旨在更深入地了解SCZ复杂的分子机制,并进一步开发具有临床应用价值的改进表征模型。该方法补充了以前的GWAS工作,并为该疾病的遗传和基因组基础提供了新的视角。
图1 SCZ DREGs鉴定、分析和表征的工作流程。
(1)SCZ DREGs鉴定:使用PsychENCODE数据(三个PFC RNA-Seq数据集)和新的外周血RNA-Seq数据,70%用于差异表达基因(DEG)分析。通过交叉DESeq2、EdgeR和Limma结果识别每个数据集中的DEGs,然后使用基于支持向量机(SVM)的特征消除来识别DREGs。(2)SCZ DREGs的生物学意义分析:蛋白-蛋白相互作用分析采用自构建的新人类相互作用组。GO和KEGG分析显示SCZ相关通路富集。DREGs在人脑组织和SCZ模型中的表达得到验证。PRS分析评估了DREGs与全基因组PRS的遗传贡献。(3)评价DREGs的SCZ表征:8个机器学习模型对70%的PFC和血液RNA-Seq数据进行了10倍交叉验证,以获得佳表征模型。使用佳模型在三个独立的数据集中验证DREGs的SCZ表征:内部测试集、外部测试集(数据集2)和SCZ/非SCZ患者集(数据集3)。使用ROC曲线的AUC值评估结果。
1. 表征184个SCZDREGs
图2A-L给出了通过DESeq2、EdgeR和Limma分析差异表达基因的详细结果。整合来自四个训练数据集的差异表达基因富集的通路,鉴定出70个重要通路和600个对应基因(图2M,N)。使用支持向量机(SVM)模型递归特征消除选择了184个DREGs(图2O)。这些DREGs进一步用于构建SCZ的表征模型。
图2 184个SCZ DREGs表征结果
2. DREGs具有显著的生物学和临床相关性
2.1由DREGs编码的显著关联的蛋白-蛋白相互作用(PPI)网络
分析构建了一个包含24,178个基因和2,544,177个相互作用的全面人类相互作用组数据集。在184个DREGs中,确定了155个直接相互作用的基因,形成了一个由155个基因组成的紧密互连的PPI网络,其中有900个相互作用(图3A)。置换试验将该网络与1000个随机生成的PPI网络进行了比较,结果显示DREGs PPI网络具有更多的蛋白质相互作用(P < 1×10−16)(图3B)。网络参数(节点度和介数中心性)表明,DREGs的值高于背景基因(节点度P < 2×10−16,介数中心性P = 4.8×10−16)(图3C,D)。这些发现证明了丰富的蛋白质相互作用和DREGs在网络中的核心作用。
图3 由DREGs编码的显著互联PPI网络特征
2.2 鉴定PPI网络中19个关键的DREGs
分析DREGs PPI网络以研究其特征。将hub基因定义为与其他DREGs至少有20种直接相互作用的DREGs,鉴定出8个hub基因:ESR1、GRB2、STAT3、BRD4、CDK9、TRIM28、MYH9和DOT1L(图3A)。使用ClusterONE,确定了两个重要的功能模块:模块1 (P = 0.019)和模块2 (P = 0.03)(图4C,D)。模块1由8个基因组成:RFGAP1、CYTH2、ADORA2A、IFFO1、PACSIN2、ENTPD1、BICD1、KDELR3。模块2包含PLXND1、PLXNA2和SEMA7A三个基因。
2.3 DREGs PPI网络中突触可塑性、免疫炎症、神经元发育、神经递质和星形胶质细胞相关通路的显性富集
为了检验SCZ DREGs在DREGs PPI网络中向特定通路的收敛性,进行了GO和KEGG通路富集分析。分析确定了重要的通路,包括突触可塑性、神经元发育/投射、突触传递、炎症调节、钙稳态、神经递质调节、囊泡运输/分泌、GPCR信号传导、miRNA调控、MAPK/神经营养因子/toll样受体/TNF/JAK-STAT信号传导。进一步分析关键DREGs,包括8个hub基因和2个紧密连接的模块,揭示了与表观遗传基因调控、免疫反应、炎症、神经递质分泌、突触传递、星形胶质细胞激活、突触可塑性、神经元发育和Notch/IL6/toll样受体/JAK-STAT/趋化因子信号传导相关的通路显著富集。
进一步分析了每个基因集中不同通路上的基因重复,以量化通路富集并评估每个通路的重要性。在DREGs集中,免疫调节、突触可塑性、神经元发育、谷氨酸突触和MAPK/JAK-STAT/神经营养因子信号显著富集(图4A)。Hub基因集在染色质重塑、转录调控、miRNA调控、JAK-STAT信号传导和趋化因子信号传导中表现出显著的富集(图4B)。模块1与基于谷氨酸的神经递质分泌和突触传递相关(图4E),模块2与突触可塑性、神经元发育和投射相关(图4F)。值得注意的是,hub和模块基因集中重复多的基因位于DREGs基因集中的前32个基因中。此外,在我们未发表的研究中,SYT11与ADORA2A一样,是另一个值得注意的与SCZ相关的基因,通过多巴胺过度传递介导SCZ样行为。
图4 DREG PPI网络显著通路富集结果
2.4 DREGs在不同人脑组织中的表达变化
我们分析了来自不同来源的RNA-seq数据,以研究DREGs在不同脑环境中的表达模式。在人脑组织(GTEx V8数据库)中,与BG基因相比DREGs表现出更高的水平表达水平,hub基因总体表达量高(图5A)。Hub基因和模块2中的基因在不同脑组织中的表达趋势一致,而模块1中的基因在某些脑区表达较低(图5A)。在大脑发育过程中(BrainSpan数据库),与BG基因相比,DREGs、hub基因和模块2基因在所有发育阶段的表达水平都显著高于BG基因(图5B)。Hub基因在出生后表达达到峰值,而Hub基因和模块2中的基因在整个发育过程中表达波动明显。在不同的大脑区域(人类大脑转录组[HBT]数据库)、DREGs、hub基因和模块1-2中基因在不同脑区的表达水平显著较高(图5C)。Hub基因始终表现出高的表达,模块2基因表现出不同脑区的表达差异。在SCZ相关的颞中回(MTG)和带状前回(CgGr)(Allen数据库)中,DREGs、hub基因、模块1-2基因的表达水平明显高于BG基因(图5D,E)。在谷氨酸型神经元中,关键DREGs的表达模式存在波动,hub基因与DREGs的表达趋势一致。值得注意的是,模块1和模块2中的基因在MTG和CgGr中表现出不同的表达模式,表明在不同神经元类型中,尤其是谷氨酸能神经元中发挥着不同的作用。
图5 DREGs在不同人脑组织中的表达模式结果
2.5 9个新的关键DREGs在动物模型中表达模式的显著变化
共鉴定出19个关键DREGs,包括8个hub基因、8个模块1基因和3个模块2基因。其中,已有10个基因(ADORA2A、ENTPD1、PLXNA2、SEMA7A、ESR1、GRB2、STAT3、BRD4、TRIM28、MYH9)先前已经发现与SCZ相关。为了验证这些关键DREGs的表达模式,我们使用MK-801诱导的SCZ动物模型,重点研究了9个新基因(BICD1, IFFO1, ARFGAP1, KDELR3, CYTH2, PACSIN2, PLXND1, CDK9, DOT1L)。检测了模型小鼠外周血和PFC中这9个关键DREGs的mRNA水平(图6)。在动物模型中,9个新基因中有8个在脑样本中具有统计学显著的表达变化,KDELR3基因的表达变化趋势趋于显著(图6A-I)。虽然四个DREGs(KDELR3、PACSIN2、CDK9、PLXND1)在SCZ动物模型的外周血中没有统计学差异,但它们的表达趋势与人脑数据一致(图6D,E,G,H)。尽管样本量很小,但这些发现证实了DREGs是可靠的SCZ响应指标,有可能阐明SCZ的机制。
图6 SCZ动物模型和人RNA-seq数据集的外周血和前额叶皮层中9个关键DREGs的差异表达谱
3. DREGs对SCZ表现出特有的能力和特异性
为了优化SCZ的表征模型,我们结合了四个训练集,并使用十倍交叉验证对八个模型进行了评估。其中SVM模型表现好,平均准确率达到89.21%,超过其他模型(图7A)。我们选择优化后的SVM模型,即基于DREGs的SVM(DRES)模型作为理想的表征模型。在内部数据集上测试DRES模型的准确率分别为69%、76%、82%和83%,对应的曲线下面积(AUC)值分别为73%、81%、88%和85%(图7B)。对测试集Dataset 2的外部评估表明,特征精度为83%,AUC值为85%(图7B)。DRES模型有效地区分了SCZ和非SCZ条件,AUC为79%,准确率为83%(图7C)。我们的研究结果表明,DRES模型在识别不同疾病类别的SCZ个体方面具有潜力。
图7 SCZ DREGs的特征性能及特异性评价
总之,我们的研究提出了一种综合的方法,通过将基于机器学习的转录组学分析与基因组数据注释和实验验证相结合,来增强SCZ的表征。我们确定了184个与SCZ显著相关的DREGs,进行了通路富集和PPI网络分析,并在SCZ动物模型中验证了关键DREGs。此外,我们使用PRS评估了DREGs的遗传贡献,并开发了用于SCZ表征的高性能机器学习模型。我们的发现有助于改善疾病特征,阐明SCZ分子机制,并提出新的潜在治疗靶点。未来的研究将集中在功能验证,纵向研究,并扩大到更广泛的队列,以提高稳健性和普遍性
copyright © 2008-2023 昊为泰 reserved. ICP备案序号:沪ICP备18028200号-1沪公网安备 31011502016782号