网络知识 娱乐 PNAS:机器学习揭示早产儿脑结构连接与基因变异的关系

PNAS:机器学习揭示早产儿脑结构连接与基因变异的关系

PPARG基因与白质发育密切相关,可能调控早产儿的大脑发育。使用sRRR(基于稀疏降秩)回归模型,研究人员可以识别与PPARG基因联系较强的脑白质结构连接,从而证实以上假说。该成果由伦敦大学国王学院Michelle L. Krishnan等人发表在最近的PNAS期刊上。

关键词:早产儿 纤维追踪 脑网络 基因 sRRR回归

1 引言

早产占新生儿出生总数的11%,是全球5岁以下儿童死亡和残疾的主要原因。超过30%的幸存者经历了从早期生活到成年的神经认知问题,包括焦虑、注意力不集中、社交和沟通问题,以及社会情感问题。影像学研究表明,不良的认知表现与大脑结构、连接性和功能的改变有关。机器学习和影像基因组学的最新进展使得通过探究与大脑内表型相关的遗传变异来研究早产影响的潜在机制成为可能。

之前的研究表明,白质发育和许多代谢途径之间存在联系,其中与过氧化物酶体增殖激活受体(Peroxisome Proliferator Activated Receptor,PPAR)途径的联系最为紧密,从而提出了PPAR途径调节早产儿大脑发育的假说。本文收集大量的弥散MRI (d-MRI)和基因组数据,对全脑弥散影像进行了无监督、无偏见的机器学习分析,并结合全基因组、单核苷酸多态性(SNP)基因型进行了分析,以进一步探究基因对早产儿大脑发育的影响。

本文影像遗传学研究发现了PPARG基因与脑结构连接之间的强大联系,暗示了PPAR信号在早产儿异常白质发育中的作用,并为治疗研究提供了一个容易处理的新靶点。

2 方法

样本选择和排除标准

(1)出生小于33周胎龄(平均 29 周 + 4 天)的272名婴儿。

(2)在同等年龄有合适的影像数据,并有相关的基因组DNA。

影像数据获取

使用8通道头线圈在Philips 3T设备上进行MRI扫描。在扩散张量成像之前获得了3D-MPRAGE和高分辨率的T2加权快速自旋回波图像。使用以下参数在32个方向上获取单次DTI:重复时间(TR):8000毫秒;回波时间(TE):49毫秒;层厚:2毫米;视野:224毫米;矩阵:128×128(体素大小:1.75×1.75×2 mm3);b值:750 s / mm2。还使用TR =8,670 ms,TE = 160 ms,翻转角= 90°,层厚= 2 mm,视野= 220 mm;矩阵= 256×256(体素大小= 0.86×0.86×1 mm3)等参数来采集T2加权快速自旋回波MRI图像。

影像数据选择和质量控制

回顾了T2加权MRI结构扫描,以排除具有广泛脑异常、严重局灶性破坏性实质病变、多点状白质病变或白质囊肿的受试者。评估所有MRI图像是否存在图像伪影(也包括信号缺失、混叠、场不均匀等)和剧烈运动。设计所有排除标准的目的是为了保证不偏倚的研究,同时保留早产儿典型的临床异质性。

sRRR参数

基于稀疏降秩回归模型(sRRR),对q个图像变量和p个SNP集进行建模:

Y = XBA+ E

其中B是p个SNP(单核苷酸多态性)回归系数的p×r矩阵,A是q个图像变量回归系数的r×q矩阵,E是n×q误差矩阵。

sRRR是特别设计用来处理样本数量小于特征数量的情况,该方法使用所有snp(单核苷酸多态性)来拟合表型的预测模型,同时根据预测价值对所有snp进行排序。

纤维追踪

使用改进的概率追踪算法对弥散MR数据进行纤维追踪。纤维追踪的ROI由90个节点的婴儿脑图谱确定,最终得到90个皮层区域之间的脑连接。

全基因组基因分型

使用OrageneDNA OG-250试剂盒(DNA Genotek Inc.)收集唾液样品,并在Illumina HumanOmniExpress-24 v1.1芯片(Illumina)上进行基因分型。使用PLINK进行过滤。保留了MAF≥5%,基因分型率100%和Hardy-Weinberg平衡精确检验P≥1×10-6的SNP,得到556,227个SNP供进一步分析。

人口分层评估

基于PLINK 1.9中实现的成对欧几里德距离,将全基因组SNP(单核苷酸多态性)数据用于IBS(identity by state),以评估个体之间的相关性。通过主成分分析对IBS距离矩阵进行降维,并且在下游分析中将第一个主成分用作协变量以调整总体分层。汇总的种族类别用于标记前两个主要组合的PCA图的数据点IBS方差标准化关系矩阵(补充材料图S1)的内容。这说明了遗传血统和种族的前两个组成部分之间的对应关系,并提供了同类人群混合物的概述以及表型调节的手段。

通过计算成对IBS值,并利用该距离矩阵进行主成分分析,来评估个体之间的相关性。

Sup Fig 1. 前两个主成分来自基于成对IBS值的人口分层的主成分分析(点的颜色取决于父母自我报告的种族类别)

软件应用

为了进一步了解大脑内表型,文中使用BrainNet Viewer软件根据北卡罗莱纳大学AAL图谱坐标显示了sRRR模型中最常选择的10条纤维束。

3 结果

sRRR(基于稀疏降秩)选择一致的脑内表型

根据sRRR模型中的选择频率,对白质纤维束进行排序,并展示了10条最重要的纤维束。选择频率范围从0.817到0。

Fig 1. 使用sRRR模型得到的选择频率。图中,绿色实线:基于真实数据得到的选择频率;空心灰色圆圈:在相同的参数下,基于置换数据得到的选择频率;实心灰色圆圈:基于随机生成数据得到的选择频率。

图1显示:基于随机生成数据得到了较低的选择频率,表明重要的纤维束在个体间是比较一致的。

一致选择的白质纤维束在信息流中有重要作用

为了进一步了解大脑内表型,sRRR模型中最常选择的10条纤维束相关脑连接示例图是使用BrainNet Viewer软件根据AAL图谱坐标可视化的,并采用图论方法计算脑网络效率。这些纤维束分布在额中、颞中、海马旁/内环带内的各个环节,FA值范围为0.06 ~ 0.2(补充材料Fig S3和S4)。

Sup Fig 3: sRRR选择的排名前十的纤维束涉及的脑连接。

Sup Fig 4: 排名前10的纤维束的FA值分布。

移除排名前10的纤维束相关的脑连接,导致了全脑脑网络效率的显著降低,说明了这些白质纤维束在大脑网络结构中的重要性。

Sup Fig 5: 去除排名前10的纤维束相关脑连接对脑网络效率的影响

基于连边的图论分析表明,高度选择的白质纤维束在整个被试群体中是一致的,对信息传递很重要(P < 2.2×10−17);且它们最常与脑岛相连(P < 6×10−17)。

提取并计数由100个高度选择的纤维束连接涉及的皮层区域(图2),岛叶皮层出现的频率明显高于预测(P < 6×10−17,Fisher精确检验)。

Fig2. sRRR排序的前100个纤维束涉及的皮层区域。

遗传变异与早产儿脑内表型有关

与大脑连接相关的snp的经验选择频率范围为0.663到0,在排名前100位的SNP之后,下降的速度更快,并且空分布均匀一致。前100个SNP与遗传学特征高度相关且最稳定。详情见下图:

Fig 3. sRRR排名前1000位snp的选择频率。最高选择频率(最大0.663)存在一个平台期,该平台期是稳定的,约涵盖了100个snp;2万个子样本置换得到的零分布非常低且均匀(虚线)。

PPARG基因中的SNP与影像特征的变异高度相关

PPARG中的snp明显过高(在556,000个snp中,排名7-11和67位;P < 2.2×10−7),且多位于内含子或调控区,根据位置7-11和位置67的关联强度建立sRRR模型,均匀选择频率为0.663,预测效应包括蛋白编码和无意义的衰变。

Sup Fig 6.

a) sRRR排名前100位snp的连锁失衡图。所有前100位的snp,加上扩大的PPARG区域。放大图像顶部的粗白线代表一条连续的染色体。染色体白线上的黑条是snp。每个SNP由一个标记的三角形表示,两个SNP之间的关系用正方形表示。红色阴影越深,两个snp的相关性越高。通过对100个snp的分析,LD中存在一个主要的LD热点(PPARG)和两个较小的区域,分别对应于ITGA6和FXR1基因。

b) 3号染色体上6个感兴趣snp的坐标;

c)饼状图详细描述了6个变体和15个转录本在结果中调用的结果类型的比例。

文中发现其他基因与脑内表型相关:PPARG(6个snp)、ITGA6(4个snp)和FXR1(2个snp)的基因。其次,在排名前100位的区域中,岛状皮层的发生频率高于偶然性。早产儿在婴儿期和成年早期会伴有岛突皮质的体积、表面积的减少和折叠,并伴有功能激活模式、视觉功能和认知能力的改变。岛状皮层的异常与早产人群中更常见的ASD和注意力缺陷多动障碍有关。

需要进一步的工作来表征PPARG和早产儿大脑发育之间的确切关系,尤其是确定这种作用是大脑特异性还是全身性,因为PPARG基因在包括大脑在内的许多组织细胞类型中都有表达(补充材料,图S10)。

Sup Fig 10. PPARG的脑区域和细胞类型表达。

a)PPARG在人脑中的区域表达(UKBEC);

b)来自小鼠大脑皮层的纯化的代表性脑细胞群体中PPARG基因表达的RNA测序数据。表达水平估计值表示为每百万个映射片段(FPKM)值的转录序列/每千碱基片段。FPKM是一个标准化的表达值,它考虑了总读取数以及基因的编码长度。以FPKM值0.1表达的基因以统计学上显著的水平表达(99%置信度);

c)以PARG为中心的人体组织和细胞类型基因相互作用,从不同出版物中的数千个实验的先前实验数据中高度可信地重建(GIANT工具);

d)PPARG基因在大脑中的表达直至足月同龄(37周),数据来自艾伦脑图谱Brainspan发育转录组。 RPKM单位(每百万个映射读取的外显子模型每千碱基的读取)。

PPARG激动剂可在多种涉及缺血和炎症的动物模型中改善神经元和神经胶质的存活率,建议使用它们可为自闭症儿童提供临床改善。同时,安全调节PPARG的药物的可用性意味着这一发现对研究PPARG具有直接的临床意义。

4 总结

导致早产儿大脑发育异常的分子和细胞机制目前尚不清楚,但缺氧、缺血和炎症都被认为是导致早产儿大脑发育异常的原因。目前的结果与假设是一致的,即白质结构变化是由PPAR信号通路的遗传变异性调节的。

遗传成像方法依赖于遗传力和合适的内表型。影像学脑内表型通常具有较高的遗传性和相关性:在新生儿期,d-MRI特征中个体之间的变异性的60%可以归因于遗传因素,而白质结构的d-MRI测量可预测神经发育结果。

原文:

Machine learning shows association between genetic variability in PPARG and cerebral connectivity in preterm infants

ML Krishnan, Z Wang, P Aljabar… - Proceedings of the …, 2017 - National Acad Sciences