最新研究成果
  • 最新研究成果
  • 学术交流
  • 培训班
  • Human Brain Mapping:典型相关分析应用于探索脑与行为间关系的方法稳定性研究

    发布时间:2021-04-20    浏览次数:    作者:Admin

    论文发表

    典型相关分析(CCA)作为一种“多对多”相关分析方法,近些年来在脑与行为之间复杂关系的研究中日益受到重视,但该方法所得结果的稳定性却往往被忽视。天津市功能影像重点实验室梁猛教授课题组利用两套独立的大样本数据集,针对基于神经影像学数据的脑与行为关系研究的这一特定应用场景,通过构建可能影响CCA结果稳定性的不同条件,系统性探究了CCA结果的稳定性。相关研究成果于近期在线发表在Human Brain Mapping,题目为 Stability test of canonical correlation analysis for studying brain-behavior relationships: The effects of subject-to-variable ratios and correlation strengths。天津市功能影像重点实验室博士研究生杨青青为本文第一作者,梁猛教授为本文通讯作者。

    前言

    不论人脑还是人的行为,本质上都是多维的,两者各自均表现为相互关联又有所区别的多个方面。因此要刻画脑与行为之间极其复杂的关系自然就需要一种能够分析“多对多”关系的方法,这也使得多变量分析技术在当前正步入大数据时代的神经影像学研究领域受到越来越多的青睐。CCA作为一种经典的“多对多”相关分析方法,近年来被越来越多地应用于神经影像学领域来探究人脑与行为之间的复杂关系并表现出了巨大潜力,为更好地理解人类正常发育、衰老以及疾病过程提供了新的思路。然而,在刻画脑影像指标与其他被试度量指标之间关系的特定应用场景中,如何正确使用CCA以避免其结果的不稳定,目前尚不明确,也未见CCA在神经影像学研究中的稳定性问题进行系统性探究的相关研究。本研究基于两套独立大样本数据集(天津数据集和HCP数据集),系统地探究了CCA结果的稳定性。每套数据集均由同质的健康被试组成。对于每套数据集,将所有被试随机分为两组,对每组被试分别利用CCA考察脑影像学数据(脑结构灰质体积指标、脑功能局部一致性指标)与其他被试度量指标(人口统计学、环境、认知测评数据)之间的关系,通过比较两组被试所得CCA结果的相似性来评估CCA结果的稳定性。通过主成分分析(PCA)降维方法改变样本变量比(样本数与变量数的比值;subject-to-variable ratio,SVR),并构建“强相关”和“中等相关”两种不同场景,来考察SVR和相关强度如何影响CCA结果的稳定性。

    一、基于天津数据集在强相关场景下测试CCA的稳定性

    天津数据集共纳入936例健康被试,影像学数据包括灰质体积(GMV)指标和局部一致性(ReHo)指标,被试度量指标包括基本人口统计学、环境和行为认知等在内的78个变量。CCA结果的稳定性评估流程及评估方式见图1,对应的伪代码见补充材料图1。


    图1 “主分析”中CCA结果的稳定性评估流程图。为了评估CCA结果的稳定性,在CCA分析之前,整个天津数据集(n=936)被伪随机分为两个亚组(各亚组n=468),亚组间被试重叠度分别控制为以50为步长,从0开始,依次递增,一直到450共10种不同情况。每种被试重叠度下,均随机生成1000对亚组。为避免过拟合及测试数据维数(即SVR)对CCA稳定性的影响,采用PCA将各亚组脑影像数据(GMV或ReHo)降至一系列维数(从50维开始,以50维为步长,依次递增,一直到450维)。由于被试度量指标总共只有78个变量,故将其固定降至50维。从而产生从9.36(468/50)至1.04(468/450)等9种不同的SVR。PCA降维后,利用CCA来评估各亚组脑影像指标(IM)与被试度量指标(SM)之间的关系。对于不同被试重叠度和不同SVR,本研究从以下三个方面考察成对亚组间CCA第一模式结果的相似性来评估CCA结果是否稳定:(1)典型相关系数(CCC)的相似性(评估方式一):计算成对亚组间CCC差值的绝对值,然后计算该结果在1000对亚组中的均值和标准差;(2)CCC统计显著性的一致性(100次置换检验,当P<0.05时认为CCC是显著的)(评估方式二):计算成对亚组间关于结果显著性的三种不同情况(两个亚组的结果均具有显著性、均不具有显著性和只有一个亚组的结果具有显著性)在1000对亚组中所占百分比;(3)典型变量的相似性(评估方式三):计算成对亚组间载荷向量(分别基于脑影像指标和被试度量指标)相关系数的绝对值,然后计算该结果在1000对亚组中的均值和标准差。


    不同被试重叠度和不同SVR下的CCA稳定性评估结果如图2所示。为更清楚地展示各评估结果在1000对亚组中的具体分布情况,图3以小提琴图的形式展示了被试重叠度为0时的结果。CCC:无论是基于GMV指标还是基于ReHo指标,均得到相当高的CCC值(GMV指标:CCC>0.89;ReHo指标:CCC>0.82)。随着数据维数的增加,CCC的数值逐渐增大,直至趋近于1;CCC的相似性:成对亚组间CCC的差值及其方差均较小,并随着被试重叠度的增加和数据维数的增加而逐渐减小。CCC统计显著性的一致性:对于GMV指标,当数据维数从50至300时,各亚组的CCC均是显著的;当数据维数增加至450时,各亚组的CCC均是不显著的;但是当数据维数增加至350时,各亚组CCC显著性的不一致情况开始出现,当数据维数增加至400时,该不一致情况占比明显增加。对于ReHo指标,亦观察到类似的结果。载荷向量的相关性:当数据维数小于400时,成对亚组间载荷向量的相关系数大体处于较高水平(>0.6);但是当数据维数进一步增加时(即≥400),其相关性出现显著下降,同时伴随着方差的随之增大。为了评估各原始变量的载荷值本身如何随着数据维数的变化而变化,补充材料图2-3展现了当被试重叠度为0时,每个变量在1000对亚组(即2000个亚组)中得到载荷值的均值和标准差,以及成对亚组间载荷值的绝对差值在1000对亚组中的均值和标准差。为了进一步确定两个亚组分别检测到具有显著性的载荷是否对应于相同的体素,针对被试重叠度为0时的情况,对于不同的SVR,本研究基于GMV数据利用靴带检验测试了各体素载荷的显著性在成对亚组间的一致性。结果显示(补充材料图4),在较少的数据维数下(即<150),某些脑区的体素在两个亚组间均表现出显著性的结果。

    图2 基于天津数据集的78个被试度量指标(即“强相关”场景)在“主分析”中对CCA稳定性的评估结果。在不同被试重叠度和不同数据维数的组合下,A显示2000个CCA模型的CCC数值。B显示成对亚组间CCC差值的绝对值。C显示成对亚组间CCC统计显著性的一致性情况占比。D和E显示成对亚组间载荷向量(D:脑影像指标,E:被试度量指标)的相关系数。各子图的横坐标表示脑影像数据维数(即保留的主成分个数,以50为步长,从50开始,依次递增,一直到450)和相应的SVR(从9.36到1.04)。不同颜色代表成对亚组间不同的被试重叠度(以50为步长,从0开始,依次递增,一直到450)。在所有的条形图中,条的高度表示均值,误差线表示标准差。


    图3 基于天津数据集的78个被试度量指标(即“强相关”场景)在“主分析”中成对亚组间被试重叠度为0时的CCA稳定性评估结果。在不同数据维数下,A显示2000个CCA模型的CCC数值。B显示成对亚组间CCC差值的绝对值(下方)和成对亚组间CCC统计显著性的一致性情况占比(上方)。C和D显示成对亚组间载荷向量(D:脑影像指标,E:被试度量指标)的相关系数。各子图的横坐标表示脑影像数据维数(即保留的主成分个数,以50为步长,从50开始,依次递增,一直到450)和相应的SVR(从9.36到1.04)。在平滑的小提琴图中,黑色虚线表示中位数,白色虚线表示四分位数。


    二、基于天津数据集在中度相关场景下测试CCA的稳定性

    如图2-3所示,在不同被试重叠度下,CCC的数值普遍处于较高水平(当数据维数=50,即SVR=9.36时,GMV:0.89,ReHo:0.82),表明在上述分析中,脑影像指标和被试度量指标之间具有很强的关系。为进一步测试两组变量之间的相关强度是否也会影响CCA结果的稳定性,本研究去除三个被试度量指标(载荷的绝对值>0.75,而其他被试度量指标载荷的绝对值<0.2;见补充材料图2B和补充材料图3B)后,重复上述所有分析,再次评估了CCA结果的稳定性。

    结果显示(图4-5),CCC数值出现明显的下降——例如,当被试重叠度为0且数据维数为50时,基于GMV指标得到的CCC从0.89下降至0.65,基于ReHo指标得到的CCC从0.82下降至0.64。与上述相类似的是,CCC数值随着数据维数的增加而增加,直至趋近于1。另外,尽管随着被试重叠度和数据维数的变化,稳定性度量指标的变化趋势与之前结果保持不变,但也存在以下几点不同之处(“中度相关”场景下的图4-5对比“强相关”场景下的图2-3)。在“中度相关”场景下,(1)成对亚组间CCC具有更大的差值和相应的方差;(2)即使在最低的数据维数下,各亚组间CCC的显著性也会存在不一致的情况。当采用更多次的置换检验(n=10,000),成对亚组间CCC显著性的不一致情况依旧存在(补充材料图7);(3)成对亚组间载荷向量的相关性要弱得多且具有更大的方差;(4)对于不同的数据维数,各变量的载荷值亦不如之前稳定,特别是载荷值较大的变量(补充材料图5-6);(5)利用靴带检验测试各体素载荷的显著性在成对亚组间的一致性时,未发现在两个亚组中均具有显著性载荷的体素。此外,进一步降低脑影像数据维数(分别为10、20、30和40),CCA的结果仍然不稳定(补充材料图8-10)。


    图4 基于天津数据集的75个被试度量指标(即“中度相关”场景)在“主分析”中对CCA稳定性的评估结果。在不同被试重叠度和不同数据维数的组合下,A显示2000个CCA模型的CCC数值。B显示成对亚组间CCC差值的绝对值。C显示成对亚组间CCC统计显著性的一致性情况占比。D和E显示成对亚组间载荷向量(D:脑影像指标,E:被试度量指标)的相关系数。各子图的横坐标表示脑影像数据维数(即保留的主成分个数,以50为步长,从50开始,依次递增,一直到450)和相应的SVR(从9.36到1.04)。不同颜色代表成对亚组间不同的被试重叠度(以50为步长,从0开始,依次递增,一直到450)。在所有的条形图中,条的高度表示均值,误差线表示标准差。


    图5 基于天津数据集的75个被试度量指标(即“中度相关”场景)在“主分析”中成对亚组间被试重叠度为0时的CCA稳定性评估结果。在不同数据维数下,A显示2000个CCA模型的CCC数值。B显示成对亚组间CCC差值的绝对值(下方)和成对亚组间CCC统计显著性的一致性情况占比(上方)。C和D显示成对亚组间载荷向量(D:脑影像指标,E:被试度量指标)的相关系数。各子图的横坐标表示脑影像数据维数(即保留的主成分个数,以50为步长,从50开始,依次递增,一直到450)和相应的SVR(从9.36到1.04)。在平滑的小提琴图中,黑色虚线表示中位数,白色虚线表示四分位数。


    三、利用HCP数据集进行验证分析

    HCP数据集共纳入700例健康被试的GMV指标和包括基本人口统计学及行为认知等在内的290项被试度量指标,因此利用该数据集进行CCA稳定性分析过程中,每个亚组的被试数为350人,成对亚组间被试重叠度以35为步长从0到315依次递增。脑影像数据维数以35为步长从35到315依次递增。被试度量指标的降维维数固定在35。本研究利用HCP数据集重复了上述“强相关”场景和“中度相关”场景下的“主分析”过程,均得到了相似的结果(图6-7,补充材料图11-12)。

    四、对照分析:消除亚组间PC的不一致性对CCA稳定性评估的可能影响

    在上述分析中(称为“主分析”),PCA是在CCA分析之前分别应用于每个亚组(而不是整个天津数据集),使得每个亚组得到的各主成分可能也会有所不同。为了进一步测试亚组间主成分的不一致性对CCA结果稳定性的可能影响,本研究测试了另一种分析过程(称为“对照分析”)。“对照分析”的操作步骤与“主分析”的大致相同,不同之处在于,“对照分析”是先把PCA分别应用于整个天津数据集的脑影像数据和被试度量指标,然后将整个数据集(以上一步生成的主成分形式)分为两个亚组,然后基于各亚组的各主成分进行之后的CCA分析。“对照分析”的伪代码见补充材料图1。这样可以保证所有亚组的各主成分具有良好的对应性,以此来消除亚组间主成分的不一致性对CCA结果稳定性的影响。在“对照分析”的“强相关”场景和“中等相关”场景下,均得到了与“主分析”非常相似的结果(“强相关”场景:补充材料图13-16对比于图2-3和补充材料图2-3;“中等相关”场景:补充材料图17-20对比于图4-5和补充材料图5-6)。另外,在“对照分析”的“中度相关”场景下,采用更低的脑影像数据维数(分别为10、20、30和40)亦得到了与“主分析”非常相似的结果(补充材料图21-23对比于补充材料8-10)。


    五、交叉验证法评估CCA结果的显著性

    上述对CCA结果的稳定性评估是基于对两个亚组进行各自独立的CCA分析然后评估其结果的相似性,除此之外,本研究还采用另一种不同的策略评估了CCA结果的稳定性——其中一个亚组作为发现集,将发现集的典型权重直接应用到测试集种(另一个亚组),然后评估测试集得到假CCC的统计显著性是否与发现集的结果相一致。基于天津数据集的GMV数据,在“强相关”场景和“中度相关”场景下,对不同的SVR均进行了该分析。结果如补充材料图24所示,当去除发现集和测试集间PC不一致的影响后,在“强相关”场景下,当脑影像数据维数≤350时,发现集和测试集之间具有相似的CCC和一致的统计显著性。但在“中度相关”场景下,与发现集相比,测试集的CCC要低得多。该结果再次证实,在SVR足够高以及典型相关足够强时,才可以期望CCA结果是稳定的。


    结论

    本研究表明SVR和待考察两组变量之间的相关强度是CCA结果稳定性的关键影响因素。据此,我们提出参考性建议:在基于神经影像数据研究脑与行为之间的关系时,应使用大样本数据或减少感兴趣变量个数(即保证较大的SVR),当得到较强相关关系时,才能确保该结果是稳定的。