黄金艳团队利用生物和统计协变量提高数据分析统计效率
发布日期:2020-04-14 浏览次数:424

    高通量技术产生海量数据,大大推进了疾病研究的进展,但如何控制对应的生物数据统计检验的假阳性率,提高统计效能一直没有得到很好的解决。比如在表观基因组关联分析(Epigenome-wide association studyEWAS)研究中,需要在表观基因组层面比较不同表型之间的差异,研究通过检测整个基因组成千上万特异DNA核苷酸上甲基的分布情况,鉴别出和表型相关的表观变化。该计算过程中,就涉及成千上万次统计假设检验。假阳性率(False Discovery Rate, FDR)控制广泛应用于校正EWAS假设检验的P值。然而,传统的FDR控制方法,由于其产生时并非针对生物医学大数据的分析,不使用辅助协变量,很有可能不够充分有效地挖掘其中的价值。上海交通大学医学院附属瑞金医院黄金艳研究员与梅奥医学中心陈军研究员合作,使用模拟和真实的EWAS数据集,使用数据集对应的协变量,评估了五种FDR控制方法的性能,这五种方法分别为:Adaptive p value thresholding (AdaPT), Boca and Leek’s FDR regression (BL), covariate adaptive multiple testing (CAMT), FDR regression (FDRreg)Independent Hypothesis Weighting (IHW)

      研究中,开发了一个综合测试来评估协变量的有效性,分析发现统计协变量通常比生物变量能更好的控制假阳性率。甲基化平均值和方差对应的协变量,几乎在各个数据集的分析中,都能取得好的效果。而生物协变量只在某些特定的数据集能有好的作用。研究证明了独立假设加权(Independent Hypothesis Weighting, IHW)和协变量自适应多重测试(Covariate Adaptive Multiple Testing, CAMT)方法总体上更强大,特别是对于稀疏信号,与实际数据集相比,可以将检测能力提高25%和68%。在更大的模拟和实际数据集中,该结论得到进一步的证实。近日该成果发表在开放获取期刊Genome Biology上。