网络知识 娱乐 远超现有方法,深度学习用于表位呈递与免疫原性预测

远超现有方法,深度学习用于表位呈递与免疫原性预测

近日,约翰霍普金斯大学Rachel Karchin团队提出了高精度预测MHC-I表位呈递的计算方法,免疫原性新表位预测也达到了最优准确率。

该深度学习方法BigMHC是基于质谱分析中的肽MHC呈递数据训练的,参数达到了5100万,随后基于表位呈递模型在免疫原性数据上进行了迁移学习,对免疫原性新表位进行预测。

代码:https://github.com/KarchinLab/bigmhc.

数据:https://doi.org/10.17632/dvmz6pkzvb.1

与现有最好的6种方法NetMHCpan-4.1、PRIME、MHCflurry 2.0、MixMHCpred2.1、MHCnuggests2.3.2和TransHLA相比,在预测946008个肽MHC复合物测试集上,BigMHC显著提高了MHC-I表位呈递的预测准确性(AUROC=0.9838,AUPRC=0.9506)。

在免疫原性数据进行迁移学习后,在独立新表位测试集上(包括IFN-γ release和MANAFEST assays),BigMHC预测的免疫原性具有最高的性能。

BigMHC网络架构

pseudosequences和肽在输入模型之前进行一次one-hot编码,标记为“C”的圆圈表示串联,标记为“x”的圆圈表示elementwise的乘法。

自注意力模块是单head注意单元,这类似于将标准的多头transformer注意力模块的head数设置为1。在最后的sigmod的激活函数输出之前,模型的输出是MHC pseudosequences one-hot编码的加权和;权重与注意力相关。

因为除了内部BiLSTM单元连接之外的所有连接都是密集的,所以在MHC注意节点将预注意块输出映射到与onehotencoded MHC伪序列形状相同的张量之前,数据不会bottleneck。

表位呈递预测

BigMHC显著提高了整体EL(eluted ligand,洗脱配体)预测能力,达到了0.9838 AUROC和0.9506 AUPRC。而先前最好的方法是NetMHCpan-4.1,AUROC为0.9469和AUPRC为0.8257。

BigMHC对于长度为8-10的肽特别有效,这是MHC-I呈递的最常见的肽长度。虽然BigMHC的预测能力随着肽长度的增加而降低,但是对于较长的肽,至少仍与现有方法相当,且总体上优于现有方法。


BigMHC在HLA超型(supertypes)中也表现出强大的性能,而其他方法在HLA-B,尤其是在HLA-C上的性能是下降的。


免疫原性预测

为了解决数据稀疏问题,在基于最初呈递数据训练的基础模型后,作者对免疫原性数据应用迁移学习做BigMHC IM(immunogenicity)免疫原性预测。

在三个独立的数据集上评估了BigMHC IM和其他6种方法:传染病抗原免疫原性、IFN-γ释放新表位免疫原性和MANAFEST新表位的免疫原性。

RIME在传染病数据集上取得了最佳性能(AUROC=0.6110和AUPRC=0.8442)。BigMHC在IFN-γ release新表位数据集(AUROC=0.8534,0.5481)和MANAFEST新表位数据库(AUROC=0.5599,AUPRC=0-3032)上均取得了最佳性能。

参考文献

Deep Neural Networks Predict MHC-I Epitope Presentation and Transfer Learn Neoepitope Immunogenicity。