远超现有方法，深度学习用于表位呈递与免疫原性预测-网络知识

近日，约翰霍普金斯大学Rachel Karchin团队提出了高精度预测MHC-I表位呈递的计算方法，免疫原性新表位预测也达到了最优准确率。

该深度学习方法BigMHC是基于质谱分析中的肽MHC呈递数据训练的，参数达到了5100万，随后基于表位呈递模型在免疫原性数据上进行了迁移学习，对免疫原性新表位进行预测。

代码：https://github.com/KarchinLab/bigmhc.

数据：https://doi.org/10.17632/dvmz6pkzvb.1

与现有最好的6种方法NetMHCpan-4.1、PRIME、MHCflurry 2.0、MixMHCpred2.1、MHCnuggests2.3.2和TransHLA相比，在预测946008个肽MHC复合物测试集上，BigMHC显著提高了MHC-I表位呈递的预测准确性(AUROC=0.9838，AUPRC=0.9506)。

在免疫原性数据进行迁移学习后，在独立新表位测试集上(包括IFN-γ release和MANAFEST assays)，BigMHC预测的免疫原性具有最高的性能。

BigMHC网络架构

pseudosequences和肽在输入模型之前进行一次one-hot编码，标记为“C”的圆圈表示串联，标记为“x”的圆圈表示elementwise的乘法。

自注意力模块是单head注意单元，这类似于将标准的多头transformer注意力模块的head数设置为1。在最后的sigmod的激活函数输出之前，模型的输出是MHC pseudosequences one-hot编码的加权和；权重与注意力相关。

因为除了内部BiLSTM单元连接之外的所有连接都是密集的，所以在MHC注意节点将预注意块输出映射到与onehotencoded MHC伪序列形状相同的张量之前，数据不会bottleneck。

表位呈递预测

BigMHC显著提高了整体EL(eluted ligand，洗脱配体)预测能力，达到了0.9838 AUROC和0.9506 AUPRC。而先前最好的方法是NetMHCpan-4.1，AUROC为0.9469和AUPRC为0.8257。

BigMHC对于长度为8-10的肽特别有效，这是MHC-I呈递的最常见的肽长度。虽然BigMHC的预测能力随着肽长度的增加而降低，但是对于较长的肽，至少仍与现有方法相当，且总体上优于现有方法。

BigMHC在HLA超型(supertypes)中也表现出强大的性能，而其他方法在HLA-B，尤其是在HLA-C上的性能是下降的。

免疫原性预测

为了解决数据稀疏问题，在基于最初呈递数据训练的基础模型后，作者对免疫原性数据应用迁移学习做BigMHC IM(immunogenicity)免疫原性预测。

在三个独立的数据集上评估了BigMHC IM和其他6种方法：传染病抗原免疫原性、IFN-γ释放新表位免疫原性和MANAFEST新表位的免疫原性。

RIME在传染病数据集上取得了最佳性能(AUROC=0.6110和AUPRC=0.8442)。BigMHC在IFN-γ release新表位数据集(AUROC=0.8534，0.5481)和MANAFEST新表位数据库(AUROC=0.5599，AUPRC=0-3032)上均取得了最佳性能。

参考文献

Deep Neural Networks Predict MHC-I Epitope Presentation and Transfer Learn Neoepitope Immunogenicity。

相关文章

央媒谈“文盲演员”引发饭圈甩锅大战

野生大熊猫深夜遛达 镜头前呆萌打卡

张萌谈演员到底需不需要有文化

情人节多地迎领证高峰

婚房烂尾10年业主住进毛坯房

多地首套房贷利率降至4%以下 为什么急于提前还贷

野生大熊猫深夜遛达镜头前呆萌打卡

多地首套房贷利率降至4%以下为什么急于提前还贷