网络知识 娱乐 百奥几何天使轮融资,开源大分子机器学习平台TorchProtein发布

百奥几何天使轮融资,开源大分子机器学习平台TorchProtein发布

2022 年 9 月 21 日,百奥几何宣布完成千万美元天使轮融资,投资方为高榕资本。团队也发布了首个针对大分子药物研发的开源机器学习平台 TorchProtein,致力于通过 AI 加速药物研发的进程。据悉,本轮融资将主要用于后续团队扩建等。

1、打造两大基础平台,下一代AI技术驱动大分子药物研发

生物医药研发长期处于「作坊式」状态,数字化与自动化程度低,依靠大量人力与专家经验,不同研发环节之间存在明显脱节。而创新药平均 10 亿美金级的研发成本、平均超过 10 年的研发周期、小于 10% 的临床开发成功率和药企逐年走低的资本回报率导致行业变革的需求迫在眉睫,AI 无疑让大家看到了希望。

百奥几何致力于开发几何深度学习、深度生成模型等下一代人工智能技术,用于大分子药物研发。目前,公司正打造人工智能大分子药物设计和高通量大分子药物湿实验验证两大基础平台。

其中,人工智能大分子药物设计平台建设已基本完成,在抗体结构预测、抗体优化、抗体序列设计、酶活性预测等任务上都取得了国际领先的水平。高通量大分子药物湿实验验证平台也正联合生物医药领域知名高校和实验室展开建设,推进前沿工作。

当前,国内已涌现出一批将 AI 运用于小分子药物研发的企业,但是在大分子药物研发领域走向台前的 AI 企业屈指可数。究其原因,主要在于大分子结构与功能的复杂性以及大分子数据的缺乏。

以蛋白质为例,它是人体和各种生物构成的重要基本大分子,由各种氨基酸形成的肽链折叠而成。在生物学上,蛋白质的三维结构直接决定其功能,而现有药物大多是小分子化学药,作用靶点大部分落在蛋白质上。如果能精准绘制出蛋白质的三维结构,便能针对性地进行药物设计和疾病治疗。但蛋白质结构复杂,即使动用超级计算机,仍无法确保准确率。

另一个大问题就是高质量数据的缺失,尤其是数据的不均衡。过往由于实验科学的特点,导致很多失败的实验数据并没有被很好地保存,用 AI 的术语,这导致了阴性样本的缺失。而深度学习算法的建立,要同时具备阴性(失败的)和阳性(成功的)数据。

令人欣慰的是,自动化高通量实验技术对建立优质的 AI 预测模型将起到很大的作用。借助高通量实验技术产生的大量高质量数据集,可针对具体问题训练出更准确的 AI 模型,而计算结果将反过来优化高通量检测本身,形成数据闭环,减少最终测试量,从而加速药物的研发进程。

百奥几何创始人唐建表示,「当前业内在蛋白质预训练模型上,常用的方式是借用自然语言处理分析技术,将蛋白质表达成序列构建预训练模型。而我们提供了一套开创性的算法,直接基于蛋白质的三维几何结构进行预训练。它的优势在于可以更好地提取蛋白质特征。而在进行大量的预训练后,后期将显著降低对有标签的数据的依赖,并进一步降低研发成本。」

2、TorchProtein:分析蛋白质序列及结构数据,仅需一两行代码

与此同时,团队也联合英伟达、英特尔、IBM 等公司联合发布了首个针对大分子药物研发的开源机器学习平台 TorchProtein。

蛋白质是生物体的重要组成成分。理解蛋白质的结构与生化性质,对于药物研发和人类健康有着不可估量的意义。传统基于生物实验的蛋白质研究不仅周期漫长,而且开销巨大。相比之下,机器学习技术则能大幅降低蛋白质研究的周期和开销,为新药的研发带来革命性的影响。

然而,基于机器学习的蛋白质研究,涉及到生物领域知识、机器学习算法、并行实现等多个方面,具有较高的入门门槛。市面上也缺少合适的开源库来支持这方面的研究,致使机器学习技术在蛋白质研究中发展受阻。

TorchProtein 在此前开源平台 TorchDrug 的基础上,为蛋白质打造了一套专用的模块组件。TorchProtein 不仅提供了处理蛋白质的数据结构、主流的算法模型,还包括了标准数据集和任务评测接口。其所有接口均有很强的可扩展性,满足各类机器学习算法开发的需要。无论是图机器学习、蛋白质语言模型还是自监督训练,都能轻松基于 TorchProtein 实现。

考虑到不同任务需要用到蛋白质分子、序列和结构等不同信息,TorchProtein 设计了一套统一不同模态信息的数据结构。而且,平台提供了多种基于蛋白质序列与结构的模型,仅需一两行代码即可调用 TorchProtein 中的标准模型来分析蛋白质序列和结构数据。

此外,TorchProtein 中引入了大量蛋白质数据集和相关基准测试任务,并记录了主流的机器学习算法在这些测试任务上的测试结果,为新的算法研究提供代码与实验支持。

针对基于蛋白质序列和结构的预测任务,平台提供了许多大规模预训练模型,这些模型将有效促进蛋白质机器学习在实际中的运用,并大大缩减计算成本。

在药物研发策略上,目前,AI 制药已经形成三种发展模式:一是 AI-CRO 模式,为制药企业和 CRO 企业提供外包服务;二是内部研发模式,制药企业自研 AI 制药产品;三是平台服务模式,搭建 AI 技术平台并提供技术服务。三种模式特点不一、短板明显、发展前景未知。

对于未来发展规划,唐建表示,在大分子药物研发方面,目前其更为聚焦抗体结构预测、抗体优化、抗体序列设计、酶活性预测等百奥几何已经在国际上取得一定优势的项目。后续将进一步拓展其聚焦的细分领域。此外,百奥几何虽然是初创项目,但其也在尝试基于前期与国际 pharma 建立的关系,逐步从学术合作拓展至商务合作。

3、创始人是顶级科学家,本轮融资将主要用于后续团队扩建

百奥几何创始人是加拿大蒙特利尔学习算法研究所(Mila)副教授、终身教授唐建,其研究领域包括几何深度学习、图表示学习、图神经网络、药物发现及知识图谱。

唐建,2014 年毕业于北京大学信息科学技术学院并获得博士学位,2014-2016 年任职微软亚洲研究院副研究员,2016-2017 年为密歇根大学和卡内基梅隆大学的联合培养博士后,曾获 2014 年机器学习顶级会议 ICML 的最佳论文。

唐建在图表示学习领域做了诸多开创性的工作,也是国际上最早把深度学习运用于图结构数据的少数几名学者之一。2018 年,他加入到了加拿大蒙特利尔大学算法研究所(Mila)。Mila 实验室是由深度学习先驱 Yoshua Bengio 教授领导的人工智能实验室,主要从事深度学习、强化学习、优化算法等人工智能领域的基础研究以及在不同领域的应用。

当时,唐建正在寻找图神经网络的“杀手级应用”。他意识到生物医药研发领域中大部分数据为图结构数据,这意味着其算法有了用武之地。于是,唐建带领团队将图神经网络应用到了生物医药研发领域。起初,团队将目光瞄准小分子药物研发,但随着 Alpha Fold2 在分子建模方面取得的成效,他们也开始将图神经网络等运用于大分子药物研发领域。

2020 年末的 CASP 14(第十四届蛋白质结构预测技术评估大赛)上,谷歌子公司 DeepMind 提出的深度神经网络蛋白质形态预测方法 AlphaFold2 在第一代的基础上再度进化,媲美人工实验结果,以超越所有传统计算方法的精确度彻底改变生物制药格局,也让 AI 制药走向时代浪尖。

过去半个多世纪,生物学家主要利用X射线晶体学或冷冻电镜(cryo-EM)等实验技术来破译蛋白质的三维结构。这些方法耗时长,失败率高。如今,人类已经发现生命体内存在 2 亿多个蛋白质,而其中只有约 17 万蛋白质的结构经实验破解。 AlphaFold2 的问世,在一年之内就实现了预测这些蛋白质中 58% 的结构,因为无固定结构的氨基酸比例很大,58% 的结构预测已经接近极限了。

「当前我们正处在 AI 以及生物技术革命的交汇点。一方面,几何深度学习技术(如 AlphaFold2)在分子建模方面取得了巨大突破;另一方面,以合成生物学为代表的生物技术能够对基因进行快速读、写、以及编辑,给 AI 创造了大量的数据。两种革命技术的深度融合为生物大分子设计带来了巨大的机会。」唐建表示。

目前,百奥几何团队中已经有着多种背景的复合型人才,包括生物信息学、结构生物学背景的人才,也包括 AI 领域顶尖研究人才。本轮融资完成后,团队也将吸纳更多有着 AI 背景和生物医药背景的人才。

此外,百奥几何也已经与国内外多家著名高校、企业都建立了合作关系,共同推进人工智能在药物研发方向的进展。而图灵奖获得者、深度学习三巨头之一、加拿大蒙特利尔大学教授 Yoshua Bengio 也将担任公司顾问。

资料来源:

https://torchprotein.ai/

https://mp.weixin.qq.com/s/nPn3Ab5XHhhXK0l-p_G3Hw

https://mp.weixin.qq.com/s/M7c4Z6IxRFWxRGIHDJ5xuA

https://mp.weixin.qq.com/s/aaKhGmQtsUnA8FdSOUfIHQ