文|脑极体
AI能制药,早已不是啥新鲜事了。
尤其是疫情之后,包括辉瑞、罗氏、默克、阿斯利康、葛兰素史克、赛诺菲、强生等在内的顶级制药公司,纷纷加速拥抱人工智能,不是与AI公司合作,就是收购或自建AI部门。
从分子实验到制造供应链甚至市场营销,AI已经在整个制药价值链上,展现出极大的潜力。
AI与制药的融合过程,以两种模式为主:
一种是VIC模式,即“VC(风险投资)+IP(知识产权)+CRO(研发外包)”,其中AI公司作为技术外包,为药厂提供降本增效的解决方案;
另一种是AI-Driven模式,专门以AI技术来驱动分析预测发现新的化合物、蛋白质,自己研发创新药。
相比“传统产业智能化”的外包服务商,AI企业“自立山头”制药,有着更大的商业想象空间,也确实在过去几年间,吸引了大规模的融资和巨头携资入场,仅2021年中国该领域的投融资规模就超过了80亿。
其中最具代表性的,就是谷歌母公司Alphabet不久前成立的AI药物公司Isomorphic Labs,其创始人正是研发了AlphaFold2算法的AI先锋DeepMind的CEO。显然,谷歌也非常看好以尖端AI技术在生物学领域“大展拳脚”的前景。
那么问题来了,生物制药领域是一个专业知识壁垒极高的领域, AI参与制药已经有15-20年的时间了,期间机器学习方法一直被用于药物发现和临床试验当中。2000年,利用机器进行“高通量筛选”已经被应用在化合物测试当中。但目前为止,还没有一个验证AI可以“独立行走”创新药的成功案例。
制药这条路,野心勃勃的AI公司该如何走下去?作为AI“优等生”和医药“后进生”,中国在AI制药上的赢面究竟有多大呢?
不是药神,AI制药现在究竟几分熟?
制药门槛如此之高,AI公司凭什么认为自己可以绕过物理学定律的限制“自立山头”呢?AI真的能取代传统实验手段,成为全村的希望吗?
正如当初深度学习爆火之后大众对AI不切实际的想象和惧怕一样,在制药这件事上,AI也并非无所不能,我们应该对AI设定一个合理预期:
以深度学习为主的AI技术有其适用范围,目前主要用在分析处理医药数据、预测疾病靶点、设计和优化化合物、实验自动化等领域当中,解决制药场景的实际问题。
未来,随着这些细分场景的不断成功和数据积累,不断反哺AI模型,可能3-5年才会有较大的突破。詹姆斯·贝森(James Bessen)在《边做边学》(Learning By Doing)一书中也提出,至少5-10年的时间AI才会让制药行业真正转型。
所以,在全球范围内,AI制药都处在较早期的阶段,AI公司造的药,目前可能才只有“一分熟”。指望突然掉下一款由AI主导研发的石破天惊的创新药,还是很遥远的。
既然隔行如隔山,由药厂引入AI不是强强联合、事半功倍吗,为什么AI公司还要冒着失败的风险去“另立山头”,而资本市场也愿意买账呢?
另立山头,谁给AI企业的自信?
原因之一,是AI的角色变了。
目前,制药行业广泛采用的是基于目标靶点的研究模式(Target-centric),即先要找到导致疾病的特定蛋白质(有效靶点),通过分析化合物、基因、疾病和蛋白质之间的关系,进行有效分子的筛选与设计。这个过程往往靠的是研究人员自身的创造力和经验,离不开制药公司大量高质量数据的支撑。
在这个过程中,AI的发挥空间就很大了。
1.更快。随着基因组学的发展,寻找和选择新药分子已经成为一项数据密集型任务,利用AI来自动学习分析处理数据,能够更快地推断出疾病机制,发现新靶点,从而加速研发过程。比如麻省理工学院团队推出的生物技术初创公司ReviveMed,就是基于MIT的代谢物数据库,分析药物-蛋白质、蛋白质-蛋白质的相互作用,识别特定的代谢物分子,找到一些有希望的治疗靶点,这些代谢物分子就有可能是未来的药物。
2.更早。如果医疗实验数据是凌乱而未标记的,那么后续的分析处理预测都不容易实现,所以在新药研发上面向AI的数据治理工作要开展得更早,现有的研发和业务流程必须重新设计,才能充分发挥AI、大数据、高性能计算等的协同价值,这涉及到大规模的组织转型,也使得数据工程师、算法工程师在制药领域的参与更早、更深。
3.更广。“靶点-疾病”的研发范式,使得传统制药公司不会将精力集中在罕见疾病的治疗上,因为ROI投资回报比太低,而AI技术可以通过表型数据(图像)进行药物的筛选和设计,反过来帮助找到新的治疗靶点,在计算机中合成和测试分子,这让罕见病有了治疗甚至治愈的希望,对全人类来说都是好事。
从实验室助手变成了新药研发的主角,AI“独立行走”的信心自然也就愈加强烈了。
原因之二,是重建一套新范式更方便。
虽然有一些制药公司思想开明、态度开放,但事实是,制药公司对其业务和研究方法的保守是出了名的,不愿意接受变革的占多数。一项研究显示,2019年和2020年生命科学领域人工智能相关专利的申请中,只有不到2%是知名制药公司提交的。
一些制药公司甚至都没有数字化,很多数据都用纸质档案保存,采用AI还需要时间;有的大型制药公司还是传统思维占主导,倾向于研发传统药物制剂。还有的则倾向于保留数据和技术作为内部商业机密,不愿意分享给AI技术公司……既然如此,开辟一条全新的赛道自己制药,对AI公司来说更加灵活,研发速度也更快。
与此同时,AI技术的发展,也让AI主导的研发成为可能。
一方面,小样本学习、生成技术等的应用,可以减少研发过程中的数据依赖。比如有公司就开发了一个名为Generative TensorialReinforcement Learning(GENTRL)的平台,让两种DL深度学习模型来相互作用,一个生成分子,一个鉴别真假,解决实验数据不足的问题。而一旦确定了标靶,就可以利用算法直接设计出所需要的分子结构了。
另外,虽说隔行如隔山,但端到端的深度学习,不需要算法人员去定义一些特征和规则,比如蛋白质结构预测模型能够直接根据序列的特征输出三维结构,目前已经达到实验的精度。所以尽管目前人类科学对很多疾病的理解都还处于初级阶段,算法人员也未必对生命科学知识十分精通,但运用AI工具来开发新药,完全是可行的。
原因之三,就是自己做原研药,这件事实在太香了。
目前,抗体药这类生物药已经逐渐超过了化学药的数量,成为增长最快的治疗药物。全球已经有超过100款抗体药上市,比如新冠特效药就是抗体药,找到能够中和病毒的活性抗体来发挥作用。
以前,抗体药需要从康复病人中去提取和筛选,这个过程费时费力,还有很大的不确定性。而通过AI直接对现有抗体进行设计和优化,实现高效的中和效果,一种新的抗体药物就诞生了。
原研药市场广阔、利润丰厚,自己研发无疑把握了最具价值的一环。所以说,AI公司自己做药它不香吗?
中国制药,在AI画布上描绘全新图景
想必很多读者通过新闻和行业报道都发现了,在AI制药这个领域,美国在技术、资本、产业规模上都处于领先地位,AI开发的特效药、疫苗、疗法、平台等不断涌现。
而中国在AI技术上并不落后,这是否意味着有希望在制药领域取得突破呢?在AI这块技术画布上描绘制药蓝图,对于中国意味着三重价值:
1.将生命福祉把握在自己手里。
在医药医疗领域,数据都是非常敏感的,比如要针对个体的基因序列和新抗原设计出对应的药物,对患者来说无疑是更有效、更精准、更普惠的。但是基因数据如果只能交给海外科技企业来分析和生产,其中存在的风险不用多说。
前不久《自然》杂志上就发布了一篇论文,总部位于美国北卡罗来纳州的制药公司Collaborations Pharmaceuticals,就与伦敦、瑞士的研究人员合作,训练出了一个药物开发工具MegaSyn,在短短六个小时内自动生产出40000种有毒的化学制剂。
利用AI结合群体基因特质,针对性地开发精准打击的生物武器,并非不可能。所以中国必须将AI制药的尖端科技掌握在自己手中。
2.在原研药领域取得较大突破。
大家可能都看到了,最新引进的新冠特效药价格高达数千元,原研药的销量高、利润高,已经是大众熟知的事实,而开发原研药一直是中国制药产业的老大难问题。必须意识到,在传统生命科学领域,中国的起步较晚、基础也相对薄弱,比如生物实验中需要的高精度显微镜、测试试剂等也是被国外“卡脖子”的,在这种情况下,AI提供了一种开发原研药的全新思路。
(2017年诺贝尔化学奖授予三位冷冻电镜领域的学者)
比如通过AI算法来代替冷冻电镜,也可以解开蛋白质结构。目前,AlphaFold预测出来的结果已经可以和冷冻电镜的方法相媲美。随着中国在相关算法上的突破,未来能够降低对一些卡脖子实验技术的依赖。
在创新药研发上,从科研到产业化之间的距离是非常近的,很多突破性技术和新分子都是从研究院所实验室中诞生,再由药厂进行转化、评估、临床试验……而在AI研究领域,中国科研院所的能力已经处于一流水平。
AI重新定义制药流程,有助于中国变成一个制药强国。
3.进一步发挥中国的AI产业优势。
我们都知道中国AI产业化的步伐很快,主要集中在互联网、工业、矿山、城市管理等领域,在生命科学领域里的AI应用,总体还处于初级阶段。
无论是AI公司驱动的创新药,还是传统药厂的AI化,都有很大的发展空间。目前,几乎中国头部科技企业如BATH(百度、腾讯、阿里、华为)等都在AI药物研发上有所动作。
随着AI制药的进一步发展,生命科学领域的数据、算力、算法都将进一步升级迭代,工具平台生态也将进一步搭建和丰富起来,届时,中国在AI领域的优势也将进一步放大。
都说“一张白纸上可以画出最新最美的图画”,AI制药之于中国,就是在远远追赶的生命科学实验道路之外,新建一条由数据铺成的高速公路,搭乘智能小车跑得更快、更早抵达新药研发的目的地。
盛名之下:AI解锁制药的三把钥匙
AI发展最不可或缺的,是信心。历史上的两次AI寒冬,就与投资者和大众对AI回报预期的垮掉,有着直接关系。AI制药的投融资浪潮,似乎在大鸣大放之后,不得不面对一个骨感的现实:一开始想得很美,但突破来得很慢。
曾有一位AI制药公司的创始人对媒体透露,第一轮融资时投资人希望能够做药,第二轮就开始建议他们做服务(也就是药厂AI技术外包)了。
资本市场对AI制药的疑虑,是高潮之下的正常调整,但要避免透支信任、解锁光明的未来,AI制药企业恐怕还需要拿到三把钥匙:数据、算力、算法——没错,就是虽然朴实、但至关重要的AI“三驾马车”。
实际上,大部分AI的问题都是因为数据不够、算力不够、算法不够好。而解决方法也是从这三点入手。
先说数据。
前面提到,目前人类对生命科学的理解还非常初级,端到端学习也可以减少对一部分数据的依赖,但基本的高质量数据还是AI制药必不可少的基础。
受实验手段、医疗技术的限制,目前AI对蛋白质功能的分析还是比较初级的,对分子的功能结构、关系序列等的描述不够,这显然会给AI学习带来困扰,蛋白分子会不断地和别的分子进行交互,形状也会随之改变,用纯数据驱动的AI方法去生搬硬套,结果很可能是“无效设计”。
就如化学家Derek Lowe在《科学》杂志上指出的,即使两种蛋白质具有物理上结合在一起的结构,也很难说它们实际上会粘合得有多好。用在动物或人身上的时候也不一定总是有效。
更深入地理解生物世界,离不开大量优质的数据,这些往往通过几十年的积累和实验获得,掌握在药企自己手里,不会轻易分享。此外基因数据、医疗数据还涉及到隐私伦理问题,需要在严格的数据保护法律法规之下使用。
所以对于AI企业来说,亟需探索一种与药企合作、分利的模式,解开数据的桎梏。
再说算力。
以蛋白质结构预测为例,它往往需要超大规模的算力支持。因为生物系统中分子之间的相互作用特别多,设计出来的模型可能参数不大,但比较复杂,比计算机视觉、NLP等模型要大很多。
此前曾有中国AI公司训练出了中国版AlphaFold2,团队成员表示遇到最大的困难,就是GPU资源(算力)有限,难以同时进行多次训练来比较效果,所以只好在模型设计上下功夫,尽量减少试错次数。
另一个科学家也向脑极体透露,其开发的蛋白质结构预测平台,对一个模型的一个数据点(data point)进行计算就需要800G显存,意味着需要十几块顶级显卡,如果要做全规模训练那算力成本简直不可想象。
所以,一方面,需要加强AI算力基础设施建设,提供更多更普惠的算力资源,通过产业合作等方式来支撑生命科学的AI应用发展。另一方面,对生物AI模型的“瘦身”优化成为大势所趋,过大的模型即便在实验室里有充沛的算力支持,在实际部署落地的时候也会对内存存储等提出挑战。
这自然就要提到更好的算法。
新药研发是个非常复杂、探索未知的过程,世界一流的算法和成果,离不开世界一流的科研。目前来看,中国在AI领域“跟随”更多,面向底层、有影响力的突破较少。
斯坦福大学发布的2022年人工智能指数报告(2022 AI Index Report)中也显示,2021 年,中国在人工智能期刊、会议和知识库出版物的数量上继续领先世界,比美国高出 63.2%,但在引用数量上却低于美国、欧盟和英国。
在一个全新的领域开发出新的算法,没有任何经验可循,核心还是在人才。首先需要人才具备寻找问题、提出问题的能力,以及耐心安心解决底层技术问题的科研环境,此外还需要具备生物学、药剂学、化学等交叉知识,这些都给AI学科建设和人才培养提出了新的挑战。
一位AI科学家告诉我,在她看来,现在对AI人来说既是最好的时代,也是最坏的时代。一方面AI产业发展带来的新机遇非常多,另一方面从业者也会感受到一种沉甸甸的责任感,技术迭代速度之快带来了高强度的研究压力。
不难看出,AI驱动的研究范式也带来了全新的挑战,能否在产业重新分工中占据优势,中国AI还有一些关卡要过,其中很多基础条件需要长期的、体系化、科学的投入。
无论如何,AI必将引领生物制药领域未来十年甚至更远的创新方向。从这个角度看,AI制药公司“自立山头”,迈出了关键的一步,这一选择是必须肯定且支持的。接下来的重点在于,如何在成果数量与质量上赶超和引领世界一流水平。
就像科学史家托马斯·库恩在《科学革命的结构》中所写的那样,科学就是通过不断地转换范式,打破旧有框架束缚,才取得了进步。
人类的健康和希望,就隐藏在这样的“不走寻常路”中。