AI创世纪|Transformer是大模型基石,但一家创业公司却想挑战它

彩云科技CEO袁行远:“如果应用了DCFormer,所有基于transformer的模型的成本还能再降一半。”

图片来源:企业官网

中国的大模型之战已从融资战、营销战打到了价格战,大大小小的公司在发布各自大模型产品时,都要跟OpenAI的ChatGPT比一比跑分或者价格。但有一家公司不一样,它选择跳过市面上各个喧嚣的战场,直接向底层发起突破。

5月22日,AI创业公司彩云科技发布了全新通用模型结构DCFormer,将直接挑战现在几乎所有大模型通用的Transformer架构。根据官方给出的相关论文实验证明,在三千亿级训练数据和70亿级模型参数量下,DCFormer效率是Transformer的两倍。

Transformer模型有其隐忧

Transformer模型是一种采用注意力机制的深度学习模型,最早在2017年由Google Brain的一个团队推出,对整个AI学界和业界尤其是自然语言处理领域产生巨大影响,而其相关论文《Attention Is All You Need》已经成为今天大语言模型蓬勃发展的起源与名篇。简单来说,如果没有《Attention Is All You Need》提出的Transformer模型,就没有如今这个如火如荼的AI大模型时代。

然而,Transformer模型开源发布7年以来,随着业界各种模型的规模越来越大,算力对性能的限制成为一个越来越亟待解决的问题,而这一限制直接表现就是模型训练的昂贵,上周OpenAI刚刚发布的GPT-4o,一次推理的成本仍然要人民币4元,这也是现在大模型价格战之所以引入注目的背景原因。虽然现在还有各大科技巨头和风投机构的支持,但这无法持久。

要解决或者缓解这个问题,无外乎几个办法:芯片进步,改进模型,或者解决地球的能源问题。比如,OpenAI的CEO Sam Altman在几个方向都分别下注,除了OpenAI在不断训练自己的模型算法,据媒体报道,他还与软银的孙正义讨论芯片项目,并且投资核聚变—— Sam Altman不久前说,未来的人工智能需要能源方面的突破,因为AI消耗的电力将远远超过人们的预期。

在芯片领域,尽管有许多挑战者,微软、谷歌这样的巨头也在自己设计芯片,但英伟达仍然保持遥遥领先。在当地时间5月22日发布的新一季财报中,英伟达营收增长262%至260亿美元再创新高,并且连续第20个季度超出分析师预期,盘后股价大涨。

而能源领域,目前看起来若要取得真正进展,还需要基础研究的突破,不是光砸钱就能很快取得成果的。

因此,创业公司还能在模型算法改进方面找到潜在发展机会。Transformer推出7年以来,虽然一直有无数的AI研究者对其进行改进和修补,但算力智能转化率的提升仍然不够明显。

DCFormer或许是一次机会

而根据彩云科技的官方介绍,其模型结构DCFormer可以达到1.7~2倍算力的Transformer模型的效果,即算力智能转化率提升了1.7~2倍。这一提升幅度,超过自2017年Transformer诞生至今,被证明最普适有效并被广泛采用的两项结构改进的提升幅度之和(同时应用这两项改进的Transformer架构也叫Transformer++,如Meta的开源大模型Llama)。

图片来源:彩云科技官方

此外,根据彩云科技计算实验,随着模型规模的增大,DCFormer的提升越来越大(上图下的蓝线和绿线),而Transformer++的提升越来越小(上图下的黑线)。

图片来源:彩云科技官方

彩云科技推出DCFormer的论文《Improving Transformers with Dynamically Composable Multi-Head Attention 》将在国际机器学习领域的顶级会议,第41届国际机器学习大会ICML 2024正式发表。据一位评委透露,今年录用论文的平均分为4.25-6.33,而彩云科技团队的论文获得了平均7分的高分。

彩云科技CEO袁行远用了一个烧牛肉的场景来比喻模型训练:食材就是数据,火候就是算力,而模型就是你的锅,换成高压锅以后,煮熟牛肉的时间会变短(节省成本),同样的时间下,做出的牛肉会更软(效果提升),为了得到更好的烹饪效果,不能只靠增加火力和更换食材,锅也很重要,好的模型,可以极大地节省成本,提高效果,这就是模型的意义。

不管是GPT还是豆包、kimi,如果应用了我们的DCFormer,以上所有基于transformer的模型的成本还能再降一半。”袁行远对包括蓝鲸新闻在内的媒体表示,他希望有更多的模型厂商来试一试DCFormer,“过去我们不太被资本和媒体所知。但如果我们这样的工作还是无法被看见,我觉得无论对我们还是业界都是一种遗憾。”

后续,彩云科技将在自己已有的AI产品“彩云天气”、“彩云小梦”上陆续应用DCFormer模型。以彩云天气为例,其在未来2小时内的天气预测已经十分精准,但随着模型效率的提升,彩云天气有希望在未来3小时到12小时时间段内,实现与2小时预测一样的准确率。

“为什么我们要做这件事呢?因为我们比较中二。”痴迷于《三体》和各种科幻奇幻作品的袁行远兴奋地说。他对DCFormer模型足够自信,仿佛看见了AGI实现的那天。