图片来源:OpenAI官网
蓝鲸新闻9月13日讯(记者 朱俊熹)千呼万唤中,OpenAI的“草莓”终于成熟。这个最新的推理大模型项目此前已传闻许久、剧透多次,它的正式命名是OpenAI o1,在部分基准测试中表现出超越人类博士级的水平。OpenAI也由此开启有别于GPT命名序列之外的全新大模型系列。
当地时间9月12日,OpenAI发布OpenAI o1的预览版本,称这是新开发的一系列AI模型中的第一个。据OpenAI介绍,该系列模型能够花更多时间思考后再做出反应。与此前的模型相比,在科学、编码和数学领域,它们可以推理复杂的任务,解决更难的问题。
“对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。有鉴于此,我们将计数器重置为1,并将此系列命名为OpenAI o1。”OpenAI表示。
官方认为,o1是划时代的产品。按照OpenAI今年7月提出的一套对AI进行分级的五级系统,新模型o1已超越第一级的AI对话助手,到达第二级别的“推理者”。在这一级别,人工智能的水平相当于拥有博士学位但无法使用工具的人类,能够解决基本的问题。距离实现OpenAI关于通用人工智能的终极目标,o1还有三级之差。
在数学、编码等方面,OpenAI新模型的表现得到了大幅提升。在国际数学奥林匹克 (IMO) 资格考试中,该模型的正确率高达83%,而前一代大模型GPT-4o仅有13%。在模拟编程竞赛平台Codeforces的比赛中,新模型的表现超过了89%的测试者,而GPT-4o超过11%的测试者。在涵盖物理、化学、生物等多学科领域的GPQA基准测试中,新模型的得分能够超越具有博士学位的专家,成为首个实现这一成就的模型。
OpenAI的竞争对手们在推出AI大模型时,往往也会强调其推理能力。谷歌的AI研究实验室DeepMind在7月底宣布,其开发的两个AI系统能够共同解决数学中的高级推理问题,在今年的国际数学奥林匹克(IMO)中首次取得与银牌得主同等的成绩。另一AI初创企业Anthropic 6月推出了Claude 3.5 Sonnet模型,在推理、编码等测试中的得分也超过了GPT-4o,排在行业前列。
o1尚在初级阶段,难以完全避免错误
OpenAI称,o1模型尚处于早期阶段,付费用户目前能够使用的是o1-preview版本,还不具备ChatGPT的许多实用功能,如浏览网页获取信息、上传文件和图片等。对于很多常见情况,短期内GPT-4o的能力会更强。
参与o1项目的OpenAI研究科学家Noam Brown在社交媒体X上表示,“o1模型并不总是比GPT-4o好。许多任务并不需要推理,有时等待o1回复不如快速获得GPT-4o的响应值得。发布o1-preview的一个动机是看看哪些用例会变得流行,以及模型在哪些方面需要改进。”
OpenAI在介绍新模型时提到,它们被训练用更多时间来思考问题,然后再做出反应,就像人类一样。通过这样的训练,模型能够学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。
OpenAI的研究负责人Jerry Tworek告诉科技媒体The Verge,o1使用了全新的优化算法和专门为其量身定制的新训练数据集进行训练。OpenAI利用一种名为“强化学习”的技术,通过奖惩训练o1自行解决问题。之后再采用“思路链”的技术,将复杂的问题分解为更小的逻辑步骤,类似于人类逐步解决问题的方式。Jerry Tworek表示,借助新的训练方法,新模型会更加准确,幻觉问题减少,但依然存在。
在实际体验过程中,OpenAI o1-preview能够正确回答出“Strawberry”单词中有3个字母“r”,而此前多数AI大模型在这一问题上都频频翻车。另外,像此前对其他大模型产品一样,很多用户依然拿“9.11和9.8哪个大”的问题去测试o1,而o1先是在思考后迅速给出“9.11比9.8大”的错误答案。在追问其“为什么”后,该模型花了25秒的思考时间,并显示出确认数值、比较数值大小、确保准确性等简要的思维描述,最终得出“9.8比9.11大”的正确回答。
图片来源:ChatGPT截图
OpenAI的首席执行官Sam Altman在社交媒体X上表示,“o1仍有缺陷,也仍有局限性。初次使用它时,比长时间使用后更令人印象深刻。”
OpenAI表示,新模型适用于医疗研究人员、物理学家、开发人员等群体,可以利用其增强的推理能力解决科学、编码、数学等领域的复杂问题。OpenAI还同步发布了速度更快、成本更低的o1-mini版本,在编码方面更为高效。
目前,o1-preview和o1-mini已在ChatGPT中面向Plus和Team等部分付费用户开放使用,但设有消息次数限制。OpenAI称,下周将向剩下的企业和教育用户开放,同时计划未来将向所有使用免费版本的用户提供o1-mini的访问权限。
入不敷出,OpenAI仍需巨额融资
在大模型飞跃的推理能力背后,同样意味着巨大的训练和运行成本。此前曾有消息称OpenAI可能会希望将部分成本转嫁给用户,将ChatGPT的订阅费用提高到原来的10至100倍。但现在看来,OpenAI的To C定价未发生改变,会员服务仍维持在每月最少20美元。而API调用收费确实出现大幅上调,o1-preview每百万tokens输入价格为15美元,是GPT-4o的3倍,输出价格为60美元,是GPT-4o的4倍。
更多的用户倾向于使用ChatGPT的免费版本,这正在让OpenAI陷入盈利困境。硅谷科技媒体The Information 在9月12日报道称,OpenAI的首席运营官Brad Lightcap最近向员工透露,ChatGPT已拥有超过1000万付费用户。但相较于8月底公布的每周超2亿的活跃用户数,这仍然意味着绝大多数用户使用的还是免费版ChatGPT。
数亿名用户在免费使用时带来的计算成本,叠加研发新模型时的巨额投入,OpenAI在实现快速进化的同时,也面临巨亏。据The Information估算,对ChatGPT的C端订阅费用和出售AI模型的收入进行合计,OpenAI未来12个月的收入有望达到约40亿美元,高于今年年中的34亿美元年化收入,但仍将亏损数十亿美元。
OpenAI也正在积极寻求新一轮融资。9月12日,彭博社援引知情人士称,OpenAI正洽谈以1500亿美元估值筹集65亿美元,同时还在商谈以循环信贷的方式向银行借款50亿美元。据多家外媒此前报道,OpenAI本轮融资的领投者为美国风投公司Thrive Capital,微软、苹果、英伟达三家巨头也在谈判加入,全球市值前三的公司有望齐聚OpenAI。
The Information在最新报道中指出,这份可能的投资名单还加上了阿联酋政府支持的投资基金MGX。该基金的创立方包括阿布扎比主权财富基金穆巴达拉、阿联酋AI巨头G42,后者今年4月与OpenAI最大股东微软达成了合作协议,微软对其投资15亿美元。OpenAI早期投资者Khosla Ventures也计划通过特殊目的公司参与到投资中。