文/连线Insight 王慧莹
大模型应用大战即将一年整,竞争依然激烈。
12月18日的火山引擎Force冬季大会上,字节跳动“豆包全家桶”又迎来了新成员。豆包视觉理解模型正式亮相,其具备更强的内容识别、理解和推理、视觉描述等能力;明年1月,豆包视频生成大模型也将面向企业开放服务。
除了新成员的加入,豆包大模型多款产品也迎来更新迭代。比如,豆包通用模型pro已全面对齐GPT-4o;音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品;文生图模型2.1版本接入即梦AI和豆包App……
用户正在使用豆包视频理解模型,图源豆包微信公众号
无论是基础层,还是应用层,字节都在综合布局并持续迭代升级。截至目前,字节正在运营的AI应用大约有20款,且大部分是在2024年以后发布的。
进入到今年下半年,随着越来越多大模型应用的出现,行业卷起了新高度:C端卷用户,B端卷价格。
“饱和式”攻击的豆包,在哪个领域都上演了“后来者居上”的戏码。
用户上,据QuestMobile数据,字节豆包App今年9月的日活已达760万,成为中国日活最大的AI产品。
价格上,此次豆包视觉理解模型千tokens输入价格仅为3厘,比行业价格便宜85%;此前豆包文字大模型0.8厘就能处理1500多个汉字的价格,比行业便宜99.3%。
“卷王”豆包的另一面是行业正式进入混战后的生存之战。尽管现在谈论“Killer APP”还为时尚早,但商业化是个绕不开的话题。疯狂投入后,豆包也要学会赚钱。
与年初字节跳动CEO梁汝波在全员会上反思“慢”截然不同,这一年字节以豆包家族在大模型行业进行的进攻,又快又狠。豆包在行业的增长再次验证了字节“大力出奇迹”的路线,也给行业带来新的冲击和思考。
1、降价、买量,豆包拼力谋增长
今年年初,字节跳动CEO梁汝波在内部讲话中提到“迟钝”二字,直指字节对大模型的敏感度不如创业公司。
“直到2023年才开始讨论GPT,而业内做得比较好的大模型创业公司都是在2018年至2021年创立的”梁汝波直言。
今年5月,大模型名字统一“豆包”后,字节正式走向了大模型发展的高速路。据DataEye研究院不完全统计,去年8月至今,字节跳动在AI领域一共推出包括豆包大模型家族在内的17款大模型、2个智能体开发平台。
正值大模型从“百模大战”转向应用落地期,各家都在紧密跟随行业的风口,以期走在前列。
在应用层面,素有“APP工厂”之称的字节,决心更大。据不完全统计,2024年至今,字节在国内外推出包括豆包在内的20余款App,覆盖AI聊天助手、AI视频工具、AI娱乐应用、办公等多个领域。
其中,有对标ChatGPT的“豆包”、对标Sora的“即梦”、对标MiniMax旗下社交AI星野的“猫箱”、对标妙鸭相机的“星绘”、对标Suno AI 的“海绵音乐”……
12月18日的火山引擎Force冬季大会上,字节跳动正式发布豆包视觉理解模型、豆包3D模型。会上,火山引擎宣布2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版,豆包端到端实时语音模型也将很快上线。
其中,跑得最快的莫过于以豆包为中心的大模型生态。
据量子位智库数据,今年5-7月,豆包APP日新增用户从20万迅速飙升至90万,并在9月率先成为国内用户规模破亿的首个AI应用;11月,平均每天有80万新用户下载豆包,单日活跃用户近900万,MAU仅次于ChatGPT;截至11月底,豆包2024年的累计用户规模已超过1.6亿。
豆包这匹“黑马”奔跑的速度如此之快,离不开字节的“大力出奇迹”。
今年年中开始,大模型C端应用陷入了一场激烈的流量争夺赛。无论是线上平台,还是线下公开场所,都能看到大模型厂商的身影。创业公司和互联网巨头,无一例外地陷入了大模型应用的“用户焦虑”。
据AppGrowing统计,截至11月15日,国内十款AI原生应用合计投放金额达15亿元,其中10月超过3.5亿元,为历史最高。其中,Kimi和豆包是投放最疯狂的两个产品,分别投放了5.4亿元和4亿元。
拉长时间线看,豆包的投流显然更猛烈。据AppGrowing统计,2024年4月—5月,豆包投放金额预计为1500万元-1750万元。6月上旬,豆包再次启动新一轮大规模的广告投放活动,投放金额高达1.24亿元。
背靠抖音这一大流量池,豆包的出现频率也越来越高。在抖音,字节几乎屏蔽了除豆包以外所有AI应用的投放,只留给自家的豆包。
不得不承认,面对同质化的市场竞争,烧钱换流量,是移动互联网时代的惯用做法,而豆包背靠强大的字节生态,有着天生的优势。
大模型的特殊性在于,AI产品仍存在用户接受度和留存率的挑战,重金投流能否换来超级应用无法确定,但至少目前给豆包带来了肉眼可见的用户增长。
同样是花钱,与C端花钱投流相对,随着大模型推理侧成本的下降,在B端大模型厂商今年集体降价,行业从“以分计价”进入“以厘计价”的时代。
豆包降价的动作同样很明显。今年5月火山引擎Force秋季大会上,豆包主力模型在企业市场的定价比行业价格降低了99.3%,0.8厘就能处理1500多个汉字的价格;此次的火山引擎Force冬季大会上,豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%。
厂商让利降价的意图很明显,让算力技术普惠的同时,让企业用户使用AI应用的意愿更高端。数据显示,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。
回过头来看2024年,围绕豆包生态,字节做AI的决心很大,也从资源、速度等方面证明了自己作为互联网巨头的实力。增长的底气有了,下一步的关键便是让大模型更好用。
2、一边提技术、一边“接地气”,豆包能否更接近用户是关键
AI浪潮奔涌两年,行业不断进入新阶段,不变的是玩家们对技术的迭代。
今年下半年,一个明显的变化在于,以ChatGPT为代表的大语言模型局限性日益显现。
语言大模型无法与物理世界互动,也不具备对人类价值观的理解能力,玩家们都在寻找下一个更“类人”的模型或应用。9月,OpenAI推出的会思考的o1推理模型;12月,李飞飞推出的3D世界模型都是在这一思路下应运而生。
大模型这列列车高速前进,对于玩家而言,最重要的是拿到车票。反观国内,对标OpenAI,豆包也算是走在技术前列的大模型玩家。
此次大会上,豆包发布的视觉理解模型,具备更强的内容识别、理解和推理、视觉描述等能力。
新的视频理解模型下,用户可以同时输入文本和图像相关的问题,使用起来更便捷;同时,模型能够综合理解能力给出准确的回答。
也就是说,相比于此前的文生视频大模型,此次视觉理解模型更能读懂人的需求,也能帮助人类提高复杂工作的工作效率。比如,在教育场景中,为学生优化作文、科普知识;在旅游场景中,帮助游客看外文菜单、讲解照片中建筑的背景知识等。
据火山引擎介绍,目前豆包视觉理解模型已经接入豆包App和PC端产品。某种意义上,视觉理解大模型是行业技术迭代的标志。相比于语言大模型,视频大模型能拓展大模型的能力边界,同时也会降低人们与大模型交互的门槛,为大模型解锁更丰富的应用场景。
视觉能力是大模型能力的核心已经是共识,视觉输入占据人类交互信息的绝大多数,为了让大模型离AGI更进一步,大家都在加速。
实际上,字节对视觉化、多模态模型的重视度肉眼可见的提升。12月11日,据智能涌现报道,字节提升了即梦的产品优先级,尝试用新的路径打造AI时代的“抖音”。字节计划后续把更多资源向更多模态的产品形态转移,即梦会承担更大的希望。
即梦AI隶属于字节跳动旗下剪映业务,定位是AI内容平台,支持通过自然语言及图片输入,生成高质量的图像及视频。
此次大会上,剪映业务负责人张楠表示,“即梦,希望成为想象力世界的相机”似乎也在回应这一战略。具体动作上,即梦AI图片模型2.1正式上线,其可以“一句话生成海报”,支持通过简单的指令,控制文字的颜色和位置等元素,快速生成中英文图像海报。
值得一提的是,豆包还发布了3D生成模型,该模型与火山引擎数字孪生平台veOmniverse结合使用,可以完成智能训练、数据合成和数字资产制作,成为一套支持AIGC创作的物理世界仿真模拟器。
不仅如此,豆包大模型家族多款产品都迎来重要更新。
豆包通用模型pro新版本综合任务处理能力较5月份提升32%,全面对齐GPT-4o,使用价格仅为后者的1/8在推理上提升13%;
豆包音乐模型4.0支持三分钟的全曲创作,支持歌词局部修改,曲风连贯等功能;
豆包文生图模型2.1支持“一键P图”,可以高精度指令理解,对中英文、专有名词“来者不拒”。
至此,豆包全家桶升级的同时,豆包补足其在视觉交互上的短板,又开拓了自身模型的场景边界,还在算力成本上做了下降,本质上,都是为了让大模型更接近用户。
今年5月,字节跳动产品与战略副总裁朱骏分享了字节跳动为豆包这类产品定义了三个产品设计原则:第一条,“拟人化”;第二条,离用户很近,随时伴随用户,嵌入用户的不同使用环境,应该是豆包到用户身边,而不是用户到豆包身边;第三条,个性化。
让豆包回归用户,很重要的一点是让用户了解AI,满足用户对AI的好奇心。据中国企业家报道,在豆包官方用户群里,每当新功能发布时,豆包小助手就会在群里发布公告,并鼓励用户提供优质反馈。
这也证明了,字节做产品的思维,在大模型领域同样适用。如今,大模型已经经历了卷技术、卷应用、卷用户的阶段,想要拿到下半场的船票,字节也必须带着豆包一边“提技术”,一边“接地气”。
3、拓场景、商业化,是豆包必须探索的
这一年,大模型行业除了技术迭代和产品更新速度的比拼,还有一个更重要的比拼维度,即商业化赚钱和场景落地的速度。
玩家进入的热情有多火热,市场对回报周期的需求就有多迫切。
对于字节这样的巨头而言,即便是赚钱的速度再快,也抵不过大模型的烧钱速度。算力成本、用户拓新等都需要真金白银。
还在投入期的豆包,绕不开商业化的命题。
经历了C端烧钱投流后,豆包是国内日活最多的AI产品,但一个突出的问题在于用户留存。
这让字节对豆包的商业化也有了新的思考。据智能涌现报道,尽管豆包AI对话类产品月活表现不错,但豆包目前活跃度并不高。豆包每周仅活跃2至3天,且每天用户发送消息轮次仅为5到6次,单次2分钟左右,用户人均使用时长仅为10分钟左右。上述这些数据在过去一年中的增长幅度并不显著。
基于此,字节管理层判断,像豆包这样的AI对话类产品可能只是AI产品的“中间态”。字节内部判断,付费订阅模式在中国不太可能走通。而时长和轮次太低,又导致潜在的广告空间较小,这都构成了这类产品的隐形天花板。
长期来看,更低门槛、更“多模态”的产品形式更具落地可能,剪映和即梦可能是合适的入口,这也是此次大会豆包将部分重点放在视频模型的本质原因。
如果说豆包在C端是不停地探索应用与用户付费意愿的适配度,那在用户付费意愿更强的B端,豆包的重点在于探索豆包大模型与客户的契合度。
今年5月份,豆包已经确定了在B端的业务落地思路:火山引擎负责基座模型、开发者生态的构建,豆包负责应用的开发和调试。
得益于火山引擎“更强模型、更低成本、更易落地”的发展理念,视觉理解模型进入“以厘计价”的同时,火山引擎还升级了火山方舟、扣子和HiAgent三款平台产品,帮助企业构建好自身的AI能力中心,高效开发AI应用。
实际上,按照字节期待的飞轮效应,算力调用测试推动豆包大模型产品降价,大模型降价再吸引B端客户合作,客户的使用数据再给豆包带来更多的调用量。
目前,据火山引擎数据,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长100倍。
此外,在与企业生产力相关的场景中,豆包也有新的增长。最近3个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍。
除了针对B、C端开放应用外,豆包还下场做起了今年的新风口智能硬件产品——Ola Friend。据介绍,该款耳机植入了豆包大模型,并与字节对话类AI应用豆包App结合:戴上智能耳机后,用户可通过语音对话随时使用豆包,在豆包App上也可以操控这款耳机。
此外,据ITBEAR报道,字节AI硬件团队还在积极推动豆包大模型与其他手机厂商的智能助手进行合作,以期在更广泛的场景下发挥大模型的强大能力。
种种信号表明,豆包正以各种方式打开大模型商业化的大门。商业化是摆在所有玩家面前共同的问题,学会赚钱,也是豆包的必修课。
于豆包而言,用“大力出奇迹”卷完应用之后,也要有进入下半场高歌猛进的资本,那就是一条更为清晰的商业路径。