火山引擎总裁谭待:AI对话很基础,视觉能解锁更多复杂任务

谭待称,字节跳动在类o1的推理模型领域同样有所布局。在解答数学、物理、代码问题上,豆包视觉理解模型已具备此类能力的雏形。

图片来源:企业官方

蓝鲸新闻12月19日讯(记者 朱俊熹)字节跳动再卷AI模型价格。在12月18日举办的火山引擎Force大会上,字节跳动正式发布豆包视觉理解模型,输入价格为0.003元/千tokens。继通用大模型后,多模态模型也由以分计价迈入以厘计价的阶段。

据字节旗下云服务平台火山引擎介绍,豆包视觉理解模型的定价比行业价格低85%,相当于一元钱就可以处理284张720P的图片。与国内外其他具备多模态能力的大模型相比,OpenAI GPT-4o的输入价格为0.0175元/千tokens,Anthropic的Claude 3.5 Sonnet定价为0.021元/千tokens,阿里Qwen-Vl-Max为0.02元/千tokens。

今年5月,字节跳动在正式对外发布豆包大模型时,就曾因定价比同行低99.3%而掀起波澜。阿里云、百度、腾讯等头部厂商很快紧随其后,纷纷宣布跟进降价,燃起了国内大模型价格战。在低价的驱动下,大模型的应用也开始加速。火山引擎数据显示,截至目前,豆包通用模型的日均tokens使用量已超过4万亿,较首次发布时增长了33倍。

火山引擎总裁谭待在接受媒体群访时提到,随着模型成本大幅降低、效果得到提升,近半年来市场上对于模型使用的反馈才多了起来,开始更关心模型调用量、token数。他在演讲时表示,“我们希望用一个合理的、可持续的,关键是一步到位的价格,让企业和开发者可以放心大胆地去使用,去做多模态。”

新推出的豆包视觉理解模型能够精准识别视觉内容,同时具备理解和推理、视觉描述等能力。在现场示例中,该模型可以识别动物的影子轮廓、杂志内页的星云、体检报告的某项具体指标。其应用场景可能包括教育方面的判卷指导、作文批改,或旅游、电商营销等领域。

谭待称,字节跳动在类o1的推理模型领域同样有所布局。在解答数学、物理、代码问题上,豆包视觉理解模型已具备此类能力的雏形。完整版推理模型会在进一步完善后推出,“不会太久”。

除字节外,国内也有大模型公司在视觉方向取得新进展。12月16日,独角兽月之暗面发布视觉思考模型k1,主推既能通过视觉精准识别,又能分布推理思考,在数学、物理、化学等评测中表现领先。上周,私募巨头幻方量化旗下的AI公司DeepSeek开源全新视觉模型VL2。该公司称,视觉是人类获取外界信息的主要来源,在大模型方面的进展却远远落后于语言模型,提升模型视觉能力的意义更在于全方位提升其感知和认知能力。

在此次火山引擎活动中,字节跳动还发布了豆包3D生成模型,多款产品迎来更新。其中,豆包通用模型pro已全面对齐GPT-4o,使用价格为后者的1/8。音乐模型的支持时长从60秒升级至3分钟,文生图模型2.1版本能够实现精准生成汉字、一句话P图等产品化能力。字节预计,明年春季将推出具备更长视频生成能力的豆包视频生成模1.5版,并很快上线端到端实时语音模型。

谈及对大模型未来落地场景的判断时,谭待称AI对话是一个通用的场景,但大模型在生产力、商业化场景中的增速并不慢。以近3个月为例,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍。“聊天功能是一个很基础的功能,得加上深度推理、视觉理解等功能才能处理更复杂的任务。而这才是模型之后发展空间越来越大的前提,视觉对大模型的调用量和场景会带来很大的帮助。”谭待表示。

在谭待看来,市场仍处于早期,比起竞争会更关注用户对复杂语言场景、视觉等方面的需求。与互联网时代C端先于B端崛起不同,大模型的这两个方面并不是割裂的,其背后都基于同样的模型能力。因此,字节对大模型的判断是To B和To C齐头并进。

对火山引擎这一对外开放字节技术工具的云厂商而言,AI成为了新的增长机会。谭待表示,拉升火山引擎市场份额的关键在于两点。一是规模优势,做到规模大、弹性高、成本便宜,企业会自然而然地迁移过来或作出选择。而火山引擎的优势是从初期起,就将字节旗下抖音、今日头条的内部规模与外部规模统一起来建设。其次,要把握住AI大模型这一技术变革,通过豆包获得更多关注和新的合作机会。

谭待并未透露云收入受大模型带动的具体数据,仅对使用大模型的客户数量、使用程度给予了肯定的评价。“从云原生到AI云原生,火山希望做成这块的领军企业。”他表示。