火山引擎总裁谭待：AI对话很基础，视觉能解锁更多复杂任务-蓝鲸财经

图片来源：企业官方

蓝鲸新闻12月19日讯（记者朱俊熹）字节跳动再卷AI模型价格。在12月18日举办的火山引擎Force大会上，字节跳动正式发布豆包视觉理解模型，输入价格为0.003元/千tokens。继通用大模型后，多模态模型也由以分计价迈入以厘计价的阶段。

据字节旗下云服务平台火山引擎介绍，豆包视觉理解模型的定价比行业价格低85%，相当于一元钱就可以处理284张720P的图片。与国内外其他具备多模态能力的大模型相比，OpenAI GPT-4o的输入价格为0.0175元/千tokens，Anthropic的Claude 3.5 Sonnet定价为0.021元/千tokens，阿里Qwen-Vl-Max为0.02元/千tokens。

今年5月，字节跳动在正式对外发布豆包大模型时，就曾因定价比同行低99.3%而掀起波澜。阿里云、百度、腾讯等头部厂商很快紧随其后，纷纷宣布跟进降价，燃起了国内大模型价格战。在低价的驱动下，大模型的应用也开始加速。火山引擎数据显示，截至目前，豆包通用模型的日均tokens使用量已超过4万亿，较首次发布时增长了33倍。

火山引擎总裁谭待在接受媒体群访时提到，随着模型成本大幅降低、效果得到提升，近半年来市场上对于模型使用的反馈才多了起来，开始更关心模型调用量、token数。他在演讲时表示，“我们希望用一个合理的、可持续的，关键是一步到位的价格，让企业和开发者可以放心大胆地去使用，去做多模态。”

新推出的豆包视觉理解模型能够精准识别视觉内容，同时具备理解和推理、视觉描述等能力。在现场示例中，该模型可以识别动物的影子轮廓、杂志内页的星云、体检报告的某项具体指标。其应用场景可能包括教育方面的判卷指导、作文批改，或旅游、电商营销等领域。

谭待称，字节跳动在类o1的推理模型领域同样有所布局。在解答数学、物理、代码问题上，豆包视觉理解模型已具备此类能力的雏形。完整版推理模型会在进一步完善后推出，“不会太久”。

除字节外，国内也有大模型公司在视觉方向取得新进展。12月16日，独角兽月之暗面发布视觉思考模型k1，主推既能通过视觉精准识别，又能分布推理思考，在数学、物理、化学等评测中表现领先。上周，私募巨头幻方量化旗下的AI公司DeepSeek开源全新视觉模型VL2。该公司称，视觉是人类获取外界信息的主要来源，在大模型方面的进展却远远落后于语言模型，提升模型视觉能力的意义更在于全方位提升其感知和认知能力。

在此次火山引擎活动中，字节跳动还发布了豆包3D生成模型，多款产品迎来更新。其中，豆包通用模型pro已全面对齐GPT-4o，使用价格为后者的1/8。音乐模型的支持时长从60秒升级至3分钟，文生图模型2.1版本能够实现精准生成汉字、一句话P图等产品化能力。字节预计，明年春季将推出具备更长视频生成能力的豆包视频生成模1.5版，并很快上线端到端实时语音模型。

谈及对大模型未来落地场景的判断时，谭待称AI对话是一个通用的场景，但大模型在生产力、商业化场景中的增速并不慢。以近3个月为例，豆包大模型在信息处理场景的调用量增长了39倍，客服与销售场景增长16倍。“聊天功能是一个很基础的功能，得加上深度推理、视觉理解等功能才能处理更复杂的任务。而这才是模型之后发展空间越来越大的前提，视觉对大模型的调用量和场景会带来很大的帮助。”谭待表示。

在谭待看来，市场仍处于早期，比起竞争会更关注用户对复杂语言场景、视觉等方面的需求。与互联网时代C端先于B端崛起不同，大模型的这两个方面并不是割裂的，其背后都基于同样的模型能力。因此，字节对大模型的判断是To B和To C齐头并进。

对火山引擎这一对外开放字节技术工具的云厂商而言，AI成为了新的增长机会。谭待表示，拉升火山引擎市场份额的关键在于两点。一是规模优势，做到规模大、弹性高、成本便宜，企业会自然而然地迁移过来或作出选择。而火山引擎的优势是从初期起，就将字节旗下抖音、今日头条的内部规模与外部规模统一起来建设。其次，要把握住AI大模型这一技术变革，通过豆包获得更多关注和新的合作机会。

谭待并未透露云收入受大模型带动的具体数据，仅对使用大模型的客户数量、使用程度给予了肯定的评价。“从云原生到AI云原生，火山希望做成这块的领军企业。”他表示。