谁该成为大模型成长的“养料”?

在科技进步的历史征程里,我们享受技术成果之前,似乎总要付出一些“隐形”成本。

文| 道总有理

有关“AI将要取代人工”的言论甚嚣尘上,且不再局限于科技幻想,而是真实地走进了现实世界。

先是萝卜快跑落地,导致大批网约车司机不满,随后,番茄小说上线“AI作者”一日同更三本书让网文作者如临大敌。

接着,与番茄小说同属于字节跳动的“豆包”被爆出正全网搜索小说素材,以便“喂养”番茄的AI作者。更有意思的是,这出风波波及到了在线文档领域。据悉,有网友在社交平台表示,称豆包的搜罗范围不仅在网文界,手还伸向了在线文档内作者尚未发布的内容。

其中,WPS首当其冲。

WPS官方为此不得不紧急辟谣。但除了WPS,几乎所有在线文档APP都遭受了一番审查,包括石墨、腾讯文档、印象笔记、墨客、橙瓜……最终很多人发现,当AI风口来袭,网络世界哪里都不安全。

这也不算空穴来风。去年,WPS就被爆出在用户协议里增添了AI训练条例,尽管这两年官方一直在据理力争地辟谣,但很多用户还是不肯给予信任,“罗生门”大戏就此上演。

用户在担心自己辛苦创作的内容,成了他人的嫁衣,而AI背后的资本则一心想当“普罗米修斯”,为大模型到处搜集“火种”。

在线文档,集体奔向AI

这些年,在线文档面临了太多压力:诸如研发停滞、用户流失、同行内卷、广告营收疲软…

在线文档遇到创新乏力已是不争的事实,WPS作为行业代表,也难逃这一困境。在入局AI之前,WPS最高调的一次革新还在2018年,当年,腾讯文档横空出世,让WPS一时倍感焦灼,在前者上线三个月后,后者宣布升级。

尤其增加了多人协作功能,WPS还一度把这部分单独拿了出来。但时至今日,云协同早已遍地皆是,飞书、钉钉、企微这类企业APP、石墨这类在线文档玩家,甚至各种云办公文档小程序都能做到。

值得一提的是,前几年外部环境造就了一波线上办公热,也间接火了一大批在线文档APP,其中,印象笔记、石墨文档这类小众玩家人气激增。数据显示,2020年线上办公爆发初期,印象笔记的C端用户使用量翻了四五倍,石墨文档的新增用户量和企业注册数增长了约6倍。

同年,腾讯文档宣布月活突破1.6亿后,内卷开始成为行业生态,整个行业也开始陷入了漫长的瓶颈期。

直到大模型的爆发,情况开始有所转变。

2023年财报显示,WPS Office国内个人办公服务订阅营收到达了26.5亿,同比增长近30%,月活设备数高达5.98亿。

在线文档发力AI已经成为不可避免的一个趋势。艾媒咨询数据显示,随着大语言模型和AIGC的规模化落地应用,AIGC+协同办公场景将有效带动行业增长,2023年协同办公市场规模预计达330.1亿元。

AI成了在线文档们稳固市场地位,留住用户的重要手段。而WPS入局AI的心情则更为急切。毕竟在ChatGPT的火爆出圈后,在线办公市场算是最方便落地的场景之一,隔壁微软在OpenAI的GPT-4刚发布之时,就结合大语言模型LLM上线了Microsoft 365。

一直以来,WPS Office都与微软Office针锋相对。公开资料显示,微软Office和WPS Office在国内市场Windows平台的平均市场覆盖率分别为81.5%和68.7%。微软Office在PC端领先一步,后者在移动端则更有优势。

不可否认,微软对AI的布局强烈刺激了WPS,可需要注意的是,开始关注AI的绝不止WPS一家。从国内企业来看,百度有智能办公平台如流,钉钉更是背靠通义千问,印象笔记发布“印象AI”,飞书发布“My AI”……

巨头们想利用AI更上一层楼,那些资金不足以入局AI的小众玩家,也开始在曲线救国,选择与大厂合作,这也是本次“豆包盗文”引发在线文档圈集体沦陷的由来。

总而言之,在线文档正热情奔向AI,不管谁先胜出,要承担“喂养”任务的用户都成了最无辜的人,当他们轮流奔走在不同的平台上,试图绕开这一步时,竟悲哀的发现,自己似乎早已无路可逃。

大模型训练背后的“原罪”

据悉,百度的文心一言已服务8.5万家企业客户,阿里的通义千问已服务了9万家企业客户,截至2024年5月15日,字节的豆包总下载量超过1亿,双端月活破2600万……

当大模型炙手可热,AI训练自然被外界所关注。公开资料显示,大模型训练步骤一般分为五步:数据收集和处理、模型设计与测试、模型训练、评估和优化以及模型部署与维护。

这其中,第一步至关重要。也正是这一步,造就了如豆包、WPS AI此类的诸多争议。

大模型训练与进化的基础是数据,但在AI发展进程中,数据来源是否合规成了这个赛道未来有无持续性的前提,否则,版权、隐私等疑云便会纷至沓来。在AI触怒网文作者之前,画手圈就已经有了先例。

去年年底,小红书AI绘画模型Trik被国内几位画师联手起诉,理由是Trik未经授权使用了画师的原创作品作为训练数据,生成了与原作高度相似的图片,侵犯了创作者的合法权益。360创始人周鸿祎也因涉及“AI盗图”被全网群嘲。

海外也是一样,有报道显示,有1.6万名英国艺术家联名,对OpenAI和其他人工智能公司发起集体诉讼;甚至就连NYT也向法院起诉OpenAI和微软侵犯版权。

在科技进步的历史征程里,我们享受技术成果之前,似乎总要付出一些“隐形”成本。但这个成本应该由谁来承担则值得探讨。

事实上,大模型训练之所以将触手伸向普通群体,归根到底还是因为企业发展大模型的成本居高不下,投入实用后又迟迟无法达到可观的收益。当前OpenAI、Midjourney、文心一言、讯飞星火大模型虽然均已开启付费模式,然而,大模型企业想要进入盈利阶段仍然还有一段距离要走。

以头部的OpenAI为例,调查显示,虽然其在今年前两个季度的收入不错,年度经常收入增长到了34亿美元,但由于构建和运行模型的成本高昂,亏损状态始终没能改善;ChatGPT会员付费收入达到50%以上,但偏向企业和开发者端的API收入占比仅为15%左右。

国内这边,Kimi目前的获客成本还在12元以上、WPS AI总结一个万字文档、输出千字摘要,仍旧需要2.64元……可行业内的价格战却突然开始了。此前,GPT-4o mini正式上线,每100万Token的输入/输出分别是15美分/60美分。

在这样的背景下,大模型界呈现精彩的“众生相”:被侵权的用户义愤填膺、成本与营收不对称的企业骑虎难下,而资本则开始生出退场的心思。来觅PEVC数据显示,2024年一季度,人工智能领域合计发生融资案例198起,同比减少20.80%。

在过往的历史经验里,当技术进步与伦理道德产生冲突,科技发展总会被视为某一方面的“原罪”,但应该背负原罪真的是科技吗?

创新与制约同存

关于AI能否取代人类,这个问题最早诞生于科幻片年代,随着大模型掀起全球科技狂潮,在戏剧化之外,似乎也增添了几分可能性。萝卜快跑惹起一众司机抗议、网文作者联名上书抵制番茄,都成了现代科技文明史上的一次开端。

7月6日,2024世界人工智能大会在上海落下帷幕,金融、教育、医疗成为重点应用落地方向。实际上,在ChatGPT 发布的时候,海外就有人专门统计过“哪些工作更有可能被 AI 替代”。

一位博主在Upwork(全球最大的自由职业平台)统计了从ChatGPT 发布前一个月到 2024 年 2 月 14 日的一些自由职业工作数据。调查发现,受ChatGPT 的影响,Upwork 上波及最大的几个圈子是写作、翻译、客服服务。其中,翻译沦为被AI取代的重灾区,工作数量下降了19%,时薪也下降了20%。

但在这些支持人工智能抢人类“饭碗”的数据表象背后,却也存在着相反的趋势:从宏观角度来看,不少工作因为ChatGPT 的出现反而更多了。

统计显示,尤其是可以用大模型为基础的创作型工作,吃到了AI的第一波“红利”。在Upwork 上,ChatGPT 发布之后,视频编辑/制作工作数量增加了 39%,平面设计工作增加了 8%,网页设计工作增加了 10%。软件开发工作也有所增加,后端开发工作增加了 6%,前端/网页开发工作增加了 4%。

科技的双面性就此凸显,AI并不是人人喊打,起码在保障用户基本利益的前提下,落地到具体生活里的好处远远大于弊端。国内也是如此。例如在2023年,阅文的起点国际出海的网文作品里,有20%是AI来翻译的。

当然,AI应用导致的争议性问题从来没有消失。

在网文作者与画手质疑版权外,学术界的大模型论文热也在击穿该领域的落地意义。以“中华医学杂志”为例,从去年七月,该刊发现AI生成的论文数据每月都在上升,一度超过了50%。

目前,《中华医学杂志》已发布AIGC技术使用的有关规定,轻者退稿或撤稿;情节严重者,将列入作者学术失信名单。

从这些案例中,我们不难看出,已经有行业意识到AI应用要基于一些必要的规则下施行。之所以我们面对各类在线文档AI化而草木皆兵,本质是因为当前的AI规范还没到位。

为此,官方出台的相关政策也越来越多,国内有《生成式人工智能服务管理暂行办法》、国际方面,欧洲议会在今年3月份通过了《人工智能法案》等等……而如何保证在不扼杀创新的同时,又合理的培养大模型、使用大模型,正成为整个行业的新节点。

种种迹象显示,大模型的出现,是人类科技文明丰碑上不可磨灭的一个符号,同时,也是一份沉重的责任,需要更多人去主动承担。

至于谁该成为大模型成长的“养料”,肯定不能只让普通用户成为唯一的代价。

声明:本文内容仅代表该投稿文章作者观点,不代表蓝鲸号立场。 未经授权不得随意转载,蓝鲸号保留追究相应责任的权利