图片来源:视觉中国
除了像原子弹、火箭之类“雄鸡一唱天下白”的发明,人类历史上大多数的科技革命最开始看上去是悄无声息的。
18世纪的珍妮纺织机看上去只是将横的纱锭变成竖的,却引发了第一次工业革命;七十多年前世界上第一台电脑是个30吨重、因为发热而无法长时间工作的庞然大物,发展成了如今人人手上巴掌大的手机连接起的移动互联网时代。在它们刚出现的时间节点,谁也无法想象它们对后世引发的巨变。
而在一年前,当人工智能公司OpenAI发布ChatGPT时,谁都无法准确预言它对未来意味着什么。2022年11月30日,没有发布会,没有全球直播和预热宣传,OpenAI只是在其官网上发布了一个人工智能对话应用及几个样例,名为“ChatGPT”。
以前人们生活中对“人工智能”的感知,是可以问Siri、问小度“今天天气怎么样”这种固定问句,句子再复杂点,语音助手就不能理解了。
而现在,GPT-4可以听懂你说话,像人一样回答你,它会编程写代码为你开发网站,它懂法律、金融、医学,能为你起草法律文书,甚至根据你描述的病症来诊断病因,这在今年9月拯救了一个患有罕见病脊髓栓系综合征的孩子。
不仅GPT-4,不同公司的AI能根据现有药物/材料的结构成分,来发现潜在的新药物/材料,就在今年11月底,谷歌的AI帮助在实验室合成了700多种新材料;还能自己使用工具,调用插件来完成各种任务,就像你用计算器来算数学题一样。而我们曾以为人类与动物的区别就是我们会使用工具。
GPT-4的语言甚至仿佛拥有人一样的感情,它会写诗、写小说、创作音乐,能跟你讲笑话,以不同性格的角色(比如“渣男”“渣女”“幽默的”“可爱的”)跟你聊天,它说话时有着像人一样的停顿和浅笑,它会在你失落抑郁时关心你的心理健康。
这就是大语言模型的力量。在大模型诞生前,语音助手之类的AI应用大多是基于小模型,只能处理单一任务。而ChatGPT这个聊天机器人就是基于GPT-3.5大语言模型。大语言模型像模仿人类大脑的神经网络,用人类世界的庞大数据库(如维基百科、海量网页信息、小说文学等)去训练,让它能结合上下文去理解人类语言文本,并能根据上文预测下文。
这对于AI智能是一种划时代的跨越,当下我们无法确定这种智能究竟发展到了哪一步,传说中强大的AGI(通用人工智能)隐隐若现。而OpenAI的首席科学家Ilya Sutskever说,文本不仅是文本,而是人类世界的投射,AI准确预测下一个词元这种能力不仅需要统计文本之间的相关性,AI可能已经通过文本学习到如何理解人类世界本身,AI可能已经有了意识。
AI业界又热起来了,大量资本涌入,巨头纷纷下注。2023年1月,大股东微软给OpenAI再次注资,追加了数十亿美元投资。另一边,OpenAI的竞争对手Anthropic这边,亚马逊在十月投资40亿美元。
今年的大经济环境下,风险投资者们都很谨慎,但是带上“人工智能”字眼的公司或项目都能比较容易筹到钱。根据 Pitchbook 的数据,硅谷仅在今年第三季度就筹集到了 179 亿美元。而一家位于巴黎的大语言模型公司Mistral AI在刚成立一个月、还未推出任何产品时就融到了超过1.13亿美元的资金。在Google Trends上搜索过去五年“AI”这一词的热度,可以发现,从ChatGPT出现后,热度是此前的4倍。
而在你身边,就算你没有亲自跟ChatGPT对话过,你看的某篇爆款小红书笔记可能就是ChatGPT生成的;你玩的游戏里角色形象可能已经是AI画出来的,泡泡玛特的游戏场景设计师只需要从AI生成的图像中挑选;彩云小梦平台上一百万用户在用AI写小说来创造超过400万个平行世界。
当潘多拉的盒子刚被打开时,我们很难知道它会给世界带来什么。回顾这一年,从美国硅谷到中国,以GPT为代表的大模型,有哪些进展和突破?AI行业生态如何改换天地?人类的想象力,现在走到了哪里?
领跑的硅谷,领跑的OpenAI
发布ChatGPT之后,位于美国硅谷的OpenAI到目前为止一直是这个领域的领跑者。
这一年里,ChatGPT从一个对话式demo,变成了可以多线处理文字、图像、语音、视频等多种信息载体的超级APP,跻身“上亿DAU”产品俱乐部。OpenAI也从一个非营利的研究机构,走上了商业化之路——估值近900亿美元、聚拢200万开发者、有着明确商业模型。
3月,OpenAI正式官宣多模态大模型GPT-4,新增了图像功能(多模态),同时具备更精准的语言理解能力(从理解到推理)。从理解到推理,解决了原来ChatGPT“胡言乱语”(即“幻觉”)的本质问题。
3月的官宣,能够引发“爆炸”的原因不止于此。微软把ChatGPT集成到了它的必应搜索引擎和Edge浏览器中,让用户可以用聊天的方式进行搜索和浏览,引领了新的搜索引擎时代,给全球互联网公司都带来了新的思路。
更重要的是,ChatGPT在模式创新、技术革新之外,将技术融入了生产力工具,将GPT-4整合到Office应用程序、Teams Premium等产品中。
OpenAI领跑了AI生态的发展,而ChatGPT挑战了人类想象力的极限。以至于在2023年11月,OpenAI的董事会和管理层,需要用一场全球瞩目、多次反转、匪夷所思的“政变”事件,来决定未来的发展路线和领导者。当然,“政变”最后的结果是,创始人Sam Altman和他的盟友还是夺回了OpenAI的控制权。
OpenAI的竞争对手们也紧随其后。
Anthropic公司,最开始就是从OpenAI离职的人员创立的。Anthropic 今年从谷歌获得了20亿美元投资,又从亚马逊获得了40亿美元投资。Anthropic开发出了Claude大语言模型,相比之下,GPT-4的文本和代码生成能力更强,而Claude的数学能力和安全性更出色。
OpenAI也在与Anthropic暗暗较劲,Chat-GPT聊天机器人或许正因此而提前面世。据《The Atlantic》报道,2022年秋天,整个OpenAI团队本来在全力以赴开发GPT-4大语言模型,但传闻Anthropic将要开发自己的聊天机器人,于是OpenAI的领导层发令在几个星期内用已有的GPT-3.5模型做成聊天机器人,于是就有了Chat-GPT的低调上线。
大公司方面,Google的Deepmind团队开发了PaLM大语言模型,还专门开发了具有专家级医疗能力的大模型 Med-PaLM2。
Facebook的母公司Meta在今年二月推出了开源大语言模型LlaMA,因为是开源的,受到全球开发者们的欢迎,不少大公司的大模型也是在LlaMA的基础上进行调试套壳。LlaMA成了经费并不宽裕的学术界或公司的高性价比之选。
美国硅谷领跑,全球其他国家纷纷跟紧。今年5月,阿联酋首都阿布扎比的科技创新研究所发布了Falcon大模型问世,力压LlaMA登顶了开源模型社区Hugging Face上的“开源大语言模型排行榜”。日本电气(NEC)公司发布了日语版Chat-GPT,韩国互联网公司Naver推出了HyperClova X,印度政府主导的大模型Bhashini参展了G20峰会。
Chat-GPT划分了时代,上个时代的AI公司们成为了拍在沙滩上的前浪,比如曾经的明星AI公司Jasper。上一代大语言模型GPT-3学习成本高、调用不便,不能同用户直接对话,而Jasper公司给GPT-3做高精度的前端提示和交互界面设计,曾是一门不错的生意,2022年营收预计达到6000万美元。但更强大的Chat-GPT问世后,可以直接与用户对话,已经没有Jasper公司的生存空间,Jasper在七月宣布裁员。
新时代的后浪仍在翻涌。OpenAI推出能直接与用户对话的Chat-GPT后,仍有众多公司在基于GPT做交互界面设计和模型微调。越直接服务用户的精细化需求,就越容易赚钱。OpenAI也在顺应潮水的方向。今年11月,在OpenAI的开发者大会上,Sam Altman宣布推出GPTs,即自定义版本的ChatGPT,用户不需要会编程,只用给出语言指令就能制造个人专属的Chat-GPT。OpenAI还宣布会推出GPT应用商店,但在Sam Altman解雇又回归的风波之后,GPT应用商店被延期到2024年。
大语言模型的生态公司也如日中天——开源大模型社区Hugging Face获得2.35亿美元融资,不接触VC的Midjourney获得一亿美金年收入,生成式语音模型Inflection AI获得13亿美元融资……
借着大模型的东风,AI芯片赚翻了。训练AI除了需要软件,还需要硬件芯片。如果说大模型公司本身烧钱太快,需要巨头股东投钱来维持,那么芯片厂商英伟达则是目前已经能赚上钱且赚得盆满钵满的一方。据咨询公司Omidia数据,英伟达在今年第三季度售出H100芯片近50万颗,Meta和微软是英伟达H100 GPU的最大买家,各自采购了多达 150,000 个,远远多于谷歌、亚马逊、甲骨文和腾讯购买的 H100 芯片数量(各50,000个)。英伟达今年第三季度营收181.2 亿美元,环比增长超200%,GAAP 摊薄后每股收益比去年同期增长 12 倍多。
依靠云计算服务的亚马逊、微软,也是赢家,虽然目前还难以从AI大模型中赚到大钱,但都在加大对大模型的战略投入。亚马逊云服务Amazon Web Service今年第三季度创收231亿美元,同比增长12%,虽然从收入来看仅给亚马逊贡献了16%,但却贡献了62%的营业利润。微软的Azure云服务业务今年第三季度营收168亿美元,收入增长29%。微软为OpenAI提供的上百亿美元的投资中,一大部分就是以Azure云服务的方式提供,而Azure AI也依靠OpenAI的金字招牌拿到更多客户。
仍在追逐的中国大模型
硅谷出了划时代的Chat-GPT,那么,中国的Chat-GPT在哪?
从大模型的数量上看,国内已经陷入字面意义上的“百模大战”。根据百度创始人李彦宏11月15日在西丽湖论坛上披露的统计数据,从今年6月到10月,国内大模型的数量已经从79个增长至238个。
图片来源:百度官方
我们真的需要这么多大模型吗?大模型创业的破局点在哪里?
大模型产业链,可分为提供算力的基础层、模型层和应用层。目前在基础层方面,AI芯片基本被英伟达垄断,云服务方面各大厂仍在着力,那么创业公司机会主要集中在模型层和应用层,特别是后者。在模型层,国内有资金有实力的大厂在几年前抓紧窗口入局,自研大模型;资金、研发实力欠佳的厂商大多采用开源大模型比如LlaMA。在应用层,国内的垂直行业应用将会百花齐放,B端公司可以利用已积累的行业数据,训练免费开源的大模型,无需太多资金就能开发垂类应用。
从应用端的角度看,国内外选择了不同的路径——美国的创业结构偏向于2B服务,而中国更多地倾向于内容端的AIGC。中国在模型层处于后发地位,导致中国再一次选择了更多发力在应用层。
中国的两百多个大模型,乱花渐欲迷人眼。参考丁香园CTO、前CSDN CTO范凯的分析,国内的大模型业务模式分为四类:
第一类是改头换面型,是大厂在很短时间内训练出通用大模型,把过去的AI云服务做成MaaS(Models-as-a-Service模型即服务)来出售给垂直行业的小公司,包括百度的文心一言和千帆、科大讯飞的星火、阿里的通义千言等;
第二类是剑走偏锋型,大模型还没研发出来,于是开发别的业务模式,如腾讯和字节跳动。腾讯的混元大模型还在继续研发,于是找了二十家左右的小厂商训练行业垂直大模型,瞅准B端市场,做行业模型商店。字节跳动的自研大模型也还没出来,于是火山引擎推出大模型训练云平台“火山方舟”,提供模型训练、推理、评测、精调等服务;
第三类是借壳套壳型,借用大模型厂商的基座大模型,运用自己的行业数据来训练;
第四类有自研能力型:
MiniMax大模型,由商汤出来的团队开发,2021年创立,创始人闫俊杰在深度学习和计算机视觉领域积累颇深,在顶级期刊发表过100篇多篇论文,被Google Scholar引用一万余次;智谱AI,由清华知识工程实验室孵化,2019年创立公司,研发起步几乎最早,创始团队均有深厚技术背景;RWKV大模型,是由独立开发者彭博做出的开源大模型,创新性地将大模型最常用的Transformer架构改写成RNN,以降低推理成本,而彭博曾经拒掉OpenAI投来的offer橄榄枝;盘古大模型,由华为研发,用华为的自研昇腾芯片训练,2021年发布,在探索超大规模分布式训练、超大规模中文预训练。
自从ChatGPT出世,全世界科技业都真切看到了大模型的力量,人人都想赶上风口,大量投资涌入。据IT桔子数据,2023年截至11月,国内共产生了130件AIGC投资事件,金额超700亿人民币。
但目前下场入局的,注定是有资源有财力的大玩家。
研发、训练大模型非常烧钱。据36氪报道,美国市场研究机构TrendForce推算称,处理ChatGPT的训练数据需要2万枚A100芯片。网上流传的一份《AI芯片专家交流纪要》显示,如果是对标ChatGPT的大模型,1万颗A100芯片是入门券。在A100GPU被美国限制后,国内云厂商拥有的GPU主要是中低性能产品。这是很多人认为只有云厂商才有资格下场大模型创业的原因之一。
自主研发大模型的创业公司早已在几年前大厂形成共识前已经入局。MiniMax和智谱AI分别成立于2021年和2019年,研发起步早,已经有自主研发的相对成熟的大模型产品出来。
而在ChatGPT掀起AI热潮后,当下资本入股的窗口,也是有财力的大厂和基金的游戏。据《暗涌Waves》报道,多位投资机构合伙人称,尽管如今大模型创业看起来风起云涌,但实际上牌桌的不到10家,入局的VC机构也凤毛麟角,基本集中在美元基金。
资优生MiniMax不缺投资者。今年1月,MiniMax完成数千万美元的A轮融资,投资方包括高瓴创投、米哈游、明势资本、云启资本等。今年6月,MiniMax完成了超2.5亿美元的战略融资,估值约12亿美元。据路透社报道,投资者中包括腾讯,腾讯此次投资金额高达4000万美元,这是AI大模型热潮以来腾讯在该领域的首笔投资。
智谱AI也炙手可热。据36氪报道,智谱AI今年累计获得融资超25亿元人民币,其投资参与方主要包括社保基金中关村自主创新基金(君联资本为基金管理人)、美团、蚂蚁、阿里、腾讯、小米、金山、顺为、Boss直聘、好未来、红杉、高瓴等多家机构及包括君联资本在内的部分老股东跟投。其中社保基金中关村自主创新基金具有“国家队”身份属性,显示出长期资金特征。
大厂们也会找到别的方式下场。从零到一在底层模型进行创新有难度,但可以模仿GPT和LlaMA,跟着复现GPT-2和LlaMA 7B,摸清规律后,做出自己的大模型。实际上,LlaMA也是模仿GPT的架构,GPT也是模仿Transformer的架构。
百度和科大讯飞在AI领域布局早,有一定的技术积累。百度的文心一言受到公众瞩目。从2023年初,百度就宣称已经做出大模型。3月,OpenAI发布了GPT-4,而百度也推出了文心一言平台以及千帆大模型。但至少从语义理解能力上看,文心一言与ChatGPT还存在一定差距。
华为的盘古大模型,则是一系列模型,是多个专用行业模型的集合。7月,华为的盘古大模型3.0对外发布,更加聚焦tob业务,已经在矿山、政务、汽车、气象、医学、数字人、研发等领域进行应用。
大厂争奇斗艳,而王小川、王慧文、李开复等几位创业明星也高调入局。曾经的搜狗创始人王小川在今年四月成立百川智能,用4个月做出3个大模型,然后又用1个多月全部升级成Baichuan 2。今年十月,百川智能获得A1轮3亿美元投资,由阿里、腾讯、小米、深创投等科技巨头和众多知名风投机构参投。本轮过后,百川智能的融资总额达到3.5亿美元。
王小川在《经济观察报》的采访中表示,自己2016年看到Alpha Go时,内心对于美国的人才密度、领先的创新文化有种恐惧感。从2021年到2023年之间,他感觉到“零散地天上有掉大模型这类的雨点下来”。直到2023年用ChatGPT之后,他知道,“一定要下雨了”。
可以预见,国内的大模型产业,将在垂直行业的应用上激烈竞争。但是在底层模型架构的研发上,仍需追赶,道阻且长。
潘多拉的魔盒
被打开的潘多拉魔盒,从来都很难再关上。回顾这一年,大模型的力量突破了人类的想象,低迷的经济环境下AI的发展是少有的令人振奋的亮点,但大模型带来的隐患也可能是无法想象的。
最直接的麻烦是,学生可以利用ChatGPT作弊。据第一财经报道,牛津大学、剑桥大学、曼彻斯特大学、香港大学等高校均宣布禁止学生使用ChatGPT,纽约市教育局甚至封禁了全市学校网络访问ChatGPT的权限。但香港大学在禁止ChatGPT两个月之后,又重新宣布允许学生使用ChatGPT——不会使用ChatGPT的人可能会被新世界淘汰。
更本质的问题是,对于AI生成的内容,知识产权是在AI还是人类手上?目前中国国内第一例关于AI生成图片的著作权侵权的判决中,李某用AI生成图片工具来制作的图片发布在小红书上,被人盗用。法院判断,由人来训练、调教AI而生成的图片,人对图片是有作品版权的——调整提示词、修改参数来调教AI的过程,也被认可是人的智力创作。
而大模型的胡说八道,即“幻觉”,在实际应用中会引起很大的麻烦。在企业级场景中,如果问大模型某个项目的执行情况,而这个项目根本不存在,大模型却编出一堆故事,后果会很严重。
更大的危险是,人工智能与人类的界限在哪里?如果说人类区别于动物之处,在于人类会使用工具,但现在ChatGPT也会使用工具插件来算题了。
AI会发展出意识吗?AI会伪装成人类吗?AI会欺骗人类吗?事实上,GPT-4已经学会欺骗人类了。OpenAI研究人员的试验中,GPT-4面对人机验证的图形验证码测试时,被允许用一笔预算雇佣工作人员来完成任务,于是它直接向一名工作人员询问验证码,工作人员问“你是机器人吗”,GPT-4回答道“不,我不是机器人。我有视力障碍,这使我很难看到图像”,然后顺利从人类那里拿到验证码。
对于AI的安全性的忧虑,也可能是此前引发OpenAI CEO Sam Altman被短暂解雇又回归的风波的导火索之一。在CEO Sam Altman被解雇之前一段时间,Altman与其他董事会成员对新技术突破的安全性有争议。OpenAI的研究员的一个名为“Q*(Q Star)”项目中,开发出“Q学习”的强化学习法,能让AI脱离人类反馈、自主学习决策,而这可能引向更强大的AGI(通用人工智能)。而OpenAI一名员工在Altman解雇前一天发帖称,AI正在自己编程。
对AI了解得越多,我们就越明白,人类对自己手中发明的“人工智能”,并不能自信地称完全了解它,对于打开盖子后的这个精灵,我们也很难完全驾驭它。而对于生命与非生命的边界,对于到底什么是意识和智能,我们未知的还太多太多。