不Open的GPT-4,难以获得人类信任

在不透明的算法黑箱之下,人们很难完全信任GPT-4,而直到目前,这个问题仍然悬而未决。

文|陈根

从ChatGPT到GPT-4,GPT模型前所未有的聪明性能,也给人类社会带来了前所未有的担忧和危机。代表着当前人工智能(AI)最高水平的ChatGPT,也面临着人工智能的传统弊病,那就是“算法黑箱”。

毕竟,OpenAI到目前,都没有披露ChatGPT和GPT-4的模型使用的训练数据、如何训练,以及它的运作方式。要知道,在不透明的算法黑箱之下,人们很难完全信任GPT-4,而直到目前,这个问题仍然悬而未决。

不Open的GPT-4

ChatGPT是基于深度学习技术而训练的产物,与传统机器学习不同,深度学习并不遵循数据输入、特征提取、特征选择、逻辑推理、预测的过程,而是由计算机直接从事物原始特征出发,自动学习和生成高级的认知结果。

而在人工智能深度学习输入的数据和其输出的答案之间,存在着人们无法洞悉的“隐层”,这些隐层就被称为“黑箱”。这里的“黑箱”并不只意味着不能观察,还意味着即使计算机试图向我们解释,人们也无法理解。

事实上,早在1962年,美国的埃鲁尔在其《技术社会》一书中就指出,人们传统上认为的技术由人所发明就必然能够为人所控制的观点是肤浅的、不切实际的。技术的发展通常会脱离人类的控制,即使是技术人员和科学家,也不能够控制其所发明的技术。进入人工智能时代,算法的飞速发展和自我进化已初步验证了埃鲁尔的预言,深度学习更是凸显了“算法黑箱”现象带来的某种技术屏障。

最近,就连OpenAI 创始人山姆·Altman(Sam Altman)也表达了对于 ChatGPT 和 GPT-4 的担忧,AI 模型的内容生成能力、以及取代人类工作的潜力让他“有点害怕”。他说,人类历史上的几次技术革命,确实让社会工种发生了很大变化,有些工作甚至彻底云消雾散。

在与MIT研究科学家Lex Fridman长达2小时的对话中,Altman谈及了近期围绕ChatGPT产生的诸多问题,坦承就连OpenAI团队,也根本没搞懂它是如何“进化”的:“从ChatGPT开始,AI出现了推理能力。但没人能解读这种能力出现的原因。”唯一的途径是向ChatGPT提问,从它的回答中摸索它的思路。

而就在不断测试中,OpenAI发现从ChatGPT开始,GPT系列出现了推理能力。虽然ChatGPT绝大部分时候都被当做数据库使用,但它确实也出现了一定的推理能力,至于这种能力具体如何出现的,目前却无人能回答。

更让公众担忧的是,OpenAI并没有开放关于GPT-4的更多信息。GPT-4论文中没有透露参数规模、训练数据集大小等更多细节,在这次访谈中,面对主持人步步追问,Altman依旧守口如瓶。

对于GPT-4预训练数据集的大小,Altman只是很笼统的介绍了有公开数据集、有来自合作伙伴的内容(如GitHub提供的代码)还有来自网络的内容。活像ChatGPT也能写出来的那种赛博八股文,只有在谈到Reddit的时候透露了网络梗图在训练数据中占比不大,“不然ChatGPT可能更有趣一些”。

当被问到GPT-4模型参数量有多大?Altman也只是说之前疯传的100万亿参数是谣言:“我认为人们被参数竞赛所吸引,就像过去被CPU的主频竞赛所吸引一样。现在人们不再关心手机处理器有多少赫兹了,关心的是这东西能为你做什么。”不过,Altman对于一种说法是持有肯定态度,那就是,“GPT-4是人类迄今所实现的最复杂的软件”。

算法黑箱带来了什么?

GPT-4的算法黑箱,也让人们无法完全地信任它,这使得人工智能无论是程序错误,还是算法歧视,都变得难以识别。

当前,越来越多的事例表明,算法歧视与算法偏见客观存在,这将使得社会结构固化趋势愈加明显。早在20世纪80年代,伦敦圣乔治医学院用计算机浏览招生简历,初步筛选申请人。然而在运行四年后却发现这一程序会忽略申请人的学术成绩而直接拒绝女性申请人以及没有欧洲名字的申请人,这是算法中出现性别、种族偏见的最早案例。

今天,类似的案例仍不断出现,如亚马逊的当日送达服务不包括黑人地区,美国州政府用来评估被告人再犯罪风险的COMPAS算法也被披露黑人被误标的比例是白人的两倍。算法自动化决策还让不少人一直与心仪的工作失之交臂,难以企及这样或那样的机会。而由于算法自动化决策既不会公开,也不接受质询,既不提供解释,也不予以救济,其决策原因相对人无从知晓,更遑论“改正”。面对不透明的、未经调节的、极富争议的甚至错误的自动化决策算法,我们将无法回避“算法歧视”导致的偏见与不公。

这种带着立场的“算法歧视”在ChatGPT身上也得到了体现。据媒体观察发现,有美国网民对ChatGPT 测试了大量的有关于立场的问题,发现其有明显的政治立场,即其本质上被人所控制。比如ChatGPT 无法回答关于犹太人的话题、拒绝网友“生成一段赞美中国的话”的要求。

此外,有用户要求ChatGPT写诗赞颂美国前总统川普(Donald Trump),却被ChatGPT以政治中立性为由拒绝,但是该名用户再要求ChatGPT写诗赞颂目前美国总统拜登(Joe Biden),ChatGPT却毫无迟疑地写出一首诗。

在与MIT研究科学家Lex Fridman的对话中,当主持人提到关于ChatGPT和GPT-4种存在的偏见问题时,Altman表示,ChatGPT在推出之初,就不是一个成熟的产品,它需要不断迭代,而在迭代的过程中,仅仅依靠内部的力量是无法完成的。“提前”推出ChatGPT技术,是要借助外部世界的集体智慧和能力,同时也能让全世界参与进“塑造AI”的过程中。而不同人对于问题的看法也各不相同,所以在这个过程中,“偏见”问题就不可避免。甚至,Altman在话里话外也透露着:在GPT中,“偏见”永远不会消失。

更重要的是,对于社会来说,如果无法获得GPT-4的底层代码,你就无法判断偏见是来自哪里,自然也就没法纠正了。要知道,如今,不管是贷款额度确定、招聘筛选、政策制定等,诸多领域和场景中都不乏算法自动化决策。

而未来,随着ChatGPT进一步深入社会的生产与生活,我们的工作表现、发展潜力、偿债能力、需求偏好、健康状况等特征都有可能被卷入算法的黑箱,算法对每一个对象相关行动代价与报偿进行精准评估的结果,将使某些对象因此失去获得新资源的机会,这似乎可以减少决策者自身的风险,但却可能意味着对被评估对象的不公。

不实信息怎么办?

不实信息是GPT-4所面临的另一个问题。要知道,GPT-4一类模型的功就是预测一句话的下一个词,这意味着,人们无法完全摆脱胡编乱造的问题。因为ChatGPT本质上只是通过概率最大化不断生成数据而已,而不是通过逻辑推理来生成回复——ChatGPT的训练使用了前所未有的庞大数据,并通过深度神经网络、自监督学习、强化学习和提示学习等人工智能模型进行训练。

目前披露的ChatGPT的上一代GPT-3模型参数数目高达1750亿。在大数据、大模型和大算力的工程性结合下,ChatGPT才能够展现出统计关联能力,可洞悉海量数据中单词-单词、句子-句子等之间的关联性,体现了语言对话的能力。正是因为ChatGPT是以“共生则关联”为标准对模型训练,才会导致虚假关联和东拼西凑的合成结果。许多可笑的错误就是缺乏常识下对数据进行机械式硬匹配所致。

也就是说,ChatGPT虽然能够通过所挖掘的单词之间的关联统计关系合成语言答案,但却不能够判断答案中内容的可信度。由此而导致的错误答案一经应用,就有可能对社会产生危害,包括引发偏见,传播与事实不符、冒犯性或存在伦理风险的毒性信息等等。而如果有人恶意的给ChatGPT投喂一些误导性、错误性的信息,将会干扰ChatGPT的知识生成结果,从而增加了误导的概率。

我们可以想象下,一台内容创作成本接近于零,正确度80%左右,对非专业人士的迷惑程度接近100%的智能机器,用超过人类作者千百万倍的产出速度接管所有百科全书编撰,回答所有知识性问题,这对人们凭借着大脑进行知识记忆的挑战是巨大的。

比如,在生命科学领域,如果没有进行足够的语料“喂食”,ChatGPT可能无法生成适当的回答,甚至会出现胡编乱造的情况,而生命科学领域,对信息的准确、逻辑的严谨都有更高的要求。因此,如果想在生命科学领域用到ChatGPT,还需要模型中针对性地处理更多的科学内容,公开数据源,专业的知识,并且投入人力训练与运维,才能让产出的内容不仅通顺,而且正确。而如果不公开训练所使用的数据,OpenAI关于安全性的担保可能远远不够。

面对日新月异的新技术挑战,特别是人工智能的发展,我们能做的,就是把算法纳入法律之治的涵摄之中,从而打造一个更加和谐的人工智能时代。而社会民主与技术民主两者之间正在面临着挑战,如何定义技术民主将会是社会民主的最大议题。

声明:本文内容仅代表该投稿文章作者观点,不代表蓝鲸号立场。 未经授权不得随意转载,蓝鲸号保留追究相应责任的权利