文|深响 赵飞宇 吴鸿键
龙年春节,科技圈最大的新闻非Sora莫属。
OpenAI发布的Sora在视频生成上的表现之惊艳,已经不用再多赘述。我们只需要知道,Sora标志着AIGC再次突破天花板。它不只是科技圈的事,还会影响广大视频、影视、广告领域的从业者。正如AI作图此前对画师群体的冲击那样。
技术已经带领我们来到了一个“新世界”。到了这里,旧时的规则会逐渐失效,同时也有许多模糊地带等待人们划清边界。例如,我用某个知名导演、摄影师的风格来生成视频,那么这段视频的版权到底该归属谁?是我?还是AIGC平台?又或者那位导演也该占一份?
各行各业也在面临着“旧有模式受冲击”的问题——纽约时报起诉OpenAI和微软,状告两者涉嫌未经授权使用纽约时报数百万篇文章训练人工智能;版权图库网站Getty Images指出Stability AI从其图库中复制了超过1200万张图及相关的标题和元数据;好莱坞编剧罢工,要求限制制片方在编剧创作过程中对AI技术的使用。这些都是技术变革引发的反弹。
然而,工业革命、互联网浪潮带来的改变已经充分说明,技术变革是不可逆的。相比粗暴的“抵制”,划分权责、制定新规则才是当务之急。围绕以下三个关键问题,「深响」与相关法律界人士进行了探讨:
用户使用AIGC平台制作内容,版权归谁?
版权问题的纠纷焦点究竟在哪里?
利益相关方如何应对变化?行业生态会如何演变?
版权归谁,得具体情况具体分析
AIGC带来了许多便利,即使用户不是专业画手或摄像,只要掌握一定的提示词技术,也能“站在巨人的肩膀上”做出专业内容。这带来的问题是:AI生成的内容版权应该归属谁?如果出现纠纷,谁来承担责任?
类似的问题已有法律案例。中国“AI文生图第一案”的判决书显示,原告李昀锴出于兴趣学习AI绘画,他从2022年11月开始在社交媒体上发布由AI生成的图片。一些自媒体账号未经允许李昀锴使用相关图片,且没有署名来源。李昀锴将其中一个自媒体号主告上法庭。
作为律师,李昀锴希望通过司法判决来探索AIGC的边界:用户用AI创作的内容是不是“作品”,版权是否归属用户?
判决书认为,李昀锴使用开源模型Stable Diffusion生成的图片属于美术作品,且李昀锴为著作权人,被告未经授权使用该图片、去除图片水印的行为,侵害李昀锴信息网络传播权和署名权,须向其赔偿500元并发布道歉声明。
需要注意的是,这样的判例不能直接套用到所有的情况上。金诚同达律师事务所合伙人米新磊告诉「深响」,著作权归属的判决依据是在整个AI生成内容的过程中,人类智力和独创性体现的占比多少,使用者训练地越精准,可选择性越多,最终取得生成内容著作权的可能性越大。
另一种容易出现侵权争议的情况是,用户用AI生成了某种风格化的图片(比如:用宫崎骏风格的模型画一只猫)。「深响」从法律界人士处了解到,著作权法不保护风格,在很多法院判罚中,对风格的模仿并不一定被认为是侵权,所以用户“用宫崎骏风格的模型画一只猫”一般不构成侵权。
但是,如果用户是直接“喂给”AI一张宫崎骏的图,告诉AI就按这个风格来生成图片,这就构成了侵权。因为用户并未被授权使用宫崎骏的作品。
还有一种版权归属问题,出现在AIGC平台和用户之间。但这种冲突更多只存在于“理论上”,实际操作中,相比版权归属问题,AIGC平台方对“把用户规模做大,赚更多会员费”更感兴趣。为此,他们甚至愿意为其用户承担潜在的诉讼费用。
微软、谷歌、OpenAI等多家公司都承诺,若用户因使用其提供的AIGC产品或服务而面临第三方侵权索赔,公司同意承担相应的赔偿责任。以微软为例,2023年9月7日,微软发布了Copilot版权承诺书,表示若商业用户因使用Copilot或其生成输出而遭第三方基于版权的侵权诉讼,微软将同意为该用户辩护并支付因案件而产生的赔偿金。但前提是该用户已使用产品中内置的防护装置和内容过滤器,并遵守了其他条款。
平台通过用户协议明确权利归属和责任划分,是降低潜在冲突的一种方式。OpenAI则在服务条款中明确其赔偿条款仅适用于付费用户,包括API用户和ChatGPT企业用户,而其余数亿的免费用户,则不会受到赔偿条款的保护。
争议焦点在平台和数据源之间
在版权争议问题里,用户侧的行为往往会受到更多关注,但更核心的冲突,其实发生在AIGC平台和数据源之间。
我们都知道,AIGC的实现需要经过三个阶段:一、数据采集;二、模型训练;三、关键词输入。数据采集和模型训练是平台开发者的前置步骤,内容输入则由使用者来完成。
没有足够规模的数据去训练和调试模型,就很难搭建一个足够智能的生成式人工智能平台。米新磊告诉深响,“对于AICG而言,采集大量数据并利用数据来训练和调试模型,是最核心的阶段。”
在理想情况下,AI模型应当和拥有数据资源的网站签订授权协议,支付给对方足够费用,然后用对方提供的接口去抓取数据。但事实是,当前的AI技术发展迅速,其数据来源却往往处于“黑箱”状态,难以判断其合法性。
法律纠纷由此而生。像Getty Images这样的图库,收入来源于版权图片的销售。如果AIGC平台直接抓取数据,就威胁到了版权公司的利益。同样的,新闻媒体、图书出版商、影视公司的商业模式,也都建立在版权之上。对于企业而言,有效管理和利用版权资源能够促进内容变现,提升核心竞争力。但AIGC技术的出现,打破了传统版权模式的框架。
问题的核心在于,各方要想办法确保AI模型训练数据的来源合法性,避免侵犯版权或个人隐私。这有待于数据安全法、个人信息保护法、反不正当竞争法等法律的完善。
在一切得到厘清之前,从业者仍有可能因为平台数据源的不确定性惹到麻烦。
例如,在商业应用中,有的品牌会尝试利用自己的素材训练专有模型。原则上,只要品牌训练模型的素材版权都属于自身所有,那这个专有模型产出的内容就不会形成侵权。但在实操中,专有模型是在大模型的基础上训练得来的,而大模型的数据来源是否合规,外界很难知晓。
这些问题的解决都有待法律的完善。而在这个过程中,数据源和AIGC平台将持续博弈,行业新规则也会随之产生。
诉讼不是终局,合作才是
目前,我们已经看到版权模式受益方和AIGC平台间的冲突,相关诉讼会不断出现。但与其说冲突是新旧势力间的激烈交锋,不如说它是通向行业新秩序必经之路。
AIGC浪潮汹涌,传统巨头和科技新贵打官司,更多是想为自身争取一个“定义未来行规”的谈判席位。米新磊认为,随着AIGC的发展,产业内各环节会形成新的生态,诉讼会促成新的合作。整体来看,AIGC行业新的规则和合作边界会在发展中明确。
目前,国内AIGC领域的发展还处于起步阶段,许多问题没有完全显现。相关法律纠纷仍停留在公益性阶段。相比之下,由于美国存在更多相对成熟的AIGC产品,产业生态内的博弈得到了更多呈现。
在米新磊看来,Getty Images和《纽约时报》的诉讼可能是“以打促谈”,目的不完全在于法庭上的胜负,而是通过法律行动促使双方就版权使用、数据授权等问题达成协议,促进平台和内容生产者之间的合作。
这种做法在内容产业中并不少见。一个典型例子就是国内的短视频平台与长视频平台之间的博弈,与其说长视频平台是要禁止抖音、B站等平台粉丝的“二创”行为,不如说是想与短视频平台之间建立合作关系。
在关于AIGC的法律规定方面,米新磊认为,各国的方向还是“不断优化”,对使用AIGC的方式做一些建议指导,或者是局部的调整。总体上还是鼓励AIGC行业的发展。从业者应该关注的是数据使用的合法性、个人信息保护、版权问题以及遵守AIGC特定的监管要求。这些领域通常是法律隐患最为集中的地方,也是有关部门监管的底层逻辑。
以下为「深响」和金诚同达律师事务所合伙人米新磊的部分对话实录:
Q:作为法律从业者去看这些AI生成的内容和我们普通人的关注点有哪些不一样吗?会优先想到什么法律隐患?
A:我本来就是研究著作权法的,也一直在关注这个领域,所以我第一反应就是关于著作权的内容的合理使用的问题。因为它的原理是三步走,第一步先做数据采集,采集了数据之后,然后进行模型训练,根据用户的需求训练的差不多了,然后用户再用自己的一个关键词输入,通过关键词不断调整优化,最后生成出来一个产品。
第一步是核心,如果说数据抓取采集的时候并没有获得(对方)同意,那其实就有点灰色地带,因为你的数据量比较大,采集的比较广,然后把它揉在一起,怎么去防止他的侵权行为?
Q: 平台的开发者是怎么确保他们训练AI模型的数据来源是合法经授权的?有没有一个明文的法条是来保障这一个权益的?
A:数据是非常重要的资产,正常情况下你应该是获得他(对方网站)的授权,跟他签了授权协议,然后给他支付授权费用,然后他可能才给你提供接口,然后让你去抓这些数据。但是当他不公开的时候,你要去强行抓取,或者是说你要去通过非法手段获得,可能会违反数据安全法,个人信息保护法或者反不正当竞争法,还包括民法典中合同编的相关法条。所以这个层面其实是有一系列法律法规能去做规制的。Q:未来随着 AIGC的繁荣,各国家会产出一个法律法规明确规定说你要公开你的这个数据来源吗?A:不一定,目前从行业发展角度来说,总体还是鼓励AIGC行业的发展,因为它可能是一个革命性的技术。从目前各国的法律规定来看,我觉得他们是在不断优化,或者是说对于使用的一些方式进行一些建议指导,或者是局部的一些调整。但是从总体的趋势来说他没有像比如说限制你的数据库必须开源、数据库必须全部披露这种根本性的阻碍政策。在信息革命时代,数据是核心资产,也是兵家必争之地,不太可能都进入免费的公有领域。
Q:用户使用AIGC时的著作权应该如何被保障?用户是否必须接受它可能会被传播,会被其他人使用这样一个结果?
A:你把文章放到网上不代表说别人就可以直接用,其实现在很多比如网络小说什么也是在网上发表,包括一些图片也在网上都有,你不能说网上发表了,然后公开了别人用就是不侵权的。尽管平台会有类似免责的条款,但是从法律角度来判断的话最终也属于侵权。对于使用者来说,我用一些这样的AIGC平台生成了相关内容并上传到了网上,它同样也是受版权保护的。Q:平台方和AIGC使用者之间是否有利益博弈?比如生成出来的版权归谁?违法的话责任谁担?
A:理论上是这样的,但是我感觉从实践角度来说,那个好像不完全是这么回事。
对于平台来说,他做一个AIGC工具,它是想让用户去用的,它的目的是商业性,要么我获得流量,要么我获得用户,然后获得更多的输入,所以他是一个服务型的机构。他其实不太会去跟用户去争用户所产生的产品的著作权的,这个对他没意义。从这个角度来说,他们其实并不对立,而且这个应该是能划分清楚的,只要在用户协议里面明确,根据你(用户)的调教和训练,最后产生的产品著作权都归你,如果有什么责任,也是用户承担。对于平台来说更重要的可能希望更多的用户来用我这个(应用),它是靠这个赚钱,而不是靠生成的东西去卖钱。
尤其OpenAI甚至是考虑到如果用户面临诉讼,我们(平台方)给你付钱,甚至于推出这样的产品,这样子的话用户就更不用担心了。再者就是他(平台)肯定也是想尽量减少这种情况,他们其实也不断的优化,尽量在最终呈现的结果上让他减少侵权的风险。
Q:您有接触过 AI 领域相关的这种case吗?A:目前虽说业内AI比较火,但是它实际上涉及到的案例没有那么多,在国内的话可能只有那个三四个左右。第一案是北京一家律师事务所起诉的,今年判的“AI文生图第一案”的原告其实也是个律师,所以这两个案例都带点公益诉讼性质,是想基于自身对于这个行业的关注,然后通过塑造一个法律经典案例的形式,对行业内的规则起到指向性的作用。
国外产业发展的比我们要领先一点,那它所暴露出来的问题也会比我们更多一点。比如国外现在有一些案例,原告主张被告抓取数据训练自己的模型用于盈利,同时它产出的产品和原作品高度相似,这个时候有两类人会去起诉,第一类就是被抓取数据一方,比如2023年6月,大量消费者向美国旧金山联邦法院提交了近160页的起诉书,起诉OpenAI公司最为流行的ChatGPT和DALL-E是通过盗用私人信息运行的,这些被盗用的信息来自包括儿童在内的数亿名互联网用户,并且并未获得用户的许可;同时,向OpenAI投资100亿美元的微软(Microsoft Corp.)也被列为被告。
第二类就是作品权利一方,比如美国作家协会(Authors Guild)、纽约时报,他们是直接生产内容的,如果在这个(AIGC)过程直接用到了那个作家的一些书里面的东西,然后其实就有点洗稿那个意思了,新闻报道也一样。此外还有美国最大的图片生产商Getty Images,网上的文章和新闻报道用图片都从他那买。如果说目前AI能通过免费抓取,然后再给你揉一下生成新的图片,就相当于是直接动了它的利益。
同时,美国的版权局的著作权登记审核也要更严格,他会询问你是怎么生成的,如果你说是AI生成的,就不给登记,这是美国行政层面的态度。
所以美国的这些诉讼,更接近于目前产业生态的博弈。因为真的触碰到巨头的利益了。美国也会通过案例判决来给出司法层面的态度。
从国外的经验来看,他们起诉的目的可能是以打促谈,目的不是说一定要打这个官司,而是说通过官司,让你拿我的授权,就相当于是你付我一个授权费,最后大家建立一个合作关系。这个有点像国内前两年短视频平台跟长视频平台之间的争夺战,抖音、B站好多up主用电影的资源去做二创,其实就是个侵权行为,所以后面爱奇艺这些长视频平台,包括一些内容生产商、一些老牌电影公司,他们是联合发声,要去起诉或者是要求他们支付版权费用,其实也是想让短视频平台跟长视频平台之间建立一个合作关系。Q:未来AIGC相关法律的可能发展趋势是什么?
A:国务院立法计划里,人工智能法草案其实也在起草的准备过程中了,但是还不知道什么时候能够落地。其实立法是有一定的滞后性的,目前这个行业还在发展过程中,还有很多问题没有显现。产业的前景没有明确的时候,贸然的立法未必是好事。
AIGC虽然是和人工智能相关,但它本质产生的一些纠纷,还是版权、知识产权、数据安全、个人信息保护等。而针对这些,在现有的法律框架下,我们之前的法律法规也都有,比如著作权法、个人信息保护法和数据安全法。这些也足够去应对,只是还没有集合起来推出来。
我们需要谨慎对待新产生的这些案例,但并不是说我们就一定要去立法给他框得规规整整,这样反而会抑制科技的发展。Q:针对AIGC领域从业者,有哪些法律相关的经验建议,可以帮助从业者们尽可能避免法律隐患?
A:其实更大的风险是集中在平台一方的。
第一个建议,就是还是要紧密关注国内监管部门的政策,特别是涉及生成式人工智能的规章,是六七个部门一块出台的,力度比较大,涉及到的监管部门也很多。监管一旦加强的话,你合规性做不到,就很容易出现问题。
第二个就是注意合规问题,目前对于AIGC也有一些具体要求。比如要求对于人工智能生成的内容要进行标识,你要让大家知道这个是人工智能生成的东西,比如数字人主播等,不能没有任何的提醒,在抖音b站这些平台已经有了,所以要注意合规风险。主要关注数据方面,个人信息方面和版权方面,这些构成了行业的底层监管逻辑。