ChatGPT版权第一案:OpenAI面临六项指控,因输出图书摘要被“抓包”
文章转载来源:腾讯科技
原文来源:腾讯科技

2023年6月28日,第一起具有代表性的ChatGPT版权侵权之诉,终于出现在了公众视野。两名作家在美国加州北区法院,对Open AI公司发起了版权集体诉讼,指控后者未经授权利用自身享有版权的图书训练ChatGPT,谋取商业利益。
原告Paul Tremblay和Mona Awad居住于马萨诸塞州,分别享有涉案作品《The Cabin at the End of the World》和《13 Ways of Looking at a Fat Girl and Bunny》的版权;被告Open AI创建和运营了生成式人工智能产品ChatGPT,目前主要由GPT-3.5和GPT-4两个底层大语言模型驱动。
起诉状指出,虽然原告没有授权Open AI使用自身享有版权的图书进行模型训练,但ChatGPT却能够根据prompts指令输出图书的摘要,而这只有在被告将涉案图书纳入语料库加以训练才可能发生。
01 因为输出图书摘要而被“抓包”
原告表示,Open AI训练数据集中收录的大量内容属于版权保护的作品,这其中便包括原告享有版权的图书。但Open AI既没有经过原告的同意,也没有标明内容来源、支付必要的费用。而原告出版的图书具有明确的版权管理信息,包括出版号、版权号、版权人姓名以及使用条款等。
原告从既有的事实和信息可以推断,ChatGPT之所以可以准确生成特定图书的摘要,唯一可解释的原因便是Open AI获取、复制了涉案图书,并用于旗下大语言模型(GPT3.5 或GPT4)的训练。
原告测试发现,当通过prompts的方式要求ChatGPT总结两部涉案图书时,ChatGPT可以生成较为准确的摘要(虽然也存在少量的错误内容)。这表明ChatGPT保存了被训练数据集中特定作品的内容,并能够输出对应的文本。与此同时,ChatGPT通过对大语言模型内容生成原理的设计,输出内容并不会包含原有的版权管理信息。
02 “ChatGPT,你是如何运行的!”
本案有意思之处在于,原告证明Open AI侵权的过程中,对于ChatGPT基本原理的介绍,是建立在同ChatGPT对话,让其“进行自我介绍”的基础之上。具体内容总结如下。
- 星际资讯
免责声明:投资有风险,入市须谨慎。本资讯不作为投资建议。