ChatGPT版权第一案：OpenAI面临六项指控，因输出图书摘要被“抓包”

• 2023-08-07 11:39:00 • 金融科技 • 阅读

　　文章转载来源：腾讯科技

　　原文来源：腾讯科技

图片来源：由无界 AI‌ 生成

　　2023年6月28日，第一起具有代表性的ChatGPT版权侵权之诉，终于出现在了公众视野。两名作家在美国加州北区法院，对Open AI公司发起了版权集体诉讼，指控后者未经授权利用自身享有版权的图书训练ChatGPT，谋取商业利益。

　　原告Paul Tremblay和Mona Awad居住于马萨诸塞州，分别享有涉案作品《The Cabin at the End of the World》和《13 Ways of Looking at a Fat Girl and Bunny》的版权；被告Open AI创建和运营了生成式人工智能产品ChatGPT，目前主要由GPT-3.5和GPT-4两个底层大语言模型驱动。

　　起诉状指出，虽然原告没有授权Open AI使用自身享有版权的图书进行模型训练，但ChatGPT却能够根据prompts指令输出图书的摘要，而这只有在被告将涉案图书纳入语料库加以训练才可能发生。

　　01 因为输出图书摘要而被“抓包”

　　原告表示，Open AI训练数据集中收录的大量内容属于版权保护的作品，这其中便包括原告享有版权的图书。但Open AI既没有经过原告的同意，也没有标明内容来源、支付必要的费用。而原告出版的图书具有明确的版权管理信息，包括出版号、版权号、版权人姓名以及使用条款等。

　　原告从既有的事实和信息可以推断，ChatGPT之所以可以准确生成特定图书的摘要，唯一可解释的原因便是Open AI获取、复制了涉案图书，并用于旗下大语言模型（GPT3.5 或GPT4）的训练。

　　原告测试发现，当通过prompts的方式要求ChatGPT总结两部涉案图书时，ChatGPT可以生成较为准确的摘要（虽然也存在少量的错误内容）。这表明ChatGPT保存了被训练数据集中特定作品的内容，并能够输出对应的文本。与此同时，ChatGPT通过对大语言模型内容生成原理的设计，输出内容并不会包含原有的版权管理信息。

　　02 “ChatGPT，你是如何运行的！”

　　本案有意思之处在于，原告证明Open AI侵权的过程中，对于ChatGPT基本原理的介绍，是建立在同ChatGPT对话，让其“进行自我介绍”的基础之上。具体内容总结如下。

- 星际资讯

免责声明：投资有风险，入市须谨慎。本资讯不作为投资建议。