主要图书出版商介入谷歌AI版权诉讼

摘要： 周四，阿歇特图书集团和圣智学习集团等主要图书出版商提交动议，要求介入去年针对谷歌提起的集体诉讼。该诉讼指控这家科技巨头通过“历史性的版权侵权”来构建其Gemini平台。在向加州联邦法院提起的诉讼中，原告指控谷歌“选择窃取原告和集体诉讼成员的大量内容来训练其人工智能模型”，而非获得适当的许可，并在开...

周四，阿歇特图书集团和圣智学习集团等主要图书出版商提交动议，要求介入去年针对谷歌提起的集体诉讼。该诉讼指控这家科技巨头通过“历史性的版权侵权”来构建其Gemini平台。

在向加州联邦法院提起的诉讼中，原告指控谷歌“选择窃取原告和集体诉讼成员的大量内容来训练其人工智能模型”，而非获得适当的许可，并在开发的“每个阶段”都进行了蓄意侵权。

这起合并案件最初于2023年由一些作者提起，作为一起拟议的版权集体诉讼，指控谷歌复制书籍以训练其生成式人工智能模型。

出版商声称，谷歌从盗版网站下载书籍，然后在人工智能训练过程中反复复制这些书籍，首先复制到计算机内存中，然后复制到人工智能系统可以读取的格式中，最后复制到每个新模型版本的训练集中。

诉讼指出，谷歌的C4训练数据集包含从Z-Library（一个盗版资源库）抓取的受版权保护的作品，当局已从中查获了350多个网站和域名。

出版商指出，这些书籍是从b-ok.org（一个Z-Library域名，现在显示联邦查封通知）以及OceanofPDF和WeLib（另一个拥有大量未经授权的受版权保护内容的网站）复制而来的。

起诉书指出，C4数据集包含来自至少28个网站的作品，这些网站被美国政府认定为盗版和假冒产品的市场。

投诉中写道：“版权符号 (©) 在C4数据集中出现了超过2亿次”，并指出谷歌涉嫌排除“政策声明”和“使用条款”警告，但却包含了“大量受版权保护的作品、盗版作品以及从付费墙后获取的作品”。

出版商指控谷歌从Scribd.com等付费图书馆复制作品，规避了合法的许可协议。

当被问及这种做法时，非营利数据集提供商Common Crawl据称采取了“责怪受害者”的心态，宣称“如果你不想让你的内容出现在互联网上，你就不应该把它放到互联网上。”

诉讼称，Gemini现在生产的产品“替代了受版权保护的作品”，包括逐字复制品、详细摘要和“抄袭原创作品创意元素的仿制品”。

解密已与谷歌和出版商的法律顾问取得联系。