NVIDIA被指主动洽谈 Anna's Archive 获取数百万盗版电子书训练 AI

Source
芯片巨头英伟达(NVIDIA)在人工智能浪潮中成为最大受益者之一,其用于 AI 训练的芯片和数据中心服务需求暴涨,同时还自行开发多种大模型,包括 NeMo、Retro‑48B、InstructRetro 和 Megatron,并依靠海量文本数据进行训练。然而,这一过程也招致版权方日益激烈的法律反击,多名作家指控该公司大规模使用盗版图书训练模型,并在美国提起集体诉讼。

早在 2024 年初,多位作者就已在集体诉讼中指控英伟达使用包含大量受版权保护作品的 Books3 数据集进行训练,称其中作品来源于盗版电子书站点 Bibliotik,且未获授权,因而要求赔偿损失。英伟达方面则辩称,其模型中“书籍不过是统计相关性”,试图以“合理使用”为抗辩理由,但随着证据开示推进,原告声称掌握了更多内部材料。

最新提交的一份修正起诉书大幅扩展了诉讼范围,除了新增更多作品、作者与模型外,还引入了更广泛的“影子图书馆”相关指控。包括 Abdi Nazemian 在内的多名作者在文件中引用英伟达内部邮件和文件,称该公司在竞争压力下“被驱赶向盗版”,主动从多个盗版数据源获取图书,其中包括备受争议的 Anna’s Archive。

起诉书声称,英伟达数据战略团队的一名成员曾主动联系 Anna’s Archive,询问这家“影子图书馆”能为这家市值数万亿美元的公司提供什么,并明确提到希望将 Anna’s Archive 纳入其大语言模型(LLM)的预训练数据。由于 Anna’s Archive 为“高速访问”其盗版资源收取数万美元费用,英伟达据称还专门打听如何获得这种高速访问形式。

据指控,Anna’s Archive 随后明确提醒英伟达,其馆藏是通过非法方式获取并维持的,并表示此前已被其他 AI 公司“白白浪费过时间”,因此要求英伟达方面确认是否获得内部授权方可推进谈判。起诉书称,在得到这一警告仅几天后,英伟达管理层即在一周内给出了“绿灯”,同意继续推进,并获得了对 Anna’s Archive 大量盗版书籍的访问权。

文件指出,Anna’s Archive 承诺向英伟达开放约 500 TB 的数据,其中包括数百万本通常只能通过 Internet Archive 数字借阅系统访问的图书,而后者自身也正卷入与出版商之间的版权诉讼。起诉书未明确披露英伟达是否最终向 Anna’s Archive 支付费用,但同时指称,英伟达还被控使用了 Books3 以外的其他盗版来源,例如 LibGen、Sci‑Hub 和 Z‑Library 等网站。

除了为自家模型下载并使用盗版图书,英伟达还被指向企业客户分发脚本和工具,使其可以自动下载包含 Books3 数据集的“The Pile”数据集。原告据此提出新的“替代侵权”“共同侵权”等指控,称英伟达一方面通过内部训练使用盗版数据获益,另一方面又通过帮助客户获取这些数据间接受益,从而从侵权行为中获得收入。

基于上述指控,作者们要求法院判令英伟达就其遭受的损失进行赔偿,既包括已具名的作者,也包括未来可能加入集体诉讼的众多作者。这也是首次有文件公开披露大型美国科技公司与 Anna’s Archive 之间的直接接触记录,舆论认为,这一披露很可能进一步抬高这家刚刚因法院命令而丢失多个域名的盗版图书馆在公众视野中的曝光度。

相关修正后的合并起诉书已提交至美国加州北区联邦地区法院,文件中列出的具名作者包括 Abdi Nazemian、Brian Keene、Stewart O’Nan、Andre Dubus III 和 Susan Orlean 等。案件的进展不仅将进一步检验 AI 训练与版权法之间的界限,也可能对整个行业使用“影子图书馆”数据的合规风险产生示范效应。