Salesforce 因涉嫌非法提供 AI 训练数据面临集体诉讼

时间：2025-10-21 来源：188dm下载作者：佚名

旧金山联邦法院的一项新的集体诉讼指控软件巨头 Salesforce 在盗版图书馆中构建其 XGen AI 模型，然后在出现问题时删除对这些的引用。

已归档周三，作家 E. Molly Tanzer 和 Jennifer Gilmore 根据《版权法》提起诉讼，指控 Salesforce 持续侵权，并称 Salesforce“继续存储、复制、使用和处理包含原告受版权保护书籍副本的数据集”。

投诉称，Salesforce.INC“盗版了数十万本受版权保护的书籍来开发其 XGen 系列大型语言模型”，依赖于“臭名昭著的 RedPajama 和 The Pile 数据集”，其中包括一个名为 Books3 的图书语料库，该语料库收集了从私人追踪器 Bibliotik 复制的超过 196,000 本书。

该文件称，Salesforce 最初列出的是“RedPajama-Books”其培训之一2023 年 6 月，该公司推出了 XGen，公司工程师将 GitHub 用户直接链接到这两个数据集。

然而，据称，到 9 月份，Salesforce 从其网站上删除了这些引用，并用来自“公开”的“自然语言数据”的模糊描述取而代之。

诉讼称，Books3 的托管平台 Hugging Face 在次月以版权投诉为由删除了该数据集。

该诉讼称 Salesforce用过的Pile 于 2022 年对其 CodeGen 模型进行训练，然后通过其 Agentforce AI 平台将该技术商业化，包括 2024 年 10 月发布的 XGen-Sales 模型。

据称，两个月后，Salesforce 删除了其披露信息，删除了图表和对“RedPajama-Books”的引用，并用关于“混合公开数据”的模糊语言取而代之，然后在 2023 年 12 月声称其模型使用了“合法合规的数据集”，其中没有提及 RedPajama。

Fathom Legal 的执行合伙人 Ishita Sharma 告诉解密作者必须“证明确实存在经济损失，而不仅仅是他们的书被用于培训”，并指出法官 Vince Chhabria 最近驳回了类似指控针对，裁定“仅仅声称‘我们的作品被使用’是不够的。”

最近的裁决在类似案件中对 OpenAI 和 Anthropic 有利，法官认为作者未能证明市场受到损害，但有人批评 Anthropic 维护着“一个永久的盗版书库”。

“使用像 RedPajama 或 The Pile 这样的公共数据集并不会自动消除故意侵权，”夏尔马说，并补充道，“如果他们知道或忽略了其中包含的受版权保护的作品，法院仍然可能发现他们罔顾后果。”

她补充道：“除非人工智能能够复制原作的部分内容，否则模型权重本身并不被视为侵犯版权。”

投诉引用了 Salesforce 首席执行官马克·贝尼奥夫 (Marc Benioff) 的声明，他告诉一个彭博社采访者2024年1月，人工智能公司“窃取”了训练数据，并且“所有训练数据都被盗了”。

作者寻求对所有自 2022 年 10 月以来使用其作品的美国版权持有者进行集体诉讼认证，要求法定损害赔偿、销毁侵权复制品、返还利润、声明故意侵权以及支付律师费。

最热排行榜

Salesforce 因涉嫌非法提供 AI 训练数据面临集体诉讼

相关下载

最热排行榜