Salesforce 因涉嫌非法提供 AI 训练数据面临集体诉讼

旧金山联邦法院的一项新的集体诉讼指控软件巨头 Salesforce 在盗版图书馆中构建其 XGen AI 模型,然后在出现问题时删除对这些的引用。
已归档周三,作家 E. Molly Tanzer 和 Jennifer Gilmore 根据《版权法》提起诉讼,指控 Salesforce 持续侵权,并称 Salesforce“继续存储、复制、使用和处理包含原告受版权保护书籍副本的数据集”。
投诉称,Salesforce.INC“盗版了数十万本受版权保护的书籍来开发其 XGen 系列大型语言模型”,依赖于“臭名昭著的 RedPajama 和 The Pile 数据集”,其中包括一个名为 Books3 的图书语料库,该语料库收集了从私人追踪器 Bibliotik 复制的超过 196,000 本书。
该文件称,Salesforce 最初列出的是“RedPajama-Books”其培训之一2023 年 6 月,该公司推出了 XGen,公司工程师将 GitHub 用户直接链接到这两个数据集。
然而,据称,到 9 月份,Salesforce 从其网站上删除了这些引用,并用来自“公开”的“自然语言数据”的模糊描述取而代之。
诉讼称,Books3 的托管平台 Hugging Face 在次月以版权投诉为由删除了该数据集。
该诉讼称 Salesforce用过的Pile 于 2022 年对其 CodeGen 模型进行训练,然后通过其 Agentforce AI 平台将该技术商业化,包括 2024 年 10 月发布的 XGen-Sales 模型。
据称,两个月后,Salesforce 删除了其披露信息,删除了图表和对“RedPajama-Books”的引用,并用关于“混合公开数据”的模糊语言取而代之,然后在 2023 年 12 月声称其模型使用了“合法合规的数据集”,其中没有提及 RedPajama。
Fathom Legal 的执行合伙人 Ishita Sharma 告诉解密作者必须“证明确实存在经济损失,而不仅仅是他们的书被用于培训”,并指出法官 Vince Chhabria 最近驳回了类似指控针对 ,裁定“仅仅声称‘我们的作品被使用’是不够的。”
最近的裁决在类似案件中对 OpenAI 和 Anthropic 有利,法官认为作者未能证明市场受到损害,但有人批评 Anthropic 维护着“一个永久的盗版书库”。
“使用像 RedPajama 或 The Pile 这样的公共数据集并不会自动消除故意侵权,”夏尔马说,并补充道,“如果他们知道或忽略了其中包含的受版权保护的作品,法院仍然可能发现他们罔顾后果。”
她补充道:“除非人工智能能够复制原作的部分内容,否则模型权重本身并不被视为侵犯版权。”
投诉引用了 Salesforce 首席执行官马克·贝尼奥夫 (Marc Benioff) 的声明,他告诉一个彭博社采访者2024年1月,人工智能公司“窃取”了训练数据,并且“所有训练数据都被盗了”。
作者寻求对所有自 2022 年 10 月以来使用其作品的美国版权持有者进行集体诉讼认证,要求法定损害赔偿、销毁侵权复制品、返还利润、声明故意侵权以及支付律师费。
