作者指控 Meta 不管律师的警告如何，人工智能训练中使用受版权保护的书籍

新闻公告

发布时间：2023-12-25 11:00:56

站长之家(ChinaZ.com) 12 月 13 日消息:Meta 在夏季一起提起的版权侵权诉讼中最新显示提交文件，尽管律师警告他们使用数千本盗版书籍来训练 AI 该公司仍然这样做了模型的法律风险。

Llama2，Meta，人工智能，大语言模型，AI

对周一晚上提交的新文件进行了整合 Facebook 和 Instagram 喜剧演员由喜剧演员提起的两起诉讼 Sarah Silverman、普利策奖得主 Michael Chabon 以及其他着名作者提到。他们指控 Meta 未经许可使用他们的作品进行训练人工智能语言模型 Llama。

上个月，加州法官驳回了 Silverman 诉讼的一部分表示，作者将被允许修改他们的指控。Meta 这些指控尚未得到回应。

周一提交的新起诉包括 Meta 关联研究员在 Discord 服务器这可能是讨论数据集采购聊天记录的重要证据，表明 Meta 知道这些书的使用可能不受美国版权法的保护。

在起诉中引用的聊天记录中，研究员 Tim Dettmers 描述了他与 Meta 法律部门是否使用书籍文件作为培训数据「合法」讨论。

Dettmers 在 2021 年写道，他提到了 Meta 承认用于训练 Llama 第一一个版本的数据集「The Pile」，「在 Facebook，很多人对使用感兴趣 (The Pile)，包括我自己，但以目前的形式，由于法律原因，我们不能使用它。」

根据起诉，Dettmers 上个月写道，Meta 律师告诉他「如果数据用于训练模型或发布，则不能使用该数据」。

尽管 Dettmers 没有详细描述律师的担忧，但聊天中的其他人指出，「仍享有版权的书籍」可能是最大担忧的来源。他们说，数据训练应该是「属于合理使用范畴」，这是美国未经许可保护版权作品的法律原则。Dettmers 他说他不能立即对这些指控发表评论。

今年，科技公司面临着一系列来自内容创作者的诉讼。他们指责这些公司剽窃受版权保护的作品，以建立一种在世界各地引起轰动和投资热潮的形成 AI 模型。

假如这些案件成功，就有可能抑制生成型 AI 因为它们可能会被迫 AI 公司补偿艺术家、作者和其他内容创作者使用他们的作品来增加构建数据密集型模型的成本。

与此同时，欧洲新的临时人工智能法规可能迫使公司披露训练模型的数据，从而面临更多的法律风险。

Meta 在 2 月发布了其 Llama 大型语言模型第一一个版本，发布了训练数据集列表，包括「ThePile」的 Books3 部分。根据起诉，建立这个数据集的人说它包括 196，640 本书。

最新版本模型 Llama 2 训练数据显示，该模型已于今年夏天投入商业使用“>>该公司没有透露最新版本模型 Llama 2 培训数据显示，该模型已于今年夏天投入商业使用。

Llama 2 对月活跃用户少于 7 免费使用亿元的公司。其在科技领域的发布被视为生成型 AI 对软件市场潜在游戏规则的变化构成威胁 OpenAI 和 Google 这样的领导者，后者对其模型的使用收费。