近日,两家知名媒体《纽约时报》与《每日新闻》联合对人工智能技术巨头OpenAI提起诉讼,指控其未经授权使用了它们的作品来训练AI模型。这一消息引发了广泛关注。
事情的起因要追溯到今年秋季,当时OpenAI同意向两家媒体提供两台虚拟机,以便它们的律师可以在AI训练集中查找受版权保护的内容。虚拟机,作为一种基于软件的计算机,通常用于测试、数据备份和应用程序运行,这次被赋予了新的使命。
然而,在双方合作的过程中,却出现了一次意外的波折。据《纽约时报》与《每日新闻》的律师透露,自11月1日起,他们及其聘请的专家已经花费了超过150个小时的时间,在OpenAI的训练数据中搜寻证据。然而,就在11月14日,OpenAI的工程师却意外删除了其中一台虚拟机上存储的所有搜索数据。
尽管OpenAI随后尝试恢复数据,并且取得了一定的成功,但由于文件夹结构和文件名的丢失,这些恢复的数据已经无法用于确定哪些文章被用于构建OpenAI的模型。这意味着,《纽约时报》与《每日新闻》的律师和专家不得不从头开始,重新进行他们的工作。
“我们被迫投入了大量的人力和计算机处理时间,重新制作我们的工作。”两家媒体的律师在提交给纽约南区美国地方法院的信件中写道,“我们昨天才得知恢复的数据无法使用,专家和律师整整一周的工作必须重新完成。”
尽管原告律师明确表示,他们没有理由相信这次删除是故意的,但他们认为,这一事件凸显了OpenAI在自身数据集中搜索潜在侵权内容方面的强大能力。这也让人们对OpenAI的数据管理和合规性产生了质疑。
对于此次诉讼,OpenAI方面则坚称,使用公开数据(包括《纽约时报》和《每日新闻》的文章)来训练模型是合理使用。他们表示,在创建如GPT-4o这样的模型时,无需获得许可或以其他方式为这些示例付费,即使他们从这些模型中获得了收益。然而,这一观点并未得到两家媒体的认同。
值得注意的是,尽管面临诉讼,OpenAI已经与越来越多的新出版商签署了许可协议。其中包括美联社、Axel Springer(Business Insider的所有者)、金融时报、Dotdash Meredith(People的母公司)和新闻集团等。尽管OpenAI拒绝公开这些交易的条款,但有报道称,其中一个内容合作伙伴每年至少获得1600万美元的报酬。这也显示了OpenAI在内容版权方面的积极态度和策略。
截至目前,OpenAI既没有确认也没有否认其在未经许可的情况下将其AI系统训练在任何特定的受版权保护的作品上。这场诉讼的结果如何,还有待进一步观察。