版权数据(Copyrighted Data / IP Assets)
拥有大规模优质文本、图像、音视频等版权内容的企业,为大模型训练提供高质量原始语料。随着数据版权意识觉醒和监管趋严,合法授权的版权数据成为稀缺资源。
定义
具有明确版权归属、可通过授权合规使用的训练数据。区别于公开网络爬取的"灰色数据"。
为什么在 AI 时代崛起
- 版权诉讼频发:纽约时报诉 OpenAI、Getty 诉 Stability AI、唱片公司诉 Suno 等
- 政策收紧:EU AI Act 要求训练数据合规来源公开
- 数据资产化 — 拥有大规模合规数据的公司,议价权快速提升
标志性事件
- 2024:2024-Reddit与Google数据授权协议,$6000 万/年 — 标杆事件
- 2024:Getty Images 与 NVIDIA 合作 Generative AI by Getty
- 2024:Shutterstock 与 Meta / NVIDIA / OpenAI 多家签数据授权
- 2024:阅文集团 向多家中文大模型公司授权
- 2024:视觉中国 推出 AI 训练数据授权业务
主要玩家
国际
- 文本 UGC:Reddit(社区)
- 图片视频:Getty Images / Shutterstock
- 新闻:纽约时报、AP、Axel Springer、Wall Street Journal(多与 OpenAI 等签约或诉讼)
- 学术:Elsevier、Wiley、Springer Nature(学术出版商)
- 音乐:环球、华纳、索尼(与 Suno、Udio 诉讼)
中国
商业模式
- 数据授权年费(典型:Reddit $6000 万/年)
- 数据集买断(一次性)
- 按使用量分成(与生成式 AI 产品共享收入,类似 Spotify 模式)
- 合规 AI 工具联合开发(Getty + NVIDIA / Shutterstock + NVIDIA)
与 AI 产业链的张力
- AI 公司:希望低价 / 免费获取尽可能多数据
- 版权方:希望最大化授权收入
- 诉讼是议价工具:纽约时报诉 OpenAI 推动 OpenAI 与多家出版商签约
- 合成数据是博弈杠杆:版权方议价过高,AI 公司会转向 合成数据
相关概念
∈ belongs_to::4-01-数据引擎