超17万个视频！NVIDIA、苹果等巨头被曝违规用数据训练AI-新书

据媒体报道，新书7月17日消息，包括NVIDIA、许多科技巨头，包括苹果、Salesforce和Anthropic，都被曝光涉嫌非法使用数据来训练其AI模型。

这些公司被发现使用了173536多个YouTube视频的字幕数据，而这些数据的获取并未经视频创作者许可。

这些公司使用的数据集名称为“YouTube Subtitles”，该数据集由非营利组织Eleuther人工智能创建，包含来自4.8万多个频道的视频文本。

有许多著名的教育机构和媒体公司，如可汗学院、麻省理工学院、哈佛大学等。此外，一些流行的YouTube创作者，如Mrbeast，也包括在内。

此前，EleutherAI发布了名为《EleutherAI》“Pile”大部分数据集都对公众开放，包括YouTube Subtitles。

但值得注意的是，苹果在使用Pile数据集训练OpenELM模型时并没有直接下载数据，因此在技术层面上，Eleuther人工智能违反了YouTube的使用条款。

YouTube明确禁止未经授权从平台获取材料。同时，这些数据不仅用于人工智能的培训，还可能涉及版权和隐私。

创作者们也对此感到震惊和不满，因为他们没有被告知他们的作品被用于商业目的，更不用说得到任何补偿了。

超17万个视频！NVIDIA、苹果等巨头被曝违规用数据训练AI

[本文结尾]如需转载，请务必注明出处：新书

责任编辑：黑白

文章内容报告

超17万个视频！NVIDIA、苹果等巨头被曝违规用数据训练AI