据媒体报道,新书7月17日消息,包括NVIDIA、许多科技巨头,包括苹果、Salesforce和Anthropic,都被曝光涉嫌非法使用数据来训练其AI模型。
这些公司被发现使用了173536多个YouTube视频的字幕数据,而这些数据的获取并未经视频创作者许可。
这些公司使用的数据集名称为“YouTube Subtitles”,该数据集由非营利组织Eleuther人工智能创建,包含来自4.8万多个频道的视频文本。
有许多著名的教育机构和媒体公司,如可汗学院、麻省理工学院、哈佛大学等。此外,一些流行的YouTube创作者,如Mrbeast,也包括在内。
此前,EleutherAI发布了名为《EleutherAI》“Pile”大部分数据集都对公众开放,包括YouTube Subtitles。
但值得注意的是,苹果在使用Pile数据集训练OpenELM模型时并没有直接下载数据,因此在技术层面上,Eleuther人工智能违反了YouTube的使用条款。
YouTube明确禁止未经授权从平台获取材料。同时,这些数据不仅用于人工智能的培训,还可能涉及版权和隐私。
创作者们也对此感到震惊和不满,因为他们没有被告知他们的作品被用于商业目的,更不用说得到任何补偿了。
[本文结尾]如需转载,请务必注明出处:新书
责任编辑:黑白
文章内容报告
还没有评论,来说两句吧...