美AI巨头被控秘密“侵吞”数据
人工智能(AI)迅速发展离不开对模型的侵吞训练。然而,美A密数高质量数据短缺以及部分领域封闭式的巨据数据生态似乎成为AI发展的掣肘。 据多家外媒报道,头被OpenAI、控秘谷歌和Meta等公司正寻求在线信息来训练最新的侵吞AI系统。但他们无视既定政策,美A密数蓄意改变规则,巨据并试图规避版权法。头被 收集数据“走捷径” 英国《泰晤士报》近日刊文指出,控秘科技巨头一直在“走捷径”为其AI系统收集训练数据。侵吞OpenAI开发了一款名为Whisper的美A密数语音识别工具,可将YouTube视频中的巨据音频文件转录为纯文本文档,从而创建一个口语对话数据源,头被帮助训练其下一代基于文本的控秘GPT-4算法。 美国《商业内幕》网报道称,YouTube在其官网明令禁止“独立”于其之外的应用程序使用其视频内容。而OpenAI的数据并非意外收集的。 实际上,OpenAI员工知道这样做会涉足法律灰色地带。OpenAI总裁格雷格·布罗克曼甚至亲自参与了所使用视频的收集。但OpenAI依然认为这是合理的,最终获得了超过100万小时的转录视频。 最大的谜团在于,OpenAI如何访问足够多的YouTube视频来完成这项工作。 当OpenAI首席技术官米拉·穆拉蒂被问及该公司是否使用YouTube视频来训练Sora时,她表示并不确定。当再次被问及训练数据的来源时,她表示不会透露细节。 《纽约时报》称,与OpenAI一样,谷歌也转录了YouTube视频,为其AI模型收集文本,这可能侵犯了视频创作者的版权。去年,谷歌还更改了其服务条款。此番动机意图明显,即允许AI对来自谷歌文档中公开可用文档的数据以及上传到谷歌地图的餐馆评论等其他材料进行训练。 面临“数据瓶颈” 对于科技公司来说,庞大的数据“肥料”是生成式AI的核心养分,也是大模型发展的必争之地。唯有足够的数据才能指导技术即时生成与人类创作相似的文本、图像、声音和视频,实现系统创新。 但随着AI发展,现有互联网信息量的不足、高质量文本数据的匮乏以及科技巨头优质数据的垄断,都可能导致AI“养分不足”。即便谷歌和Meta拥有数十亿用户,每天都会产生搜索查询和社交媒体帖子,但这些数据在很大程度上受到隐私法和自身政策的限制,无法让AI利用这些内容。 这些科技公司的处境似乎十分窘迫。据人工智能研究机构Epoch称,科技公司最快将于2026年耗尽互联网上的高质量数据。这些公司使用数据的速度超过了产生数据的速度。 Meta同样也遇到了训练数据可用性限制。该公司打算采取一些措施,例如支付图书许可费用,甚至直接收购一家大型出版商。Meta也曾作出以隐私为中心的变革,因此它使用消费者数据的方式显然也受到了限制。 在人类数据告急的情况下,不少公司甚至试图用AI“喂”AI。包括微软、OpenAI在内的公司正在把大模型生成的结果,也就是所谓的“合成数据”,“喂”给参数更小的模型。但有研究认为,合成数据最终将让AI“自食其果”。 因版权被多方状告 《纽约时报》去年起诉OpenAI和微软,称其在未经许可的情况下使用受版权保护的新闻文章来训练AI聊天机器人。OpenAI和微软回应称,这属于“合理使用”,或者说是版权法允许的,因为他们为了不同的目的而改造了这些作品。 去年,超过1万个贸易团体、作者、公司和其他人士向美国版权局提交了有关AI模型使用创意作品的意见。 生成式AI的迅速兴起引发了一场全球性的高质量数据竞赛。然而,在这个新领域中,关于什么是合法的、道德的,没有明确规定。 《商业内幕》网称,目前,谷歌、OpenAI和其他科技公司正在辩解,认为将受版权保护的内容用于AI模型训练是合法的,但监管机构及法院尚未对此作出裁决。 美国电影制作人、前演员及作家贾斯汀·贝特曼告诉版权局,AI模型在未经许可或付费的情况下获取了其作品内容。她称,“这是美国最大的盗窃案”。
- 最近发表
-
- 黄金卖场“国潮”金饰热卖 90后成春节黄金主力买手
- 公司收掉後的自我檢討:創業不該是夢想,而是一個深思熟慮的選擇
- Netflix有史以來最成功影集《魷魚遊戲》累積觀看達1.3億,財報年淨利爆增83%
- 朱立倫力挺顏寬恒、蕭景田,目的就是重建國民黨與地方派系的「恩庇扈從體制」
- 龙蟠南苑社区扎实推进廉政文化建设_
- 足球賽開幕竟需50名學生抬轎遊行?泰國朱大學生會主張取消「傳統」 引批評
- 吃遍東京新宿區名店全攻略(五):無論與啤酒或白飯都是天作之合的「骨付鳥」
- 戰勝「年齡歧視」的六個方法:成為「職場八爪魚」,與其焦慮不如及早規劃
- 查获有质量问题吊扇灯314台!上海开展集中执法行动
- 中國媒體管控頻頻「亮劍」,但社會早已習慣這一本正經的荒誕
- 随机阅读
-
- 强调“零容忍” 教育部开展中小学有偿补课专项整治
- 《好電影的法則》:觀眾走進電影院為了娛樂,但別過度濫用觀眾的好意
- 新二代談認同:越南帶給我許多美好經驗,我想將它的美介紹給你們
- 【韓劇】《海岸村恰恰恰》:托爾斯泰的劇情隱喻,「愛」真的能克服一切嗎?
- 九龙水库先期建设征地 移民搬迁工作完成
- 越南主播昔帶女兒赴台換肝,如今再度來台成台大研究生
- 公司收掉後的自我檢討:創業不該是夢想,而是一個深思熟慮的選擇
- 科學證實網軍手法有用,人類大腦就是容易被「農場文」與假資訊吸引
- 一测多评法测定羊肚菌中17种氨基酸的含量(二)
- 【專訪】看童話學科學:朱慶琪告訴你《愛麗絲夢遊仙境》藏了哪些科學彩蛋?
- 陳柏惟罷免投票前夕:台灣民主轉骨湯 vs. 歡送3Q之夜,投票率將成勝負關鍵
- 《進擊的行為科學》:城市中充滿了荷馬——「潛意識聯想」如何影響我們的購買方式?
- 你孩子身高“达标”了吗?想让孩子长高父母该怎样做?
- 劉再復《文學四十講》:文學走向「慧能」,而不是走向「尼采」,這是我自己獨特的一個表述
- 《十七歲的獠牙》:一個親切而又冷漠的人死了,願她安息,阿嬤
- 解惑:我們買「綠電」的時候,會同時買到「碳權」嗎?
- 重庆机车惨祸中,那位“穿黑丝的妹妹”丨记者手记
- 《改變世界的九大演算法》:公鑰加密——用明信片寄祕密,用共同祕密來加密
- 【關鍵專訪】《老鷹之手》導演、監製:一雙雙變形怪手,是藕農辛勤耕作一輩子的印記
- 《擁抱生命的不完美》:對肌萎縮症病友而言,考上醫學院是一個「慘敗的開始」
- 搜索
-
- 友情链接
-