美國(guó)爆發(fā)“數(shù)據(jù)起義”:好萊塢文學(xué)界新聞界和社交媒體反抗AI
·美國(guó)圣克拉拉大學(xué)法學(xué)院教授埃里克·戈德曼認(rèn)為,訴訟浪潮才剛剛開(kāi)始,“第二波和第三波”即將到來(lái),而這將定義人工智能的未來(lái)。
·人工智能公司辯解稱,使用受版權(quán)保護(hù)的作品來(lái)培訓(xùn)人工智能是合理的——這參考了美國(guó)版權(quán)法中“轉(zhuǎn)換性使用”的概念,如果材料以一種“變革性”的方式改變,就會(huì)創(chuàng)造一個(gè)例外。
美國(guó)正在爆發(fā)一場(chǎng)“數(shù)據(jù)起義”,好萊塢、藝術(shù)家、作家、社交媒體公司和新聞機(jī)構(gòu)都是反抗者。
一切的矛頭都指向ChatGPT和Stable Diffusion等生成式人工智能工具,它們被指在未經(jīng)許可或提供補(bǔ)償?shù)那疤嵯拢欠ɡ脙?nèi)容創(chuàng)作者的作品訓(xùn)練大型語(yǔ)言模型。
這場(chǎng)“數(shù)據(jù)起義”的核心是一種新的認(rèn)識(shí),即在線信息——故事、藝術(shù)品、新聞文章、網(wǎng)絡(luò)帖子和照片可能具有重要的未開(kāi)發(fā)價(jià)值。在互聯(lián)網(wǎng)上抓取公開(kāi)內(nèi)容的做法由來(lái)已久,大多數(shù)采取這種做法的公司和非營(yíng)利組織都會(huì)公開(kāi)披露。但在ChatGPT發(fā)布之前,數(shù)據(jù)所有者對(duì)此并不太了解,也不認(rèn)為這是一個(gè)特別嚴(yán)重的問(wèn)題?,F(xiàn)在,當(dāng)公眾了解了更多關(guān)于AI訓(xùn)練的基礎(chǔ)知識(shí)后,這種情況發(fā)生了變化。
“這是數(shù)據(jù)價(jià)值的根本性重塑?!盢omic公司的創(chuàng)始人兼首席執(zhí)行官布蘭登·杜德斯塔特(Brandon Duderstadt)在接受媒體采訪時(shí)說(shuō),“以前,人們通過(guò)讓所有人都能訪問(wèn)數(shù)據(jù)并投放廣告來(lái)獲得數(shù)據(jù)價(jià)值。而現(xiàn)在,人們認(rèn)為要保護(hù)好自己的數(shù)據(jù)?!?/p>
浪潮迭起
最近幾個(gè)月,Reddit和推特等社交媒體公司、《紐約時(shí)報(bào)》和美國(guó)全國(guó)廣播公司(NBC)等新聞機(jī)構(gòu)、科幻作家保羅·特倫布雷(Paul Tremblay)和女演員莎拉·西爾弗曼(Sarah Silverman)等紛紛發(fā)采取行動(dòng),反對(duì)他們的作品和數(shù)據(jù)被人工智能擅自收集。這一系列舉動(dòng)被美國(guó)媒體稱為“數(shù)據(jù)起義(Data Revolt)”。
上周,西爾弗曼向OpenAI和Meta公司提起訴訟,指控他們?cè)谟?xùn)練數(shù)據(jù)時(shí)使用其著作的盜版內(nèi)容,因?yàn)檫@兩家公司的聊天機(jī)器人可以準(zhǔn)確地總結(jié)其書(shū)中的內(nèi)容。此外,包括喬迪·皮科特(Jodi Picoult)、瑪格麗特·阿特伍德(Margaret Atwood)和阮越清(Viet Thanh Nguyen)在內(nèi)的5000多名作家簽署了一份請(qǐng)?jiān)笗?shū),要求科技公司在使用他們的書(shū)作為訓(xùn)練數(shù)據(jù)時(shí),要征得他們的許可,并給予他們署名和補(bǔ)償。
為了保護(hù)自己的作品,作家和藝術(shù)家們采取了不同的抗議方式。有的選擇鎖定作品,不讓人工智能獲?。挥械倪x擇抵制發(fā)布人工智能生成內(nèi)容的網(wǎng)站;有的則選擇編寫(xiě)一些顛覆性的內(nèi)容,來(lái)干擾人工智能的學(xué)習(xí)。
7月13日,擁有16萬(wàn)會(huì)員的好萊塢三大工會(huì)之一SAG-AFTRA宣布罷工,在此之前,美國(guó)編劇工會(huì)已經(jīng)罷工70多天。《紐約時(shí)報(bào)》稱,這次大罷工使價(jià)值1340億美元的美國(guó)影視業(yè)陷入停頓,SAG-AFTRA工會(huì)要求流媒體巨頭為他們提供更公平的利潤(rùn)分配和更好的工作條件,并要求制片公司保證不會(huì)以AI和電腦生成面孔和聲音來(lái)替代演員。
與此同時(shí),一些新聞機(jī)構(gòu)也在抵制人工智能。6月,在關(guān)于使用生成型人工智能的內(nèi)部備忘錄中,《紐約時(shí)報(bào)》表示,“人工智能公司應(yīng)該尊重我們的知識(shí)產(chǎn)權(quán)?!蓖拢诖碓诰€出版商利益的貿(mào)易組織Digital Content Next發(fā)布的一份聲明中,《紐約時(shí)報(bào)》和《華盛頓郵報(bào)》等在線出版商認(rèn)為,使用受版權(quán)保護(hù)的新聞文章作為人工智能的訓(xùn)練數(shù)據(jù)具有潛在風(fēng)險(xiǎn)和法律問(wèn)題,它們呼吁人工智能公司尊重出版商的知識(shí)產(chǎn)權(quán)和創(chuàng)作勞動(dòng)。
社交媒體公司也紛紛表明立場(chǎng)。今年4月,社交新聞網(wǎng)站Reddit表示,它希望對(duì)訪問(wèn)其應(yīng)用程序編程接口(API)的第三方收費(fèi)。Reddit首席執(zhí)行官史蒂夫·霍夫曼(Steve Hoffman)表示,他的公司“不需要把所有價(jià)值都免費(fèi)提供給世界上最大的一些公司?!?月,推特所有者埃隆·馬斯克(Elon Musk)也表示,一些公司和組織“非法”大量抓取推特的數(shù)據(jù),為了應(yīng)對(duì)“極端的數(shù)據(jù)抓取和系統(tǒng)操縱”,推特決定限制個(gè)人賬戶可以查看的推文數(shù)量。
這場(chǎng)“數(shù)據(jù)起義”也包括“訴訟浪潮”,一些人工智能公司由于數(shù)據(jù)隱私問(wèn)題受到多次起訴。去年11月,一群程序員對(duì)微軟和OpenAI發(fā)起集體訴訟,稱這兩家公司使用其代碼訓(xùn)練人工智能編程助手,侵犯了他們的版權(quán)。今年6月,總部位于洛杉磯的克拉克森律師事務(wù)所向OpenAI和微軟發(fā)起起訴書(shū)長(zhǎng)達(dá)151頁(yè)的集體訴訟,指出OpenAI如何從未成年人那里收集數(shù)據(jù),并稱網(wǎng)絡(luò)抓取侵犯了版權(quán)法,構(gòu)成了“盜竊”。此后,該事務(wù)所又對(duì)谷歌提起了類似的訴訟。
美國(guó)圣克拉拉大學(xué)法學(xué)院教授埃里克·戈德曼(Eric Goldman)在接受媒體采訪時(shí)說(shuō),這起訴訟的論點(diǎn)過(guò)于寬泛,不太可能被法院接受。但他認(rèn)為,訴訟浪潮才剛剛開(kāi)始,“第二波和第三波”即將到來(lái),而這將定義人工智能的未來(lái)。
法律爭(zhēng)議
OpenAI的ChatGPT和Dall-E、谷歌的Bard、Stability AI的Stable Diffusion等生成式AI都是基于從互聯(lián)網(wǎng)上抓取的海量新聞文章、書(shū)籍、圖片、視頻和博客文章進(jìn)行訓(xùn)練的,其中很多公開(kāi)內(nèi)容都受版權(quán)保護(hù)。
今年3月,OpenAI發(fā)布了一份對(duì)該機(jī)構(gòu)主要語(yǔ)言模型的分析報(bào)告,顯示訓(xùn)練數(shù)據(jù)的文本部分使用了來(lái)自新聞網(wǎng)站、維基百科和一個(gè)盜版書(shū)籍?dāng)?shù)據(jù)庫(kù)(LibGen)的數(shù)據(jù),目前,該盜版書(shū)籍?dāng)?shù)據(jù)庫(kù)已被美國(guó)司法部查封。
7月13日,美國(guó)聯(lián)邦貿(mào)易委員會(huì)(FTC)向OpenAI發(fā)送了一份20頁(yè)的文件,要求OpenAI提供有關(guān)其人工智能模型的風(fēng)險(xiǎn)管理、數(shù)據(jù)安全和信息審核的記錄,以調(diào)查其是否侵犯了消費(fèi)者權(quán)利。
但在公開(kāi)露面和對(duì)訴訟的回應(yīng)中,人工智能公司辯解稱,使用受版權(quán)保護(hù)的作品來(lái)培訓(xùn)人工智能是合理的——這參考了美國(guó)版權(quán)法中“轉(zhuǎn)換性使用”的概念,如果材料以一種“變革性”的方式改變,就會(huì)創(chuàng)造一個(gè)例外。
“人工智能模型基本上是在從所有的信息中學(xué)習(xí)。這就像一個(gè)學(xué)生在圖書(shū)館讀書(shū),然后學(xué)習(xí)如何寫(xiě)作和閱讀?!惫雀枞蚴聞?wù)總裁肯特·沃克(Kent Walker)在一次采訪中說(shuō),“與此同時(shí),你必須確保沒(méi)有復(fù)制別人的作品,也沒(méi)有做一些侵犯版權(quán)的事情?!?/p>
谷歌的總法律顧問(wèn)哈利瑪·德萊恩·普拉多(Halimah DeLaine Prado)向媒體表示:“多年來(lái),所有人都很清楚,我們會(huì)使用來(lái)自公共來(lái)源的數(shù)據(jù)——比如發(fā)布到開(kāi)放網(wǎng)絡(luò)和公共數(shù)據(jù)集的信息,來(lái)訓(xùn)練谷歌翻譯等服務(wù)背后的人工智能模型?!彼赋?,“美國(guó)法律支持利用公共信息來(lái)創(chuàng)造新的有益用途,我們期待著駁斥這些毫無(wú)根據(jù)的說(shuō)法。”
邁阿密大學(xué)研究知識(shí)產(chǎn)權(quán)法的教授安德烈斯·索維基(Andres Sawicki)在接受采訪時(shí)說(shuō),有一些可能有利于科技公司的先例,比如1992年美國(guó)上訴法院的裁決,允許公司對(duì)其他公司的軟件代碼進(jìn)行逆向工程來(lái)設(shè)計(jì)競(jìng)爭(zhēng)產(chǎn)品。但許多人表示,對(duì)于大型公司利用創(chuàng)造者的工作來(lái)制造新的賺錢工具,直覺(jué)上這是不公平的?!瓣P(guān)于生成式人工智能的問(wèn)題真的很難給出答案。”他說(shuō)。
邁阿密大學(xué)版權(quán)法教授杰西卡·D·利特曼·索維基(Jessica D. Litman Sawicki)表示,合理使用原則(Fair use)是對(duì)人工智能公司的一種有力辯護(hù),因?yàn)槿斯ぶ悄苣P偷拇蠖鄶?shù)輸出內(nèi)容并不明確地類似于某個(gè)特定人類的作品。但她認(rèn)為,如果起訴人工智能公司的創(chuàng)作者能夠展示足夠多與他們作品非常相似的人工智能輸出的例子,他們就會(huì)有充分的理由認(rèn)為,他們的版權(quán)正在受到侵犯。
人工智能公司開(kāi)始應(yīng)對(duì)
索維基表示,人工智能公司可以通過(guò)在產(chǎn)品中安裝過(guò)濾器(filters)來(lái)避免這種情況,以確保它們不會(huì)生成任何與現(xiàn)有作品太相似的內(nèi)容。例如,視頻網(wǎng)站YouTube已經(jīng)使用相關(guān)技術(shù),檢測(cè)并自動(dòng)刪除上傳到其網(wǎng)站的受版權(quán)保護(hù)的作品。從理論上講,人工智能公司也可以建立算法,發(fā)現(xiàn)與現(xiàn)有藝術(shù)、音樂(lè)或?qū)懽髯髌犯叨认嗨频妮敵觥?/p>
這場(chǎng)“數(shù)據(jù)起義”從長(zhǎng)期來(lái)看可能無(wú)法掀起波瀾。像谷歌和微軟這樣的科技巨頭已經(jīng)擁有了海量的專有數(shù)據(jù),并且有能力獲取更多數(shù)據(jù)。但是,隨著內(nèi)容獲取變得越來(lái)越困難,人工智能的規(guī)模也在縮小。那些想要與大公司抗衡的新興企業(yè)和非營(yíng)利機(jī)構(gòu)可能無(wú)法得到足夠的數(shù)據(jù)來(lái)訓(xùn)練他們的系統(tǒng)。
就在7月初,加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)教授、《人工智能——現(xiàn)代方法》作者斯圖爾特·羅素(Stuart Russell)發(fā)出警告稱,ChatGPT等人工智能驅(qū)動(dòng)的機(jī)器人可能很快就會(huì)“耗盡宇宙中的文本”,通過(guò)收集大量文本來(lái)訓(xùn)練機(jī)器人的技術(shù)“開(kāi)始遇到困難”。
一些公司也正在以合作態(tài)度應(yīng)對(duì)這股浪潮。OpenAI在一份聲明中表示,“我們尊重創(chuàng)意人員和作者的權(quán)利,并期待繼續(xù)與他們合作,以保護(hù)他們的利益。”7月14日,美聯(lián)社同意將1985年以后的新聞報(bào)道檔案授權(quán)給OpenAI,同時(shí)也將利用OpenAI的技術(shù)和產(chǎn)品。
谷歌也在一份聲明中表示,它參與了關(guān)于出版商未來(lái)如何管理其內(nèi)容的談判。該公司表示:“我們相信,每個(gè)人都能從一個(gè)充滿活力的內(nèi)容生態(tài)系統(tǒng)中受益?!?/p>
人工智能公司HuggingFace的首席倫理科學(xué)家瑪格麗特·米切爾(Margaret Mitchell)在接受媒體采訪時(shí)表示,“整個(gè)數(shù)據(jù)收集系統(tǒng)都需要改變,不幸的是,它需要通過(guò)訴訟來(lái)實(shí)現(xiàn),但這往往是推動(dòng)科技公司進(jìn)行改變的方式。”她說(shuō),如果OpenAI因?yàn)樵V訟或新規(guī)定而在年底前完全下架其中一款產(chǎn)品,她不會(huì)感到驚訝。
實(shí)習(xí)生 陳曉銳 澎湃新聞?dòng)浾?方曉
版權(quán)聲明:凡注明“來(lái)源:中國(guó)西藏網(wǎng)”或“中國(guó)西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來(lái)源中國(guó)西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。
- 實(shí)證中國(guó)百萬(wàn)年人類演化史 周口店北京人遺址新發(fā)現(xiàn)古人類頂骨化石
- 存量房貸利息要降?多家銀行客服回應(yīng)
- 《長(zhǎng)安三萬(wàn)里》,是不是暑期檔黑馬?
- 烏媒:俄軍使用無(wú)人機(jī)襲擊敖德薩
- 教育部:加快推進(jìn)現(xiàn)代職業(yè)教育體系建設(shè)改革
- 美國(guó)爆發(fā)“數(shù)據(jù)起義”:好萊塢文學(xué)界新聞界和社交媒體反抗AI
- 引漢濟(jì)渭工程實(shí)現(xiàn)先期通水
- 美國(guó)東北部遭遇強(qiáng)風(fēng)暴 千余架次航班被取消
- 2023年海峽兩岸“和平小天使”交流活動(dòng)啟幕
- 中新人物|蔡磊,一個(gè)漸凍癥患者的“向死而生”