國(guó)產(chǎn)大模型“諸神之戰(zhàn)”出路何方
1956年,達(dá)特茅斯學(xué)院的一場(chǎng)會(huì)議上,參會(huì)者熱烈地討論:如何開發(fā)出像人類一樣能從經(jīng)驗(yàn)中自主學(xué)習(xí)的計(jì)算機(jī)系統(tǒng)。這場(chǎng)會(huì)議被后人視為打響了人工智能研發(fā)的第一槍。
60余年后,美國(guó)OpenAI公司八年磨一劍的人工智能大模型ChatGPT3橫空出世,人們爭(zhēng)相在社交媒體展示它那令人吃驚的能力,ChatGPT4更是“所向披靡”:作詩(shī)、寫文案已不在話下,它甚至有了邏輯推理能力,還能自我糾錯(cuò)。那場(chǎng)著名會(huì)議的答案似乎已不言自明。
前不久,在2023中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,AI(人工智能)、大模型、ChatGPT、元宇宙等關(guān)鍵詞頻頻出現(xiàn)。在以“人工智能”為主題的會(huì)場(chǎng),人頭攢動(dòng),聽會(huì)的人從會(huì)場(chǎng)內(nèi)排到了會(huì)議室門口,還不斷有新來(lái)的人擠進(jìn)來(lái)。
在不同的會(huì)場(chǎng)和論壇上,來(lái)自不同領(lǐng)域的人們似乎都聚焦一個(gè)興趣點(diǎn),他們?cè)噲D搞明白人工智能會(huì)對(duì)未來(lái)行業(yè)帶來(lái)哪些顛覆性的變革,國(guó)產(chǎn)大模型之路應(yīng)該如何走,還有什么基礎(chǔ)工作要做。
想解決實(shí)際問題,大模型還要“念個(gè)博士”
孫茂松讓ChatGPT找出《阿房宮賦》中描寫阿房宮的句子,令他驚訝的是,它竟然一字不漏地找出來(lái)了。
孫茂松是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授,也是該校人工智能研究院常務(wù)副院長(zhǎng),他研究自然語(yǔ)言處理,跟ChatGPT“專業(yè)對(duì)口”。在演講中,他多次感嘆:“它確實(shí)厲害!”
考完文字功夫,孫茂松又問ChatGPT,如何根據(jù)《阿房宮賦》繪制阿房宮的圖景。ChatGPT像寫劇本一樣分了5個(gè)場(chǎng)景:阿房宮的宏偉壯觀、阿房宮建筑風(fēng)格、水景與橋梁、春光與武殿、迷宮般的宮殿布局。
今年以來(lái),ChatGPT的博學(xué)已經(jīng)廣為人知,但美國(guó)國(guó)家工程院院士、東方理工高等研究院常務(wù)副院長(zhǎng)張東曉認(rèn)為:“大模型有很強(qiáng)的能力,很博學(xué),相當(dāng)于中小學(xué)生。要解決實(shí)際問題,還要上大學(xué),還要念一個(gè)專業(yè)、念一個(gè)博士,或是成為那個(gè)領(lǐng)域的工程師?!?/p>
過(guò)去這段時(shí)間,ChatGPT所屬公司OpenAI已與科技、教育、金融等行業(yè)的數(shù)百家公司或組織開展合作。
孫茂松認(rèn)為:“(大模型)可以重塑一個(gè)產(chǎn)業(yè),也能夠重塑產(chǎn)業(yè)的生態(tài)?!?/p>
他舉了個(gè)例子:有人想訂家酒店,要求價(jià)格別太貴,最好離王府井近一點(diǎn),而且要安靜一些。面對(duì)用戶的種種要求,以前要做到這一點(diǎn)很費(fèi)勁,秘書可能要花兩個(gè)小時(shí)才能找到這么一家酒店。而人工智能大模型會(huì)跟用戶學(xué)習(xí)訂酒店的習(xí)慣,效率大幅提高。
中國(guó)產(chǎn)學(xué)研合作促進(jìn)會(huì)會(huì)長(zhǎng)王建華說(shuō):“在人工智能影像醫(yī)學(xué)這個(gè)領(lǐng)域,我們把全國(guó)醫(yī)院的放射科和一些影像醫(yī)學(xué)相關(guān)的企業(yè)進(jìn)行融合,解決看片子完全靠人去看(的問題)。通過(guò)人工智能的話,精準(zhǔn)度比較高,而且它不疲勞。”
王建華注意到,現(xiàn)在有很多智能產(chǎn)品,比如可以通過(guò)大數(shù)據(jù)的對(duì)比,測(cè)定人體糖代謝水平。他認(rèn)為,人工智能會(huì)影響到整個(gè)醫(yī)學(xué)領(lǐng)域的創(chuàng)新和發(fā)展。
醫(yī)渡科技有限公司創(chuàng)始人徐濟(jì)銘更期待的是,人工智能能夠加速新藥研發(fā)。
新藥研發(fā)是個(gè)漫長(zhǎng)的試錯(cuò)過(guò)程,從細(xì)胞實(shí)驗(yàn),到動(dòng)物實(shí)驗(yàn),再到一、二、三期臨床試驗(yàn),從實(shí)驗(yàn)室研究到上市可能需要10年、花費(fèi)10億美元——這被稱為新藥研發(fā)領(lǐng)域的“雙十定律”。近年,輝瑞、阿斯利康等知名藥企開始在新藥研發(fā)領(lǐng)域引入人工智能,希望提高成功率、降低成本。徐濟(jì)銘設(shè)想,通過(guò)人體多模態(tài)的數(shù)據(jù)構(gòu)建一個(gè)模型,模擬人體器官的運(yùn)作,在臨床實(shí)驗(yàn)之前先通過(guò)這些系統(tǒng)模型做實(shí)驗(yàn),AI可以由此造福人類。
在京東探索研究院資深算法科學(xué)家薛超看來(lái),大模型就是未來(lái)的操作系統(tǒng),它向上提供應(yīng)用程序接口(API),向下可以兼容各種各樣的硬件。比如,一個(gè)餐館想要建立一個(gè)送餐機(jī)器人或者對(duì)話機(jī)器人,店主把餐館的菜單輸進(jìn)大模型,這樣就可以快速建立起功能機(jī)器人。
“AI未來(lái)會(huì)越來(lái)越平民化,越來(lái)越低門檻化,可以通過(guò)自然語(yǔ)言來(lái)控制它的整個(gè)交互?!毖Τf(shuō)。
研發(fā)大模型,提高數(shù)據(jù)“喂養(yǎng)”質(zhì)量很關(guān)鍵
本屆數(shù)博會(huì)上,知乎聯(lián)合面壁智能發(fā)布了對(duì)話類模型產(chǎn)品“面壁露卡”。發(fā)布會(huì)上,主持人請(qǐng)它規(guī)劃在貴州四天三夜的旅游路線。在“露卡”規(guī)劃的旅游方案中,游客每天晚上都要從景點(diǎn)所在地返回出發(fā)點(diǎn)貴陽(yáng),第二天再出發(fā)前往下一個(gè)市州。路線略顯冗長(zhǎng),好在覆蓋了較為知名的景點(diǎn)和特色小吃。
上海交通大學(xué)人工智能研究院常務(wù)副院長(zhǎng)楊小康稱,國(guó)內(nèi)的大模型研發(fā)可謂是“真正的諸神之戰(zhàn)”,“據(jù)說(shuō)有70幾個(gè)大模型,甚至上百個(gè)大模型在研發(fā)”。他認(rèn)為,研究大模型非常耗能,需要有序引導(dǎo),形成合力。
貴安新區(qū)科創(chuàng)產(chǎn)業(yè)發(fā)展公司常務(wù)副總經(jīng)理鄧周灰提到“鐵三角”理論:大模型是“大數(shù)據(jù)+大算力+強(qiáng)算法”結(jié)合的產(chǎn)物。他認(rèn)為:“當(dāng)前數(shù)據(jù)質(zhì)量是一個(gè)比較堪憂的問題,國(guó)外進(jìn)行大模型訓(xùn)練的時(shí)候,有很多不錯(cuò)的文獻(xiàn),還有一些科技文獻(xiàn),所以模型訓(xùn)練出來(lái)的智能化水平很高。但是我們現(xiàn)在在大模型訓(xùn)練的時(shí)候,大部分(語(yǔ)料)來(lái)自互聯(lián)網(wǎng),所以質(zhì)量就不是特別理想。”
古人常說(shuō),兵馬未動(dòng),糧草先行。在人工智能時(shí)代,數(shù)據(jù)正是“喂養(yǎng)”大模型的糧草。而在目前,“糧草”供應(yīng)還存在大量現(xiàn)實(shí)困難。
晶泰智藥技術(shù)(上海)有限公司副總裁王明泰說(shuō),數(shù)據(jù)需要標(biāo)注和清洗,但醫(yī)藥研發(fā)領(lǐng)域有大量數(shù)據(jù)無(wú)法標(biāo)注。王明泰表示,蛋白質(zhì)序列可達(dá)到十億級(jí)以上,但目前能夠找到的蛋白質(zhì)功能數(shù)據(jù)少之又少,“中間有巨大的差距”。
他還表示:“現(xiàn)在的數(shù)據(jù)主要是靠人做實(shí)驗(yàn),然后提取錄入系統(tǒng),再‘喂’給機(jī)器學(xué)習(xí)。目前我們保守估計(jì),中國(guó)可能有超過(guò)20萬(wàn)人在為全世界醫(yī)藥研發(fā)企業(yè)做實(shí)驗(yàn),這些人可能都是本科以上學(xué)歷,以后可能(招不來(lái))這么多人來(lái)做實(shí)驗(yàn)了?!边@意味著數(shù)據(jù)產(chǎn)生的成本極高,而要“喂養(yǎng)”大模型,“必須是廉價(jià)產(chǎn)生的數(shù)據(jù)”。
在數(shù)據(jù)的源頭,還存在標(biāo)準(zhǔn)不統(tǒng)一的問題。
達(dá)而觀信息科技(上海)有限公司首席戰(zhàn)略官劉江賢認(rèn)為,要注意梳理我們究竟需要什么樣的數(shù)據(jù)、怎樣才能產(chǎn)生高標(biāo)準(zhǔn)的數(shù)據(jù)。他認(rèn)為,首先要制訂數(shù)據(jù)產(chǎn)生的標(biāo)準(zhǔn)和流程,選準(zhǔn)產(chǎn)生大量有質(zhì)量、有價(jià)值數(shù)據(jù)的區(qū)域,“要制定標(biāo)準(zhǔn)化生產(chǎn)的流程,才能夠產(chǎn)生出我們想要的數(shù)據(jù)?!?/p>
在本屆數(shù)博會(huì)的多場(chǎng)論壇上,嘉賓們提到了數(shù)據(jù)流通、交易的問題。
2020年4月,《中共中央國(guó)務(wù)院關(guān)于構(gòu)建更加完善的要素市場(chǎng)化配置體制機(jī)制的意見》對(duì)外公布,將數(shù)據(jù)定義為繼土地、勞動(dòng)力、資本、技術(shù)之后的第五大生產(chǎn)要素。2022年6月,中央全面深化改革委員會(huì)第二十六次會(huì)議上審議通過(guò)了《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》,明確要建立數(shù)據(jù)產(chǎn)權(quán)制度、要建立合規(guī)高效的數(shù)據(jù)要素流通和交易制度、完善數(shù)據(jù)要素市場(chǎng)化配置機(jī)制。
北京雁棲湖應(yīng)用數(shù)學(xué)研究院研究員、清雁科技董事長(zhǎng)韓立巖接受中青報(bào)·中青網(wǎng)記者專訪時(shí)解釋說(shuō),數(shù)據(jù)成為生產(chǎn)要素、可以進(jìn)入資產(chǎn)負(fù)債表,意味著它是企業(yè)資產(chǎn)的一部分,可以成為質(zhì)押標(biāo)的、幫企業(yè)融資,更可以為企業(yè)增信。這對(duì)于輕資產(chǎn)的科創(chuàng)企業(yè)尤為重要。
廣州數(shù)據(jù)交易所總經(jīng)理魏東說(shuō),湛江一家水產(chǎn)公司在廣州數(shù)據(jù)交易所做了合規(guī)登記后,銀行給予它的授信額度不僅增加了數(shù)倍規(guī)模,花費(fèi)的時(shí)間也大為減少。
中國(guó)人工智能開源軟件發(fā)展聯(lián)盟副理事長(zhǎng)王健宗說(shuō),以前數(shù)據(jù)不是生產(chǎn)要素,在企業(yè)產(chǎn)生后也不受重視,“可能都作為廢品處理,有人要就拿走”?!艾F(xiàn)在(數(shù)據(jù))定義為生產(chǎn)要素,毫無(wú)疑問大家都重視起來(lái),一旦重視就是香餑餑了,共享和流通就存在了困難?!彼f(shuō)。
作為清華大學(xué)和北京雁棲湖應(yīng)用數(shù)學(xué)研究院聯(lián)合孵化的高科技公司,清雁科技正在建設(shè)“可信數(shù)據(jù)空間”,在這個(gè)虛擬空間里,他們努力讓數(shù)據(jù)“可用但不可見”,由此既能促進(jìn)數(shù)據(jù)資產(chǎn)的交易與共享,又能確保數(shù)據(jù)安全。
大模型產(chǎn)業(yè)之路,繞不開科技倫理和就業(yè)焦慮
上海山丘聯(lián)康健康管理有限公司創(chuàng)始人、董事長(zhǎng)顏艷春用充滿詩(shī)意的語(yǔ)言表達(dá)了他的期待:“在工業(yè)文明時(shí)代,我們發(fā)現(xiàn)人類變成了機(jī)器,我們每個(gè)工人變成了流水線上的螺絲釘。ChatGPT會(huì)帶來(lái)人類巨大的解放?!?/p>
他設(shè)想,人類也許不必“996”,“我們也許(每周工作)一天、兩天就夠了,因?yàn)橛幸粋€(gè)更龐大的‘新人類軍團(tuán)’正在面世?!?/p>
其實(shí),新人類軍團(tuán)的“先遣部隊(duì)”已經(jīng)面世數(shù)年。早在2018年,戴姆勒金融服務(wù)就展示了它的第一個(gè)數(shù)字銷售代表Sarah,她可以為人們計(jì)算買新款奔馳汽車的性價(jià)比,還可以為客戶選擇選裝套件。同年2月,英國(guó)蘇格蘭皇家銀行聘用了一位虛擬的客服機(jī)器人Cora,她了解客戶喜好,能一眼識(shí)別出客戶并叫出名字,一天能處理上千個(gè)問題,她還能從錯(cuò)誤中不斷學(xué)習(xí)。也是在2018年,瑞銀集團(tuán)宣布數(shù)字化“復(fù)制”了其首席經(jīng)濟(jì)學(xué)家,推出數(shù)字人……
顏艷春對(duì)于未來(lái)非常樂觀:“我們認(rèn)為,下一個(gè)50年,當(dāng)碳基和硅基生命共生共榮時(shí),每一個(gè)人都可能成為一個(gè)詩(shī)人,成為一個(gè)作家,成為一個(gè)導(dǎo)演,成為一個(gè)畫家。甚至人人都有可能成為老師、醫(yī)生和碼農(nóng)?!?/p>
他引用了泰戈?duì)栐凇讹w鳥集》中的一句詩(shī):信念是鳥,它在黎明仍然黑暗之際感覺到光明,唱出了歌。他說(shuō):“在當(dāng)今人類文明高度‘內(nèi)卷’的當(dāng)下,我認(rèn)為人工智能給我們帶來(lái)了這樣一場(chǎng)新的光明?!?/p>
一邊是高歌猛進(jìn)的人工智能技術(shù),一邊是技術(shù)擔(dān)憂論:人工智能首先帶來(lái)的,可能不是勞動(dòng)力的解放,而是失業(yè)的浪潮。
孫茂松提到,過(guò)去20多年,人工智能給一些企業(yè)創(chuàng)造了巨大的價(jià)值;它還能使知識(shí)工作者的工作效率大大提高,預(yù)期到2030年,它會(huì)使財(cái)會(huì)人員的效率提高一倍、讓程序員的編程效率提高兩倍。
“這對(duì)公司是好事,對(duì)個(gè)人不一定是好事。意味著財(cái)會(huì)人員要砍掉一半,意味著75%的程序員可能不需要了?!彼f(shuō)。而剩下的人,需要擁有更高的水平。
中青報(bào)·中青網(wǎng)記者 李雅娟 實(shí)習(xí)生 盧世龍 來(lái)源:中國(guó)青年報(bào)
版權(quán)聲明:凡注明“來(lái)源:中國(guó)西藏網(wǎng)”或“中國(guó)西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來(lái)源中國(guó)西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。
- 鄉(xiāng)村振興特色優(yōu)勢(shì)產(chǎn)業(yè)發(fā)展系列藍(lán)皮書發(fā)布
- 堅(jiān)決遏制私拆承重墻等違法違規(guī)行為
- 從“有沒有”向“好不好” 房地產(chǎn)業(yè)邁向品質(zhì)提升
- 人民視頻︱美麗松花江 魅力馬拉松 2023吉林市馬拉松激情開跑
- 人民視頻 | 吉林省暨長(zhǎng)春市2023“文化和自然遺產(chǎn)日”系列活動(dòng)啟動(dòng)
- 吉林長(zhǎng)春:細(xì)化巡察整改責(zé)任 掛圖作戰(zhàn)一盯到底
- 為新能源高質(zhì)量發(fā)展貢獻(xiàn)動(dòng)能
- 國(guó)家助學(xué)貸款累計(jì)發(fā)放超4000億元(新數(shù)據(jù) 新看點(diǎn))
- 職教視野:一群中職生發(fā)現(xiàn)“不同的自己”
- 產(chǎn)業(yè)集群涌現(xiàn),應(yīng)用領(lǐng)域拓寬——多地競(jìng)逐氫能賽道