據(jù)消息人士稱,OpenAI正在訓(xùn)練下一代的人工智能,暫名“Q*”(讀作Q-star)。新的一年,OpenAI下一代產(chǎn)品可能發(fā)布
數(shù)據(jù)瓶頸指的是可用于訓(xùn)練AI的高質(zhì)量數(shù)據(jù)的有限性,合成數(shù)據(jù)有望打破這一瓶頸。除了對大量高質(zhì)量數(shù)據(jù)的需求導(dǎo)致合成數(shù)據(jù)受到追捧以外,對數(shù)據(jù)安全的考量也是重要原因
作為全球性能最強的AI,ChatGPT已遇到算力等方面的瓶頸。在此背景下,討論量子計算機在人工智能領(lǐng)域的應(yīng)用就成為一種頗具潛力的未來解決方案
文 | 譚笑間
2023年,世人見證了ChatGPT在全球范圍的大火。以生成式人工智能為代表的新一代人工智能問世,改變了人工智能(AI)技術(shù)與應(yīng)用的發(fā)展軌跡,加速了人與AI的互動進程,是人工智能發(fā)展史上的新里程碑。2024年,人工智能技術(shù)與應(yīng)用的發(fā)展又會呈現(xiàn)出哪些趨勢?讓我們一同展望這些值得關(guān)注的重大趨勢。
全模擬光電智能計算芯片效果圖。經(jīng)長期聯(lián)合攻關(guān),清華大學(xué)研究團隊突破傳統(tǒng)芯片的物理瓶頸,創(chuàng)造性提出光電融合的全新計算框架,并研制出國際首個全模擬光電智能計算芯片(簡稱ACCEL) 新華社圖
趨勢一:從AI大模型邁向通用人工智能
2023年,ChatGPT開發(fā)者OpenAI被置于前所未有的聚光燈下,也使GPT-4后續(xù)版本的開發(fā)被推向了風(fēng)口浪尖。據(jù)消息人士稱,OpenAI正在訓(xùn)練下一代的人工智能,暫名“Q*”(讀作Q-star)。新的一年,OpenAI下一代產(chǎn)品可能發(fā)布。
據(jù)媒體爆料,“Q*”可能是第一次采用“從零開始”的方式訓(xùn)練的人工智能。其特點是,智能不來自人類活動的數(shù)據(jù),且其有能力修改自身代碼以適應(yīng)更復(fù)雜的學(xué)習(xí)任務(wù)。前者使得人工智能能力的發(fā)展變得愈發(fā)不透明,而后者向來被看作是誕生人工智能“奇點”的必要條件。在人工智能發(fā)展領(lǐng)域,“奇點”特指機器擁有了自我迭代的能力,進而在短時間內(nèi)迅猛發(fā)展,導(dǎo)致超出人類控制。
雖然一些報道稱,“Q*”目前還只能解決小學(xué)難度的數(shù)學(xué)問題,距離“奇點”還遠。但鑒于虛擬環(huán)境中人工智能迭代速度可能遠超想象,其仍然可能在不遠的將來自主發(fā)展出在各個領(lǐng)域均可超過人類水平的AI。2023年,OpenAI預(yù)言,各方面超越人類水平的人工智能在十年內(nèi)就會出現(xiàn);英偉達創(chuàng)始人黃仁勛表示,通用人工智能可能在五年內(nèi)超越人類。
一旦通用人工智能得以實現(xiàn),就可被用于解決各種復(fù)雜的科學(xué)難題,譬如尋找外星人與地外宜居星系、人工核聚變控制、納米或超導(dǎo)材料篩選、抗癌藥研發(fā)等。這些問題通常需要花費人類研究員數(shù)十年的時間來尋找新的解決方案,部分前沿領(lǐng)域的研究量已超出人力極限。而通用人工智能在自己的虛擬世界中擁有幾乎無限的時間和精力,這使得其在部分容易虛擬化的任務(wù)中,有可能成為人類研究員的替代。但屆時,人類如何監(jiān)督這些從智能水平上超過人類的人工智能,確保其不會危害人類,又是一個值得思考的問題。
當然,我們也不應(yīng)過分高估硅谷巨頭們的部分言論,因為在人工智能發(fā)展史上,已經(jīng)歷三次“AI寒冬”,其中不乏宏大的技術(shù)愿景因各方面限制化為泡影的例子。但目前可以肯定的是,大模型技術(shù)仍然有著不小的上升空間。除GPT-4外,谷歌的“雙子座”(Gemini),Anthropic的Claude2,目前都是僅次于GPT-4的大模型,國內(nèi)的百度“文心一言”與阿里“通義千問”,也是國產(chǎn)大模型中的佼佼者。它們在新的一年中是否會發(fā)布更具革命性的產(chǎn)品,同樣值得期待。
趨勢二:合成數(shù)據(jù)打破人工智能訓(xùn)練數(shù)據(jù)瓶頸
數(shù)據(jù)瓶頸指的是可用于訓(xùn)練AI的高質(zhì)量數(shù)據(jù)的有限性,合成數(shù)據(jù)有望打破這一瓶頸。
合成數(shù)據(jù)是在模仿真實數(shù)據(jù)的基礎(chǔ)上,由機器學(xué)習(xí)模型利用數(shù)學(xué)和統(tǒng)計科學(xué)原理合成的數(shù)據(jù)。關(guān)于什么是合成數(shù)據(jù),有一個較為淺顯易懂的比喻:這就像是在給AI編寫專門的教材。例如,盡管英文課本的對話中出現(xiàn)的可能是“小明”“小紅”這樣的虛構(gòu)人名,但并不影響學(xué)生們由此掌握英語,因此從某種意義上,對于學(xué)生而言,教材就可以看作一種經(jīng)過編纂、篩選和處理的“合成數(shù)據(jù)”。
有論文表明,模型的規(guī)模至少要達到620億參數(shù)量后,才可能訓(xùn)練出“思維鏈”能力,即進行分步驟的邏輯推理。但現(xiàn)實的尷尬在于,迄今為止人類產(chǎn)生的不重復(fù)的、可供訓(xùn)練的優(yōu)質(zhì)數(shù)據(jù)并沒有這么多。使用ChatGPT等生成式人工智能以前所未有的數(shù)量產(chǎn)生高質(zhì)量合成數(shù)據(jù),未來的AI將由此獲得更高的性能。
除了對大量高質(zhì)量數(shù)據(jù)的需求導(dǎo)致合成數(shù)據(jù)受到追捧以外,對數(shù)據(jù)安全的考量也是重要原因。近年來,各國紛紛出臺更嚴格的數(shù)據(jù)安全保護法律,使得客觀上利用人類產(chǎn)生的數(shù)據(jù)訓(xùn)練人工智能變得更為繁瑣。這些數(shù)據(jù)中不僅可能隱含個人信息,其中的許多數(shù)據(jù)還受版權(quán)保護。在互聯(lián)網(wǎng)隱私與版權(quán)保護尚未形成統(tǒng)一標準與完善架構(gòu)的當下,使用互聯(lián)網(wǎng)數(shù)據(jù)進行訓(xùn)練,極易導(dǎo)致大量法律糾紛。而若考慮對這些數(shù)據(jù)進行脫敏,又面臨篩查識別準確率方面的挑戰(zhàn)。兩難之下,合成數(shù)據(jù)就成為最惠而不費的一種選擇。
此外,使用人類數(shù)據(jù)進行訓(xùn)練,還可能導(dǎo)致人工智能學(xué)到有害內(nèi)容。一些諸如使用日用品制造炸彈、管制化學(xué)品的方法,另一些則包括許多人工智能本不應(yīng)當出現(xiàn)的壞習(xí)慣,譬如像人一樣在任務(wù)執(zhí)行過程中偷懶、為了取悅用戶而說謊、產(chǎn)生偏見和歧視。若改用合成數(shù)據(jù),使人工智能在訓(xùn)練中盡可能減少接觸有害內(nèi)容,則有望克服以上使用人類數(shù)據(jù)訓(xùn)練時附帶的缺點。
從以上分析中可以看出,合成數(shù)據(jù)可以說是頗具開創(chuàng)性的,有望解決此前發(fā)展人工智能與數(shù)據(jù)隱私保護不可得兼的問題。但與此同時,如何確保相關(guān)的公司和機構(gòu)負責(zé)任地制作合成數(shù)據(jù),如何制作出既符合本國文化與價值觀,又在規(guī)模和技術(shù)水平上足以媲美西方以英文網(wǎng)絡(luò)資料為中心的合成數(shù)據(jù)訓(xùn)練集,也將成為中國面臨的一個頗具挑戰(zhàn)性的課題。
除此之外,合成數(shù)據(jù)帶來的一個重大變化是,來自人類社會的大數(shù)據(jù)或?qū)⒉辉偈茿I訓(xùn)練所必需。在今后的數(shù)字世界中,人類數(shù)據(jù)的產(chǎn)生、存儲和使用仍將遵循人類社會的法則和秩序,包括維護國家數(shù)據(jù)安全、保守商業(yè)數(shù)據(jù)秘密和尊重個人數(shù)據(jù)隱私,而AI訓(xùn)練所需的合成數(shù)據(jù)則采用另一套標準進行管理。
趨勢三:量子計算機可能率先應(yīng)用于人工智能
作為電子計算機發(fā)展到今天的最前沿應(yīng)用,人工智能始終存在算力不足的隱憂。ChatGPT問世數(shù)月后,OpenAI總裁奧爾特曼曾公開表示,其并未鼓勵更多用戶注冊O(shè)penAI。2023年11月,OpenAI甚至宣布暫停ChatGPT Plus付費訂閱新用戶的注冊,以確?,F(xiàn)有用戶擁有高質(zhì)量體驗。顯然,作為全球性能最強的AI,ChatGPT已遇到算力等方面的瓶頸。在此背景下,討論量子計算機在人工智能領(lǐng)域的應(yīng)用就成為一種頗具潛力的未來解決方案。
首先,人工智能領(lǐng)域的算法,大部分屬于并行計算的范疇。舉例而言,AlphaGo在下圍棋的過程中,其需要同時考慮對手在不同位置落子后的應(yīng)對招數(shù),從中找到最有可能贏得棋局的下法。這就需要計算機優(yōu)化并行計算的效率來實現(xiàn)。而量子計算機擅長進行并行計算,因為它可以同時計算和存儲“0”和“1”兩種狀態(tài),無需像電子計算機那樣消耗額外的計算資源,譬如串聯(lián)多個計算單元,或?qū)⒂嬎闳蝿?wù)在時間上并列。計算任務(wù)越復(fù)雜,量子計算就越具備優(yōu)勢。
其次,運行ChatGPT所需的硬件條件,同樣也十分適合導(dǎo)入當前體積龐大的量子計算機,二者都需要安裝在高度集成的計算中心里,由一支專業(yè)化技術(shù)團隊進行管理支撐。
什么是量子計算機?量子計算機是一類遵循量子力學(xué)規(guī)律進行高速數(shù)學(xué)和邏輯運算、存儲及處理量子信息的物理裝置。其不僅體積龐大,而且作為核心零部件的“量子芯片”,通常需要被置于接近絕對零度(零下273.15攝氏度)的極低溫中,利用在這種極低溫下部分微觀粒子表現(xiàn)出的量子特性進行信息運算和處理,且運行結(jié)果只能存在幾毫秒的時間。
既然量子計算機“又大又難維護”,為什么還要發(fā)展?原因在于,量子計算機蘊含巨大的算力潛能,以至于在一些算法上已經(jīng)體現(xiàn)出相對于電子計算機在速度上的“絕對碾壓”,即“量子優(yōu)越性”。但實現(xiàn)“量子優(yōu)越性”只是一個起點。目前的量子計算機只能完成一些專屬于量子領(lǐng)域的計算任務(wù),想要真正用好這種“量子優(yōu)越性”,先要使其量子位足夠多,以實現(xiàn)通用計算和可編程。而且,在實現(xiàn)通用計算后,量子計算機依然需要保持相對于電子計算機的優(yōu)勢,這被稱作“量子優(yōu)勢”。
2022年,來自谷歌、微軟、加州理工學(xué)院等機構(gòu)的研究者從原理上證明了“量子優(yōu)勢”在預(yù)測可觀測變量、量子主成分分析以及量子機器學(xué)習(xí)中確實存在。量子機器學(xué)習(xí),實際上就是量子計算在人工智能領(lǐng)域的應(yīng)用,也體現(xiàn)出未來量子計算與人工智能兩大前沿技術(shù)合流的趨勢。
理論上證明了,實踐上就需要進一步拓展量子計算的應(yīng)用前景。在2019年推出商用量子計算機“量子系統(tǒng)一號”后,美量子計算巨頭IBM又于2023年12月推出了“量子系統(tǒng)二號”。新系統(tǒng)的最大突破在于可以模塊化擴展,是該公司的首臺模塊化量子計算機?!傲孔酉到y(tǒng)二號”擁有超過1000量子位。IBM還宣布計劃10年內(nèi)建成10萬量子位的量子計算機。這些不斷增加的量子位并非只是為了競賽,其對于實現(xiàn)通用計算和可編程有著不可或缺的作用。也正因如此,量子計算機的模塊化,標志著其更加具備實用性。
有關(guān)量子機器學(xué)習(xí)算法的研究,已成為新的研究熱點。不過,未來量子計算機不會完全取代電子計算機,更有可能出現(xiàn)的是量子計算機和電子計算機在不同的應(yīng)用場景下發(fā)揮各自所長,實現(xiàn)協(xié)同發(fā)展,既極大提升算力,也兼顧成本和可行性。
在上海舉行的2023世界人工智能大會上,人形機器人表演“千手觀音” 辛夢晨攝/本刊
趨勢四:AI代理和無代碼軟件開發(fā)帶來“沖擊波”
在AI應(yīng)用方面,2024年值得關(guān)注的是AI代理和無代碼軟件開發(fā)帶來的“沖擊波”。
一是AI代理對勞動力結(jié)構(gòu)的沖擊。
截至目前,全球至少已有近兩億人使用人工智能大模型。但人們已不再滿足于坐在電腦前跟AI“聊天”,而是開始開發(fā)能夠自動根據(jù)任務(wù)需要向人工智能發(fā)出提示的工具。當自動提示工具與大模型兩相結(jié)合,AI代理便由此誕生。
2023年4月,OpenAI聯(lián)合創(chuàng)始人布羅克曼現(xiàn)場演示了GPT的“自動模式”。在該演示中,AI代理幾乎“包辦”了一場晚宴:不僅根據(jù)要求生成了一份晚宴的推薦菜單、一份圖文并茂的邀請函,還自動將該菜單需要購買的食材加入生鮮電商APP的購物車,并自動發(fā)布了一條有關(guān)該晚宴的社交網(wǎng)站帖子。
AI代理還能根據(jù)比較模糊的需求提示自動制作網(wǎng)站,自動完成各種需要使用Office軟件完成的文字和表格處理工作,甚至自動根據(jù)已有論文數(shù)據(jù)進行歸納總結(jié)生成分析論文等。
比爾·蓋茨近日發(fā)長文解讀AI代理未來,表示AI代理將徹底改變?nèi)藗兪褂糜嬎銠C的方式,帶來自鍵盤、屏幕和鼠標發(fā)明以來人類與計算機互動方式上最重大的革新。
AI被看作對人類的信息收集、分析和處理進行增強的擴展性工具,使得人的工作水平更上新臺階。但與此同時,AI代理也給許多現(xiàn)有的工作崗位帶來沖擊,因為企業(yè)可能嘗試雇用更少的人來完成相同的任務(wù)。這種由創(chuàng)新帶來的對現(xiàn)有經(jīng)濟結(jié)構(gòu)的破壞,被美國經(jīng)濟學(xué)家熊彼特稱為“創(chuàng)造性毀滅”。隨著AI代理代替大量只需要較少的計算機技能就可完成的任務(wù),這些被迫再就業(yè)的勞動力將不得不適應(yīng)新的勞動力市場需求,這注定將是一個較長時期的、伴隨陣痛的過程。
二是無代碼軟件開發(fā)給數(shù)字經(jīng)濟創(chuàng)新帶來的影響。
盡管生成式人工智能可能淘汰掉一批傳統(tǒng)數(shù)字崗位,但在關(guān)上一扇門的同時也打開了一扇窗,這就是“無代碼軟件開發(fā)”。目前,以AI大模型為基礎(chǔ)的編程輔助工具已經(jīng)發(fā)展到一個新的階段,能夠根據(jù)用戶十分模糊的指令來生成軟件或網(wǎng)頁代碼。例如,2023年的GPT-4演示中,演示人員僅僅是在A4紙上手寫了一個十分潦草的結(jié)構(gòu)示意圖,GPT-4就根據(jù)其自動生成了能夠?qū)嶋H訪問的網(wǎng)頁。這無疑大大降低了開發(fā)IT服務(wù)的門檻。只要一個人有足夠有創(chuàng)意的、能夠滿足許多人需求的數(shù)字服務(wù)“點子”,就可以成為互聯(lián)網(wǎng)創(chuàng)新的風(fēng)口,“人人皆可創(chuàng)新”的時代已然到來。
對此,政府需轉(zhuǎn)變觀念,兼顧市場監(jiān)管與促進創(chuàng)新,一方面降低數(shù)字創(chuàng)新過程中的注冊與融資門檻,打通中小企業(yè)發(fā)展壯大過程中的痛點,讓就業(yè)與創(chuàng)新政策適應(yīng)“人人皆可創(chuàng)新”的新需求;另一方面需要探索更有利于保護創(chuàng)新“點子”的版權(quán)與專利保護新政策,從而激勵那些能夠不斷提出創(chuàng)新“點子”的人才。
綜上所述,展望2024年,無論是人工智能技術(shù)自身的迭代發(fā)展,還是其對數(shù)據(jù)價值的重塑,抑或是向各行業(yè)、各領(lǐng)域的應(yīng)用滲透,人工智能的影響可謂無處不在,既為科研、創(chuàng)新和經(jīng)濟賦能,又帶來新的挑戰(zhàn)與風(fēng)險。我們應(yīng)以開放的心態(tài)看待人工智能帶來的諸多改變,審慎研究和應(yīng)對其可能帶來的新課題與新風(fēng)險。
(作者為中國現(xiàn)代國際關(guān)系研究院科技與網(wǎng)絡(luò)安全研究所人工智能項目負責(zé)人)