浙江杭州宣布每年“算力券”總額提升至2.5億元;內(nèi)蒙古烏蘭察布正打造“全國算力保障基地”綠色低碳先行示范區(qū);江蘇選擇為數(shù)據(jù)立法,擬明確支持經(jīng)營主體開放數(shù)據(jù);湖南發(fā)布工作要點,擬釋放數(shù)據(jù)要素價值……近段時間,各地相繼推出政策措施,搶抓風口,聚焦“算力”和“數(shù)據(jù)”。伴隨人工智能進入競速跑階段,上述兩大關鍵詞將成為推動產(chǎn)業(yè)發(fā)展的關鍵基礎設施和基本要素。
構建新質(zhì)算力基礎設施
作為人工智能發(fā)展的重要“底座”,2024年世界人工智能大會匯聚了諸多頭部企業(yè),并帶來最新智算成果。接受半月談記者采訪的業(yè)內(nèi)人士認為,算力市場將在很長一段時間內(nèi)呈現(xiàn)供不應求態(tài)勢,構建新質(zhì)算力基礎設施將成為未來必爭之地,能—算—數(shù)—網(wǎng)(即能源、算力、數(shù)據(jù)、網(wǎng)絡)一體化發(fā)展時代或?qū)砼R。
商湯智能產(chǎn)業(yè)研究院院長田豐認為,隨著各種垂類、端類大模型成比例地增加,市場對算力的需求將處于井噴狀態(tài)。算力在短期或者中期都將是新質(zhì)生產(chǎn)力。一位行業(yè)資深人士對半月談記者說:“在國內(nèi)通用大模型還未出現(xiàn)絕對領先者的當下,產(chǎn)業(yè)各方對垂直模型的應用市場更加關注。從新近通過模型備案的數(shù)量看,垂直模型的比例越來越高。如何率先進入應用市場,搶占先機,后續(xù)再迭代升級,是當前的關注重點。對于算力的需求將會更貼近用戶,使用邊緣算力池實現(xiàn)應用推理將成為常態(tài)?!?/p>
7月6日,世界人工智能大會參觀者在訊飛星火大模型演示屏前體驗交流。新華社記者方喆攝
更加普惠和綠色環(huán)保的算力將快速增長,像水和空氣一樣賦能千行百業(yè)。
不少公司近期推出的智算產(chǎn)品都與此息息相關。商湯科技帶來國內(nèi)訓練大模型的先進基礎設施,SenseCore商湯大裝置總算力規(guī)模高達12000petaFLOPS(算力單位:每秒千萬億次浮點運算),可支撐超過20個千億超大模型同時訓練。中國電信推出云驍智算平臺,實現(xiàn)了A100 93%的算效。無問芯穹發(fā)布了大規(guī)模模型的異構分布式混合訓練系統(tǒng),千卡異構混合訓練集群算力利用率最高達到了97.6%。
田豐表示,市場上將出現(xiàn)越來越多的節(jié)能芯片和更高密度芯片,算力將更加綠色環(huán)保。人工智能行業(yè)從單純的模型計算步入實打?qū)嵉膽秒A段,對于新質(zhì)算力基礎設施的需求也在不斷增加。
高質(zhì)量數(shù)據(jù)打下底座
未來,AI模型趨于復雜,并開始處理文本、音頻、圖像和視頻等各種類型數(shù)據(jù),對快速數(shù)據(jù)處理的需求變得更加迫切。多家企業(yè)對此已提出相應方案。如星環(huán)科技的企業(yè)級多模態(tài)知識存儲與服務,包括大數(shù)據(jù)與云平臺、星環(huán)分布式交易型數(shù)據(jù)庫(Transwarp KunDB)、分布式分析型數(shù)據(jù)庫(Transwarp ArgoDB)等,助力企業(yè)打造新一代一站式多模型數(shù)字底座。
中國電信則為此打造了數(shù)鏈智網(wǎng)(DCAN)。半月談記者獲悉,數(shù)鏈智網(wǎng)是指中國電信依托云、網(wǎng)、數(shù)、智、安資源稟賦和基礎優(yōu)勢,統(tǒng)一構建的數(shù)據(jù)要素能力體系,涵蓋“星海”大數(shù)據(jù)產(chǎn)品矩陣、“靈澤”數(shù)據(jù)要素鏈服務、“銀河”數(shù)據(jù)跨境流通解決方案等三大板塊。
值得注意的是,當下,大模型在垂直行業(yè)應用時,許多企業(yè)通過私有化部署來應對數(shù)據(jù)安全挑戰(zhàn),這不僅增加企業(yè)的運維和服務成本,還影響對外服務的效率和質(zhì)量,且不利于多方數(shù)據(jù)跨領域、跨行業(yè)高效融合。
6月26日,上海,2024MWC上海世界移動通信大會。
在螞蟻集團副總裁兼首席技術安全官、螞蟻密算董事長韋韜看來,數(shù)據(jù)供給決定了大模型應用能力的上限,而隱私計算技術決定了數(shù)據(jù)跨域供給的上限。當大模型從通用走向?qū)I(yè)應用,從技術想象力走向產(chǎn)業(yè)的生產(chǎn)力,必須解決高質(zhì)量數(shù)據(jù)集稀缺與專業(yè)數(shù)據(jù)阻滯的挑戰(zhàn),否則,大模型作為“智力引擎”,只會陷入空轉(zhuǎn)。今后,高價值數(shù)據(jù)要深度融合,須以密態(tài)方式進行安全流轉(zhuǎn)。“我們希望聯(lián)合產(chǎn)業(yè)合作伙伴,把螞蟻集團多年來在密態(tài)計算技術上的探索和創(chuàng)新,以開源和產(chǎn)品化的形式對外開放,為實體經(jīng)濟和中小微企業(yè)創(chuàng)造新的價值,讓數(shù)據(jù)價值的流動像自來水一樣即開即用?!表f韜說。
星環(huán)科技創(chuàng)始人、CEO孫元浩表示,為了解決AI大模型中文語料治理等數(shù)據(jù)問題、大模型安全可控的問題,以及垂類全流程安全可控問題等,星環(huán)科技推出大模型運營平臺(Sophon LLMOps),提供一站式的大模型基礎平臺。同時加快模型和語料研發(fā),推出大模型“無涯”,形成了大語言模型在行業(yè)的落地與合規(guī)安全的方法和實踐。此外,星環(huán)科技還積極推進數(shù)據(jù)要素相關研發(fā),數(shù)據(jù)要素流通平臺Navier和數(shù)據(jù)安全管理平臺Defensor等都已投入應用。
警惕數(shù)據(jù)瓶頸與算力浪費
目前,我國算力布局仍較為分散。一位行業(yè)資深專家表示,除了模型訓練之外,異構芯片單集群以及跨集群的聯(lián)合訓練是當前算力領域重要的堵點問題,也是熱點問題。如果把閑散算力綜合利用,解決中國算力布局分散、芯片企業(yè)多點分布的現(xiàn)狀,需要產(chǎn)業(yè)各方大力推進。核心問題是異構芯片的聯(lián)合訓練效率如何逼近單類芯片的訓練效率。
這背后顯示出全國一體化算力市場建設的緊迫性。半月談記者發(fā)現(xiàn),一些公司已通過自身平臺,探索局部一體化。無問芯穹宣布,其Infini-AI云平臺已集成大模型異構千卡混訓能力,是全球首個可進行單任務千卡規(guī)模異構芯片混合訓練的平臺,具備萬卡擴展性,支持包括AMD、華為昇騰、天數(shù)智芯、沐曦、摩爾線程、NVIDIA六種異構芯片在內(nèi)的大模型混合訓練。
7月5日,上海浦東,2024世界人工智能大會,星環(huán)科技展出其全系列的AI+Infra平臺及工具,無涯大模型。
大模型向下深入扎根行業(yè),必須破解高質(zhì)量數(shù)據(jù)供給的挑戰(zhàn)。專業(yè)數(shù)據(jù)往往分散在不同的機構、企業(yè)中,并且由于價值大、保密要求高而難以流動。此外,在企業(yè)、大模型廠商和用戶之間存在信任壁壘,企業(yè)擔心數(shù)據(jù)對外泄露,大模型廠商擔心模型資產(chǎn)安全,用戶擔心個人數(shù)據(jù)和隱私風險。
中金公司的報告認為,數(shù)據(jù)很可能是人工智能發(fā)展的瓶頸。一方面,大模型越來越依賴數(shù)據(jù)。大模型所使用的數(shù)據(jù)量已經(jīng)從GB級別增長到TB(1TB=1024GB)級別。截至2024年3月,大模型使用的詞元數(shù)量已達到40萬億級別。另一方面,對于大模型訓練,不僅需要一般的數(shù)據(jù),高質(zhì)量數(shù)據(jù)更不可或缺。高質(zhì)量數(shù)據(jù)一般具有完整性、一致性、有效性、準確性、及時性,是更加結(jié)構化、有邏輯性的數(shù)據(jù),如書籍、報告等。中金公司認為,高質(zhì)量數(shù)據(jù)可以更好地模擬客觀世界,使模型預測的分布更加接近真實世界的數(shù)據(jù)分布,從而提升模型的效果。而使用低質(zhì)量的數(shù)據(jù)會產(chǎn)生“垃圾進,垃圾出”的效果,對于模型能力沒有提升,反而可能有害。
除此以外,金融方面的支持仍有較大空間。田豐表示,相比美國新一波的AI云計算公司,國內(nèi)金融市場對本土AI算力企業(yè)的支持還非常薄弱,但這也是機會。一旦有了大金融加持,中國的算力基礎設施將日新月異,“算賦百業(yè)”不再只是設想。
半月談記者:王宙潔 宋薇萍
編輯:尤立