2023-09-07 14:23:43
9月7日,2023騰訊全球數(shù)字生態(tài)大會在深圳寶安舉行。騰訊集團(tuán)副總裁、云與智慧產(chǎn)業(yè)事業(yè)群COO、騰訊云總裁邱躍鵬表示:“云是大模型的最佳載體,大模型將開創(chuàng)下一代云服務(wù)的全新形態(tài)。”
一方面,高性能的云上算力,成了大模型的最佳助推器;搭載大模型能力的應(yīng)用,也通過云服務(wù)的方式落地。無論是訓(xùn)練大模型、還是使用大模型,都離不開云。另一方面,大模型將重新定義云上工具,效能顯著提升,企業(yè)可以通過云,使用智能化水平更高、更便捷易用的云產(chǎn)品。
目前,騰訊云已經(jīng)建立起圍繞大模型的全套能力,包括高性能算力集群、云原生數(shù)據(jù)湖倉和向量數(shù)據(jù)庫等數(shù)據(jù)處理引擎,以及模型安全、支持模型訓(xùn)練和精調(diào)的工具鏈等,企業(yè)、開發(fā)者可以根據(jù)各自需求,靈活選擇產(chǎn)品,降低大模型的訓(xùn)練成本。目前,騰訊云已經(jīng)助力百川智能、智譜科技、MiniMax等企業(yè)打造大模型。
邱躍鵬還表示,大模型進(jìn)一步提升了云產(chǎn)品的效能。比如,騰訊云風(fēng)控大模型、騰訊云AI代碼助手、騰訊會議AI小助手等產(chǎn)品,都因為大模型能力的加持,實現(xiàn)了顯著的效率提升和體驗優(yōu)化。目前,騰訊會議AI小助手已經(jīng)正式開放試用申請,同時新推出了國內(nèi)首個裸眼3D視頻會議功能。
在大模型帶來的智能水平提升之外,騰訊云也通過超低延時的傳輸網(wǎng)絡(luò)為用戶提供更加全真的體驗。實時音視頻TRTC目前已經(jīng)能做到全球端到端平均延時小于300毫秒,即使在非洲等網(wǎng)絡(luò)基礎(chǔ)設(shè)施不穩(wěn)定的地區(qū),也能為用戶帶來極佳的體驗。
以下為演講速記:
尊敬的各位領(lǐng)導(dǎo)、各位嘉賓,各位媒體朋友,
大家上午好!
我在蔣總后面分享,特意選擇從他后面過來,因為云就是大模型背后的底座,我作為蔣總“背后的男人”,分享一下我們在訓(xùn)練大模型過程中云的能力,講一下我們?nèi)绾卧谠粕现未竽P停绾卧趹?yīng)用中去使用我們的大模型。
剛才在蔣杰的分享中,我們看到了非常多混元的能力。今年大模型是非常熱的話題,今天騰訊發(fā)布了我們的混元大模型,在行業(yè)中也有非常多的開源模型,另外我們也看到很多公司在做一些大模型相關(guān)的創(chuàng)新。所以我今天上來想講一下,如果你真的做一個大模型,背后對于云到底帶來了一些什么樣新的、不一樣的挑戰(zhàn)。
其實我們都知道,你要訓(xùn)練一個大模型對于算力的要求非常高,今天我們的混元Token數(shù)據(jù)量已經(jīng)達(dá)到2T。如果用GPU的人,我相信大家都知道GPU這樣一個高密的算力,它在訓(xùn)練過程中,本身的卡的穩(wěn)定性要比原來的通用計算的時候是要更差一些的。每次發(fā)生GPU卡的故障,對于整個訓(xùn)練中斷的影響、對于回滾的要求、對于工程化的要求都非常高。這次做大模型訓(xùn)練之后,我們對云的基礎(chǔ)設(shè)施,從存儲、網(wǎng)絡(luò)到計算進(jìn)行了全面升級?;谛切呛5姆?wù)器,我們把GPU的服務(wù)器故障率降低了超過50%,通過星脈網(wǎng)絡(luò)的支持,我們已經(jīng)可以支持超過10萬張卡并行計算的大規(guī)模訓(xùn)練集群。
在訓(xùn)練過程中,如果你有卡的故障,整個訓(xùn)練是要被中斷、要做回滾,在整個工程實踐中,對于checkpoint寫的速度就會要求非常高,其實傳統(tǒng)的存儲服務(wù),或者一些商業(yè)的東西很難滿足checkpoint寫的要求,通過騰訊云存儲的升級,我們可以在60s內(nèi)完成超過3TB的數(shù)據(jù)寫入,這樣我們整個模型當(dāng)發(fā)生卡的故障時,checkpoint寫入和讀出的速度都會變得很快,整個訓(xùn)練的效率就會變的非常高。正是通過這樣存儲、計算、網(wǎng)絡(luò)整體的升級,我們今天可以做到在萬億參數(shù)的時候,一輪的訓(xùn)練可以在4天之內(nèi)完成,讓訓(xùn)練效率得到大幅提升,訓(xùn)練時間得到保障,訓(xùn)練成本下降很多。
剛才我們講的是算力需求,當(dāng)你有足夠的算力做模型訓(xùn)練,構(gòu)建了一個很好的算力,下一步更重要的是輸入的原數(shù)據(jù)的清洗。剛才看到混元最新的數(shù)據(jù)到了7月份。其實我們每次更新數(shù)據(jù)的時候都要做數(shù)據(jù)清洗。隨著數(shù)據(jù)越來越多,數(shù)據(jù)清洗的過程也會成為制約整個模型迭代升級的非常重要的卡點。通過騰訊的云原生的數(shù)據(jù)湖倉,還有我們的向量數(shù)據(jù)庫,我們看到,無論是混元還是今天中國在云上做大模型的創(chuàng)業(yè)公司,通過這樣的解決方案,我們可以在每秒寫入百萬級數(shù)據(jù),對于海量數(shù)據(jù)的清洗,也達(dá)到了Tbps級吞吐能力?;谶@樣整體的解決方案,我們看到原數(shù)據(jù)的清洗性能提升超過了40%,數(shù)據(jù)處理的整體運(yùn)營成本也降低了50%。包括MiniMax、百川等這些創(chuàng)業(yè)公司都在用我們的解決方案去做他們的云上大模型。
其實不是每個團(tuán)隊都要做大模型,我相信會有很多企業(yè)說,我有自己企業(yè)私有的數(shù)據(jù),我們希望擁有行業(yè)模型的能力。所以我們在完成了使用算力,清洗和處理數(shù)據(jù)之后,對于企業(yè)來講就是怎么樣能夠更快、更高效構(gòu)筑行業(yè)模型。今天在TI平臺上,我們支持大家去做模型的精調(diào),也支持開源模型。我們對企業(yè)在做模型精調(diào)過程中的精調(diào)、部署等方方面面的工具做了全棧式打造,可以讓每個想做自己模型的企業(yè),基于TI平臺,用我們的加速框架、基礎(chǔ)算力、開源工具,讓構(gòu)筑行業(yè)模型變得更簡單。
大家又想說,我有了算力、有了數(shù)據(jù)、有了清洗,也有了工具,但我怎么樣保證我的安全?基于騰訊多年積累下來的安全能力,我們在大模型訓(xùn)練過程中,對內(nèi)容安全、隱私內(nèi)容給出了我們的解決方案。其實大家在使用大模型過程中就會想,我變成了一個prompt工程師和模型去做交互訓(xùn)練,有時候你不希望一些信息被模型完全記錄,我們的玄武實驗室打造了隱私安全解決方案,讓你使用模型的交互變得更加安全。
另外在模型訓(xùn)練過程中,訓(xùn)練出來的模型如何保證里面生成的內(nèi)容是安全、可控、合規(guī)的?所以我們也把騰訊積累下來的內(nèi)容安全能力開放在云上,讓我們每個想做大模型或者想做行業(yè)模型的客戶都可以使用我們的安全能力去保證自己訓(xùn)練出來的模型可以更加合規(guī)。
我剛才講的是大模型訓(xùn)練過程中,遇到的從計算到數(shù)據(jù)清洗,到工具,到安全層面的產(chǎn)品。剛才蔣總在他的分享中已經(jīng)分享了應(yīng)用如何去與我們的大模型結(jié)合,下面我介紹一下從安全到CODING編碼,到會議,如何去更好地應(yīng)用我們大模型的能力。
其實安全是一個非常特殊的領(lǐng)域,尤其在風(fēng)控方面,對于金融企業(yè)來講這是一個必不可少的能力,因為風(fēng)控做不好的話,很多業(yè)務(wù)開展的風(fēng)險是非常大的。過去,因為一個新的業(yè)務(wù)做冷啟動,風(fēng)控建模大概需要兩周時間,才能把一個模型run到起步的階段。今天,基于騰訊積累的安全的know-how加上大模型的能力,我們可以讓整個風(fēng)控大模型的泛化能力變得非常強(qiáng),兩天之內(nèi)就可以很好的形成一個風(fēng)控模型,這樣我們看到的安全保障的能力就會變得非??焖佟?/p>
當(dāng)大模型來的時候,尤其當(dāng)大模型進(jìn)入編碼領(lǐng)域時候,很多人在想,是不是程序員要失業(yè)了?內(nèi)部討論的時候有些人很慌,我們這個團(tuán)隊今天這么多人,明天是不是就剩一半人了,再過三年是不是只需要一個干活的Leader了?底下工作都是AI在干?那肯定不是的,實際上,我們做一個編碼的目的就是通過程序去實現(xiàn)業(yè)務(wù),實現(xiàn)很多好的應(yīng)用,真正讓每個用戶在使用的過程中享受最終的成果。今天AI的輔助編碼更多是讓程序員的工作效率大幅提升,在騰訊這樣一個AI代碼助手輔助下,我們看到在代碼補(bǔ)全場景中,主動代碼生成率已經(jīng)達(dá)到了30%,而且代碼的采用率也是30%,這樣的話,我們可以讓代碼生產(chǎn)效率更高,我相信不是程序員失業(yè)了,而是讓整個程序員生活得更加幸福,有30%的工作可以讓代碼助手幫你干。你最后的結(jié)果是到目的地,你過程中的幸福感其實是在提升的。
會議也是跟AI結(jié)合是特別多的點,線上的開會把大家的聯(lián)線、real time的溝通解決了,當(dāng)會議和AI結(jié)合的時候,我們可以在會前、會中、會后都有非常多的幫助。大家今天來開大會,你可以摸摸魚,不聽,這都沒有問題。但如果說你在一個內(nèi)部的重要會議上,自己遲到了,或者小小走神、摸魚了,突然你的領(lǐng)導(dǎo)你一下,問你“小張,剛才那個問題你有什么想法?”這個時候你怎么辦?今天,我們希望通過騰訊會議AI的能力,讓你發(fā)生這樣的情況時可以幫你總結(jié)會議中發(fā)生的信息,領(lǐng)導(dǎo)在關(guān)注什么,哪些和你相關(guān),這些信息都可以通過AI輔助。
今天,AI小助手也正式開放試用申請,歡迎各位朋友去申請我們的試用名額,來去體驗AI時代騰訊會議帶來的不一樣的開會體驗。
有了智能加持的騰訊會議之后,我們也在想,在交互上還能有什么創(chuàng)新。我們雖然開的是一個在線的會議,有了智能以后,是不是還可以讓我們更加地真實?所以今天,騰訊會議推出了3D會議能力,希望通過“更小的帶寬+消費(fèi)級硬件”,可以實現(xiàn)一個真正的3D開會交互體驗。今天在外面的展廳中,我們專門放了一臺裸眼3D會議硬件,如果大家有興趣的話,一會兒可以到展廳里去體驗一下如何開一個3D的會。如果有了這樣的3D體驗,我們也在暢想,未來在直播帶貨的場景、教學(xué)的場景,你可能看到的不只是一個平面的東西,而是能看到一個立體空間,當(dāng)有3D的能力時,你可以做一些更加主動的觀察,否則你所有看到的東西都是來自攝像頭一個單一平面給到你的,我相信未來這種3D的場景可以讓我們在用AI提高效率的同時,也有更加全真體驗。
除了AI、更加全真的體驗之外,你在網(wǎng)上使用的時候離不開最底層的更加高效的傳輸網(wǎng)絡(luò)。今天,我們再次升級了TRTC網(wǎng)絡(luò),讓全球的端到端互聯(lián)時間降到300ms以內(nèi)。不知道在座的有多少人去過非洲,今天我們在國內(nèi)大家用的都是5G,找不到世界上比中國網(wǎng)絡(luò)更好的地區(qū)。但如果你到非洲,可能你行進(jìn)幾百米,運(yùn)營商就會切換一次。通過騰訊的TRTC實時音視頻能力,我們在全球已經(jīng)實現(xiàn)了端到端平均300ms以內(nèi)的時延,非洲當(dāng)?shù)刈畲蟮囊魳访襟w平臺就用了我們的技術(shù),可以讓非洲的兄弟們也可以使用像我們國內(nèi)這樣交互體驗,非洲兄弟也贊賞了我們的能力。
剛才Dowson講到,我們獲得了MSU云端視頻解碼大賽的大滿貫,說明我們的產(chǎn)品性能是非常極致的。同時,我們更加關(guān)注音視頻媒體處理能力怎么能夠?qū)崿F(xiàn)幫助到客戶的業(yè)務(wù)。過去通過我們媒體處理的能力,我們幫助了很多客戶在同等效果情況下,一年內(nèi)存儲和帶寬成本降低了超過40%,而在這樣的時候,我們又去對比了全球的友商,在同等的碼率情況下,我們視頻的質(zhì)量評分是高出20%,又省錢,效果又好。
今天我們也把這樣一些傳輸能力和安全的能力再一次升級成edgeone的平臺,在全球享受傳輸效果的同時具備了安全防護(hù)能力,在全球的保護(hù)中,我們防御的流量攻擊峰值超過2TB。
今天我們講了,從大模型到應(yīng)用,如何訓(xùn)練使用大模型,以及技術(shù)的升級,我相信技術(shù)的革命是永無止境的,每天都會看到技術(shù)的進(jìn)步,騰訊云也會不停地升級我們的產(chǎn)品,希望與大家一起共享AI和大模型帶來的技術(shù)紅利。
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP