每日經(jīng)濟新聞 2024-01-25 21:57:49
◎2024年剛剛開始,自研架構(gòu)的進一步涌現(xiàn)給新一年的大模型賽道帶來了更多的不確定性和新的可能性。Yan架構(gòu)的大模型去除了Transformer中高成本的注意力機制,代之以計算量更小、難度更低的線性計算,提高了建模效率和訓練速度,實現(xiàn)了效率的提升和成本的降低。
每經(jīng)記者 陳婷 每經(jīng)編輯 劉雪梅
百模大戰(zhàn)中,玩家的角逐方式越來越多樣化。
1月24日,巖芯數(shù)智正式發(fā)布了國內(nèi)首個非Attention機制的通用自然語言大模型——Yan模型,據(jù)《每日經(jīng)濟新聞》記者了解,這是業(yè)內(nèi)少有的非Transformer架構(gòu)大模型。
資料顯示,上海巖芯數(shù)智人工智能科技有限公司(以下簡稱“巖芯數(shù)智”),是巖山科技(002195,SZ)旗下子公司,是一家以認知智能為基礎(chǔ)、專注于自然語言理解及人機交互等核心技術(shù)的創(chuàng)新型企業(yè)。此前,巖芯數(shù)智已自研自建了百億級參數(shù)的自有模型。
上市公司成立子公司突圍國產(chǎn)大模型的情況不算特別,但巖芯數(shù)智在大模型賽道上的發(fā)展路徑卻比較少見。
Transformer是當下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基礎(chǔ)架構(gòu),是大多數(shù)大模型的“內(nèi)核”。在Transformer已經(jīng)占據(jù)人工智能領(lǐng)域半壁江山的今天,巖芯數(shù)智卻選擇了另辟蹊徑,轉(zhuǎn)而尋求非Transformer的更多可能性。
作為行業(yè)內(nèi)少有的非Transformer大模型,Yan模型用全新自研的“Yan架構(gòu)”代替Transformer架構(gòu)。
巖芯數(shù)智董事長陳代千在接受《每日經(jīng)濟新聞》記者專訪時表示,雖然大模型的熱度在去年才因為GPT升溫,但YAN團隊早在三年前就已經(jīng)開始布局、落地非transformer架構(gòu)相關(guān)的事情。
“我們認為通往通用人工智能道路肯定不止一條,道路之間也互有利弊,探索過程中也充滿不確定性。”陳代千說。
聊大模型,很難不提及Transformer。甚至可以說,Transformer的出現(xiàn)是深度學習歷史長河中的一個里程碑。
中科深智創(chuàng)始人兼CEO成維忠便曾在接受《每日經(jīng)濟新聞》記者專訪時表示,早期,可選擇可嘗試的路很多,“一直到2017年谷歌推出Transformer,我們找到了方向,慢慢道路就清晰了。”成維忠提到,ChatGPT的底層技術(shù)也是Transformer,“當時,谷歌基于Transformer做了很多demo,我們也很興奮,慢慢就把精力聚焦到這個方向上。”
記者了解到,憑借著其強大的自然語言理解能力,Transformer在問世的短短幾年內(nèi)便取代了傳統(tǒng)的RNN網(wǎng)絡(luò)結(jié)構(gòu),不僅成為自然語言處理領(lǐng)域的主流模型架構(gòu),還在計算機視覺、語音識別等多個領(lǐng)域展示了其跨界的通用能力。
巖芯數(shù)智CEO劉凡平在發(fā)布會上的演講中提及了大模型賽道的現(xiàn)狀。
他表示,目前主流的大模型系列有三個:OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。
劉凡平表示,“國內(nèi)的大模型基本都延續(xù)了這三個系列,或是它們的一個子版本演變而來。這三個系列都是基于Transformer架構(gòu)衍生而來,成為大模型的支柱。”
劉凡平提到,百花齊放是“百模大戰(zhàn)”的表現(xiàn),千篇一律是因為大家都是(基于)Transformer架構(gòu)的。
即便Transformer架構(gòu)已經(jīng)成為主流,但在部分業(yè)內(nèi)人士看來,Transformer并非完美。
以劉凡平為例,作為前百度資深工程師,劉凡平從中國科學技術(shù)大學畢業(yè)后,一路成為上海市科技專家?guī)鞂<遥€出版過多本技術(shù)作品。
他指出,以大規(guī)模著稱的Transformer,在實際應用中的高算力和高成本,讓不少中小型企業(yè)望而卻步。其內(nèi)部架構(gòu)的復雜性,讓決策過程難以解釋;長序列處理困難和無法控制的幻覺問題也限制了大模型在某些關(guān)鍵領(lǐng)域和特殊場景的廣泛應用。
在他看來,隨著云計算和邊緣計算的普及,行業(yè)對于高效能、低能耗AI大模型的需求正不斷增長。
劉凡平提到,在全球范圍內(nèi),一直以來都有不少優(yōu)秀的研究者試圖從根本上解決對Transformer架構(gòu)的過度依賴,尋求更優(yōu)的替代辦法。
或許是基于種種考量,巖芯數(shù)智走了另一條路。陳代千對記者透露,CEO劉凡平和他的團隊拍板了這一路線。
“很多事情我覺得是一個自然而然的過程,大家在想怎么去優(yōu)化這個Transformer結(jié)構(gòu)的時候,自然會覺得我們是不是要換條路走。”陳代千說。
事實上,劉凡平及團隊并非一開始就打定了主意要放棄Transformer架構(gòu)。
劉凡平對記者表示,Transformer架構(gòu)的主要問題在于訓練成本太高了,交付成本也高,成本難以覆蓋客戶的付費,需要降低邊際成本。
他對記者表示:“這種情況下,如果我們自己一直做下去,我們做一單虧一單。解決這個問題也不容易,從早期的基于Transformer架構(gòu)、改進Transformer架構(gòu),到放棄Transformer架構(gòu),這是一個漫長的過程。”
在很長一段時間,劉凡平和團隊一方面改進Transformer架構(gòu),另一方面嘗試新的模型架構(gòu)。
巖芯數(shù)智的研究團隊歷經(jīng)1000多個日夜,超過幾百次的設(shè)計、修改、優(yōu)化、對比、重來,研發(fā)出了“Yan架構(gòu)”,基于Yan架構(gòu)的通用大模型也應運而生。
作為非Transformer架構(gòu)大模型,巖芯數(shù)智發(fā)布的Yan模型有什么特別之處嗎?
據(jù)巖芯數(shù)智方面介紹,Yan模型同時具備了私密化、經(jīng)濟化、精準化和實時性、專業(yè)性、通用性等六大商業(yè)化落地能力,是“為落地而生”。
記者從巖芯數(shù)智方面了解到,Yan架構(gòu)的大模型去除了Transformer中高成本的注意力機制,代之以計算量更小、難度更低的線性計算,提高了建模效率和訓練速度,實現(xiàn)了效率的提升和成本的降低。
除了成本更低之外,Yan模型的運行門檻也更低。
據(jù)了解,當下,許多大模型會通過剪枝、壓縮等主流技術(shù)手段來實現(xiàn)在設(shè)備上的運行,而Yan模型100%支持私有化部署應用,不經(jīng)裁剪和壓縮即可在主流消費級CPU等端側(cè)設(shè)備上無損運行。
無論如何,Yan架構(gòu)和Yan模型究竟還有多大的潛能,還需要業(yè)內(nèi)給出公允的評價,更需要市場來檢驗。
在商業(yè)化前景上,劉凡平對記者透露,公司已有的客戶是一些大型企業(yè),“有了Yan之后,我們會延伸到中小企業(yè)中去,在更低的成本下使用AI服務(wù)。同時由于Yan可以在CPU上正常應用,所以我們也把一些隱私性較強的場景納入我們的落地范圍。”
此外,劉凡平表示,Yan模型除了面對中小B客戶之外,也會選擇離線、隱私性較強的場景。在他看來,Yan既可以面向B端客戶,也可以面向C端客戶。
陳代千還向記者提及,巖芯數(shù)智正在考慮海外布局。與此同時,巖芯數(shù)智在未來也有吸納外部融資的可能性。
“首先是考慮(海外)客戶端,融資的話,我們也不會排斥是國內(nèi)投資人還是海外投資人,我們會先以應用和客戶為出海落腳點。”陳代千說。
2023年將是大模型賽道更為火熱的一年,有了Yan架構(gòu)“打頭陣”,市面上會出現(xiàn)更多的自研大模型架構(gòu)嗎?
深度科技研究院院長張孝榮對《每日經(jīng)濟新聞》記者表示,過去,國內(nèi)發(fā)布的大模型多基于Transformer架構(gòu),原因可能在于Transformer是開源架構(gòu),并且已經(jīng)在自然語言處理領(lǐng)域得到了廣泛的應用和驗證(可用,能用)。
在張孝榮看來,大模型架構(gòu)的研發(fā)曠日持久,2024年,有可能會出現(xiàn)少數(shù)幾個新模型,但很難會出現(xiàn)更多自研的大模型架構(gòu)。
北京市社會科學院管理研究所副研究員王鵬對《每日經(jīng)濟新聞》記者表示,國內(nèi)自研的大模型架構(gòu)的前景是非常值得期待的。
王鵬認為,隨著深度學習技術(shù)的不斷發(fā)展,Transformer架構(gòu)雖然取得了很大的成功,但也存在一些固有的問題和限制。因此,探索新的架構(gòu)和思路,有望為自然語言處理領(lǐng)域注入新的活力和創(chuàng)新。
“過去,國內(nèi)發(fā)布的大模型多以Transformer為基礎(chǔ),主要是因為Transformer在自然語言處理領(lǐng)域取得了非常顯著的效果,并且得到了廣泛的應用和驗證。此外,Transformer架構(gòu)也相對成熟和穩(wěn)定,有較高的可靠性和易用性。但是,隨著技術(shù)的不斷發(fā)展和需求的不斷變化,自研大模型架構(gòu)的需求和重要性也逐漸凸顯出來。”王鵬說。
王鵬認為,2024年是否會出現(xiàn)更多自研的大模型架構(gòu)取決于多個因素的綜合影響。一方面,隨著技術(shù)的不斷進步和創(chuàng)新,自研大模型架構(gòu)的可行性和優(yōu)勢會逐漸增加;另一方面,市場需求和應用場景的變化也會影響大模型架構(gòu)的選擇和發(fā)展方向。
“因此,未來自研大模型架構(gòu)的發(fā)展還需要根據(jù)實際情況進行觀察和分析。”王鵬說。
值得思考的是,采用Transformer還是自研架構(gòu),對相關(guān)企業(yè)的未來發(fā)展是否會產(chǎn)生深遠影響?
張孝榮認為,在發(fā)展路徑上,企業(yè)選擇使用Transformer架構(gòu)還是自研架構(gòu),可能會根據(jù)不同的應用場景和需求出現(xiàn)顯著區(qū)別,“一方面,自研架構(gòu)可能為企業(yè)提供更定制化的服務(wù),更好地滿足特定需求;另一方面,自研架構(gòu)的開發(fā)和維護可能需要更多的資源投入。因此,企業(yè)在選擇架構(gòu)時需要權(quán)衡各種因素,包括技術(shù)成熟度、研發(fā)成本、市場需求等。”
王鵬則對記者表示,在大模型的架構(gòu)選擇方面,運用Transformer還是自研,企業(yè)在發(fā)展路徑上可能會出現(xiàn)顯著區(qū)別。他認為,一方面,采用Transformer架構(gòu)可以快速搭建和訓練大模型,并利用現(xiàn)有的工具和資源進行優(yōu)化和調(diào)整;另一方面,自研大模型架構(gòu)可以更好地滿足特定應用場景的需求,提高模型的性能和效果。
“企業(yè)在選擇大模型架構(gòu)時需要根據(jù)自身的實際情況和需求進行綜合考慮和權(quán)衡。同時,無論采用何種架構(gòu),都需要注重模型的可解釋性、魯棒性和可擴展性等方面的問題,以確保模型的穩(wěn)定性和可靠性。”王鵬說。
2024年剛剛開始,自研架構(gòu)的進一步涌現(xiàn)給新一年的大模型賽道帶來了更多的不確定性和新的可能性。長期來看,Transformer大概率不是大模型的“唯一解”,但其已經(jīng)在業(yè)內(nèi)收獲了廣泛的應用和驗證,對于Transformer的挑戰(zhàn)者來說,發(fā)布自研架構(gòu)也不過是踏出了“萬里長征”的第一步。
封面圖片來源:公司官網(wǎng)
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP