亚洲狠狠,一级黄色大片,日韩在线第一区视屏,韩国作爱视频久久久久,亚洲欧美国产精品专区久久,青青草华人在线视频,国内精品久久影视免费

每日經(jīng)濟新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

揭秘DeepSeek-V3“物美價廉”的背后：蒸餾技術(shù)存在天花板，依賴合成數(shù)據(jù)訓(xùn)練有風險

每日經(jīng)濟新聞 2024-12-31 19:19:07

深度求索DeepSeek-V3模型在業(yè)界掀起波瀾。據(jù)悉，該模型采用數(shù)據(jù)蒸餾技術(shù)，將復(fù)雜數(shù)據(jù)簡化為高質(zhì)量數(shù)據(jù)，提升了訓(xùn)練效果。然而，有學(xué)者指出，蒸餾技術(shù)雖能提高效率，但可能導(dǎo)致“學(xué)生模型”無法超越“教師模型”，甚至影響創(chuàng)新。此外，DeepSeek-V3曾出現(xiàn)“自稱是ChatGPT”的幻覺問題，引發(fā)外界對其訓(xùn)練數(shù)據(jù)來源的質(zhì)疑。專家強調(diào)，確保高質(zhì)量AI的關(guān)鍵在于提供真實世界的高質(zhì)量數(shù)據(jù)。

每經(jīng)記者鄭雨航每經(jīng)實習記者岳楚鵬每經(jīng)編輯蘭素英

最近大火的深度求索DeepSeek-V3模型僅用557萬美元的訓(xùn)練費用，就達到了頂尖模型的效果，而且產(chǎn)品價格低廉，因此被網(wǎng)友們戲稱為大模型界的“拼多多”。國外獨立評測機構(gòu)Artificial Analysis在測試后聲稱，DeepSeek-V3超越了迄今為止所有開源模型。

DeepSeek-V3的訓(xùn)練僅使用2048個H800 GPU，總訓(xùn)練GPU卡時為2788千小時（其中預(yù)訓(xùn)練為2664千小時）。與之相對比，根據(jù)黃仁勛在GTC2024上的演講內(nèi)容，GPT-4 MoE使用8000個H100訓(xùn)練了90天，合計約為17280千卡時，相當于DeepSeek-V3的6.2倍。

DeepSeek-V3訓(xùn)練提效的原因主要包括：低精度計算、小參數(shù)量和高質(zhì)量數(shù)據(jù)等。據(jù)DeepSeek-V3的技術(shù)文檔，該模型使用數(shù)據(jù)蒸餾技術(shù)（Distillation）生成的高質(zhì)量數(shù)據(jù)提升了訓(xùn)練效率。數(shù)據(jù)蒸餾指的是通過一系列算法和策略，將原始的、復(fù)雜的數(shù)據(jù)進行去噪、降維、提煉等操作，從而得到更為精煉、有用的數(shù)據(jù)。

不過，蒸餾技術(shù)并不是十全十美。有學(xué)者認為，蒸餾技術(shù)雖然可以提高模型訓(xùn)練效率，但借此開發(fā)的模型無法超越基礎(chǔ)模型的能力，在多模態(tài)數(shù)據(jù)方面效果不好，而且會導(dǎo)致研發(fā)人員為了快速取得成果而放棄對基礎(chǔ)模型的探索。

針對AI訓(xùn)練可能使用合成數(shù)據(jù)（大模型生成數(shù)據(jù)）這一話題，倫敦大學(xué)學(xué)院（UCL）名譽教授和計算機科學(xué)家彼得·本特利對《每日經(jīng)濟新聞》記者表達了擔憂，稱“如果繼續(xù)在其他AI的輸出上訓(xùn)練AI，結(jié)果可能是模型崩潰。確保高質(zhì)量AI的唯一方法是，為其提供人類的高質(zhì)量內(nèi)容。”

圖片來源：AI生成

蒸餾技術(shù)并非新技術(shù)，諾獎得主辛頓2015年就已提出

根據(jù)DeepSeek-V3的技術(shù)文檔，針對推理相關(guān)數(shù)據(jù)集（如數(shù)學(xué)、代碼競賽、邏輯謎題等），DeepSeek-V3利用之前訓(xùn)練好的 DeepSeek-R1模型生成數(shù)據(jù)后，再使用結(jié)合了監(jiān)督微調(diào)（SFT）和強化學(xué)習（RL）訓(xùn)練的專家模型來蒸餾生成最終的數(shù)據(jù)。針對非推理數(shù)據(jù)（如創(chuàng)意寫作、角色扮演、簡單問答等），使用DeepSeek-V2.5生成回復(fù)，并由人類驗證數(shù)據(jù)的準確性和正確性。這些高質(zhì)量數(shù)據(jù)幫助提升了V3的訓(xùn)練效率，并提高了模型適應(yīng)能力。

數(shù)據(jù)蒸餾是什么？每經(jīng)記者查詢發(fā)現(xiàn)，蒸餾技術(shù)并不是新出現(xiàn)的事物，早在2015年，諾獎得主杰弗里·辛頓（Geoffrey Hinton）就提出了蒸餾（Distillation）這一思想。

圖片來源：arxiv

南洋理工大學(xué)計算機研究人員王漢卿向每經(jīng)記者表示，在谷歌提出劃時代的Transformer模型之前，大家都是在優(yōu)化小模型，這里加點東西，那里加點東西，模型的變化都不大，此時，蒸餾就是主要的優(yōu)化手段。

數(shù)據(jù)蒸餾的目的是將復(fù)雜模型的知識提煉到簡單模型。這一想法是通過已有的高質(zhì)量模型來合成少量高質(zhì)量數(shù)據(jù)，作為新模型的訓(xùn)練數(shù)據(jù)，從而達到接近于在原始數(shù)據(jù)上訓(xùn)練的效果。

以前的大模型訓(xùn)練相當于使用題海戰(zhàn)術(shù)，在大量的數(shù)據(jù)中訓(xùn)練，而蒸餾就相當于讓在題海戰(zhàn)術(shù)里磨練過的優(yōu)秀大模型充當新模型的老師，篩選出有效題目，再讓新的大模型訓(xùn)練。因此前一個模型在業(yè)界常被稱為“教師模型”，后一個模型常被稱為“學(xué)生模型”。

除此之外，DeepSeek-V3還利用蒸餾技術(shù)進行了知識蒸餾。

圖片來源：DeepSeek-V3技術(shù)文檔

王漢卿對每經(jīng)記者解釋道，知識蒸餾簡單來講，就是你有一個訓(xùn)練好的大模型M和一個準備訓(xùn)練的小模型m，假設(shè)輸入是x，你需要讓m(x)盡可能接近M(x)這個結(jié)果，就像是已經(jīng)提前知道了一道題的答案，只需要根據(jù)答案去解題就行了，而不需要做繁瑣的試錯流程。

有業(yè)內(nèi)人士對每經(jīng)記者補充道，這就是一個取長補短的過程，通過學(xué)習優(yōu)秀大模型好的部分來提升新模型的能力。

DeepSeek-V3的技術(shù)報告也明確表示，他們提出了一種創(chuàng)新方法，將推理能力從長鏈思維（Chain-of-Thought，CoT）模型（DeepSeek R1）中提取出來，并轉(zhuǎn)移到標準的大型語言模型（DeepSeek-V3）。這一流程巧妙地將R1的驗證和反思模式融合到DeepSeek-V3中，顯著提高了其推理性能。同時，還保持對DeepSeek-V3輸出風格和長度的控制。

蒸餾技術(shù)的天花板效應(yīng)：“學(xué)生模型”無法真正超越“教師模型”

如果蒸餾技術(shù)這么好用，是否意味著大模型的訓(xùn)練要轉(zhuǎn)向了？

倫敦大學(xué)學(xué)院（UCL）名譽教授和計算機科學(xué)家彼得·本特利在接受每經(jīng)記者采訪時表示：“這可能會對小機構(gòu)的（研究）進展產(chǎn)生重大影響，這些機構(gòu)不像OpenAI或谷歌那樣擁有巨額預(yù)算。”

但這并不意味著，蒸餾技術(shù)就是一個十全十美的事物。王漢卿向每經(jīng)記者表示，“我認識的（一線研究人員）基本沒人搞（蒸餾）了。”目前優(yōu)化大模型的方法是量化，比如降精度或是降緩存。DeepSeek-V3的技術(shù)報告也提到了使用FP8混合精度訓(xùn)練框架降低進度和通過壓縮鍵值來降低緩存的方法。

據(jù)他解釋，蒸餾技術(shù)存在一個巨大缺陷，就是被訓(xùn)練的模型（即“學(xué)生模型”）沒法真正超越“教師模型”。有研究表明，通過蒸餾訓(xùn)練的模型總是受到其“教師模型”能力的限制，這會產(chǎn)生一種隱性天花板效應(yīng)，無論蒸餾過程多么復(fù)雜，都無法真正超越原始模型的能力。當考慮到需要將能力擴展到新領(lǐng)域或應(yīng)對以前從未見過的挑戰(zhàn)時，這種限制就愈發(fā)成為問題。

有業(yè)內(nèi)人士也向每經(jīng)記者表示，你永遠無法從一本書的厚度里學(xué)到10本書的厚度。

上海交通大學(xué)副教授劉鵬飛在一篇學(xué)術(shù)報告中提到：“蒸餾技術(shù)為在數(shù)學(xué)推理任務(wù)中取得顯著性能提升提供了一條誘人的捷徑。雖然這種方法帶來了直接且可見的好處，但它掩蓋了一系列深刻的挑戰(zhàn)。”

表面上，模型可以通過相對簡單的方法快速實現(xiàn)令人印象深刻的性能改進，但它永遠無法超越原始模型的能力。更深層次看，它可能改變研究文化，導(dǎo)致研究者更傾向于捷徑而非根本性解決方案，以及侵蝕問題解決的基本技能。最終，過度依賴蒸餾可能會扼殺AI領(lǐng)域中新穎的、具有變革性的創(chuàng)意。AI模型的真正突破不僅在于它能夠解決復(fù)雜問題，而在于背后所拓展的復(fù)雜機制。

科學(xué)家：依賴合成數(shù)據(jù)訓(xùn)練存在風險

盡管DeepSeek-V3在基準測試中表現(xiàn)良好，但每經(jīng)記者在使用過程中發(fā)現(xiàn)，DeepSeek-V3竟然聲稱自己是ChatGPT。一時間，“DeepSeek-V3是否在使用ChatGPT輸出內(nèi)容進行訓(xùn)練”的質(zhì)疑聲四起。

圖片來源：每經(jīng)記者試用DeepSeek-V3截圖

每經(jīng)記者采訪到接近幻方人士，詢問“DeepSeek-V3大模型是否有使用ChatGPT輸出內(nèi)容訓(xùn)練？如果不是，該模型的內(nèi)容是如何進行訓(xùn)練的？”上述相關(guān)人士對此回復(fù)：“網(wǎng)上有很多寫的很好的答案，去搜下就知道了。”

在每經(jīng)記者的追問下，該人士指出，“不是兩句話能說清楚的……你問的問題太復(fù)雜，不是業(yè)內(nèi)做研究的人很難短時間理解。”

南洋理工大學(xué)研究人員王漢卿則向每經(jīng)記者解釋稱，有三種可能性，一是數(shù)據(jù)來源里包含ChatGPT（的輸出內(nèi)容），二是使用了GPT模型做蒸餾，三是在強化學(xué)習流程中出現(xiàn)了錯誤。

本特利在采訪中提到，“對DeepSeek-V3進行實驗的研究人員認為，這種新模型可能根據(jù)OpenAI等公司的模型輸出進行了訓(xùn)練。這可能是使用所謂的‘無版權(quán)’數(shù)據(jù)的一種簡單方法，但這不是一個好主意。互聯(lián)網(wǎng)上越來越多地充斥著‘AI垃圾’——大量AI生成的文本和圖像（以及很快的視頻）質(zhì)量很差。研究表明，如果繼續(xù)在其他AI的輸出上訓(xùn)練AI，結(jié)果可能是模型崩潰——AI會與現(xiàn)實失去聯(lián)系，并繼續(xù)輸出質(zhì)量差、相似的內(nèi)容。”

他對每經(jīng)記者強調(diào)，“確保高質(zhì)量AI的唯一方法是，為其提供人類的高質(zhì)量內(nèi)容，例如人類編寫的真實文本、人類繪制或拍攝的真實圖像、人類錄制或創(chuàng)作的真實音頻。如果想讓AI理解我們的世界，數(shù)據(jù)需要來自真實的物理世界。否則，AI就會開始胡思亂想。”

免責聲明：本文內(nèi)容與數(shù)據(jù)僅供參考，不構(gòu)成投資建議，使用前請核實。據(jù)此操作，風險自擔。

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

數(shù)據(jù) DeepSeek 大模型

上一篇文章

安彩高科：2024年12月31日召開董事會會議

返回每經(jīng)網(wǎng)首頁

下一篇文章

長園集團：2024年員工持股計劃買入公司股票2010萬股

相關(guān)文章

熱文精選

點擊排行

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟新聞報社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn