您的位置:首頁 >科技 >

深度求索大模型:“花小錢辦大事”

2025-01-15 16:19:01    來源:科技日報

一個來自中國的開源模型,在開年之際聚焦了人工智能(AI)行業的目光。

日前,杭州深度求索人工智能基礎技術研究有限公司(以下簡稱“深度求索”)上線并同步開源DeepSeek-V3模型,同時公布長達53頁的技術報告,介紹關鍵技術和訓練細節。

和很多語焉不詳的報告相比,這份報告真正做到了開源。其中最抓人眼球的部分是,V3模型能力大幅升級,但訓練僅僅花費557.6萬美元,僅用2048塊H800顯卡,耗時不到兩個月。

美國人工智能初創公司Anthropic首席執行官達里奧·阿莫迪曾透露,GPT-4o的模型訓練成本約為1億美元。美國開放人工智能研究中心(OpenAI)創始成員之一安德烈·卡帕西點評,DeepSeek-V3讓在有限算力預算內進行模型預訓練這件事變得容易。

深度求索如何實現“花小錢辦大事”?它是否走出了大模型發展的一條新路?

降低模型推理成本

深度求索一直是國內AI版圖上位置相對獨特的一家——它是唯一沒有做2C(面向個人消費者)應用的公司,選擇開源路線,至今沒有融過資。

去年5月,深度求索發布DeepSeek-V2,以其創新的模型架構和史無前例的性價比爆火。模型推理成本被降至每百萬Tokens(大模型用來表示自然語言文本的單位)僅1元錢,約等于開源大模型Llama370B的七分之一,GPT-4Turbo的七十分之一,引發字節、阿里、百度等企業的模型降價潮。

個中關節在于,DeepSeek提出的MLA(多頭潛在注意力機制)架構和DeepSeekMoESparse(采用稀疏結構的混合專家模型)結構,大幅降低了模型的計算量和顯存占用,實現了高效推理和經濟高效的訓練。

簡單來說,模型壓縮、專家并行訓練、FP8混合精度訓練、數據蒸餾與算法優化等一系列創新技術大幅降低了V3模型成本。作為新興的低精度訓練方法,FP8技術通過減少數據表示所需的位數,顯著降低了內存占用和計算需求。據報道,目前,谷歌等已將這項技術引入模型訓練與推理中。

深度科技研究院院長張孝榮在接受媒體采訪時說,DeepSeek的“出圈”是對其在大模型技術上的突破和創新的認可,其通過優化算法和工程實踐,實現高性能與低成本的平衡。DeepSeek為整個行業的發展注入活力,也對大模型的技術路徑和工程實踐產生積極影響,推動高效訓練、模型輕量化和工程優化。

有業內人士分析,V3在架構創新、訓練效率和推理性能方面展現巨大潛力,尤其在成本和性能的平衡方面作出重要貢獻。不過,與此同時,也仍有許多挑戰需要解決,如需進一步擴展上下文長度、優化多模態數據處理等。未來的研究方向包括提升模型的推理速度、完善更高效的硬件架構設計,以及增強多模態學習和生成能力。

不堆算力創新算法

大參數、大算力、大投入,這條已經被驗證行之有效的ChatGPT路徑,實則是絕大部分創業公司難以承受之重。

據報道,仍處于研發過程中的GPT-5,已進行過至少兩輪訓練,每輪訓練耗時數月,一輪計算成本接近5億美元。一年半過去,GPT-5仍未問世。這意味著,新一代通用大模型的訓練成本已達到十多億美元甚至更高。未來這一數字可能持續攀升。

規模定律(Scalinglaw)是指在訓練大模型時,數據量、參數量和計算資源越多,訓練出的模型能力和效果越好。然而,一段時間以來,行業對規模定律可持續性的疑問不絕于耳。

V3的出現提供了新的解法。“ScalingLaw不只停留在預訓練階段,而是往后訓練,尤其是注重推理領域的后訓練集、強化學習等領域擴展。”智源研究院副院長兼總工程師林詠華接受科技日報記者采訪時說,這一點在國外以OpenAIo1發布為標志,國內則有DeepSeek使用強化學習訓練發布DeepSeekR1這個具有很強挖掘和激活能力的模型。

在林詠華看來,V3的發布,也印證了利用R1可以很好進行能力提升。

行業相關探索還有很多,如Kimi將強化學習用到更多搜索場景,發布以邏輯思考和深度思考為核心功能的數學模型K0-math;螞蟻技術研究院建立強化學習實驗室,圍繞如何在后訓練及強化學習上進行更多模型能力的探索。林詠華期待,未來不僅是靠堆砌更多算力、參數和數據,而是靠真正的算法創新,持續在后訓練階段幫助模型提升基礎能力。

值得注意的是,“省錢模式開啟”并不意味著算力式微。

V3發布后,360集團創始人周鴻祎發文稱贊“DeepSeek的進步對推動中國AI產業發展是極大利好”,但他也認為,這并非說中國AI發展不需要高端算力芯片。囤顯卡建算力集群依舊必要,因為目前預訓練算力需求或許沒那么大,但像慢思考這類復雜推理模型對推理算力需求大,文生圖、文生視頻的應用也需消耗大量算力資源。巨頭們提供AI云服務,構建龐大算力基礎必不可少,這與DeepSeek降低訓練算力需求是兩回事,兩者并不矛盾。

一位行業專家在接受記者采訪時認為,2025年,大模型行業會進一步收斂,這種收斂既包括技術層面,也包括廠商層面。進入“百模大戰”后期,要進一步提高模型計算效率,降低推理成本,對計算的架構分布、利用效率等都提出更為精細化的要求。

“燒錢”不是唯一邏輯

深度求索創始人梁文鋒在金融行業征戰已久。他成立的幻方量化早在2019年就開始大手筆投入深度學習訓練平臺。2023年7月,梁文鋒創立深度求索,專注AI大模型的研究和開發。

據報道,包括梁文鋒在內,深度求索僅有139名工程師和研究人員。在外界看來,這是一支“神秘的東方力量”。

但在一次采訪中,梁文鋒曾透露,深度求索并沒有什么高深莫測的奇才,團隊都是國內頂尖高校的應屆畢業生,沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。他特別提及,“V2模型沒有海外回來的人,都是本土的”。

他也曾在訪談中說,過去30多年的IT浪潮,中國基本上扮演的是追隨者角色,“隨著經濟的發展,中國也應該逐步成為技術創新的主要貢獻者”。如今,V3的橫空出世貢獻了一個更高效率、更低成本的大模型發展樣本,也讓AI行業看到一種可能:雖然訓練大模型依然需要大規模顯卡集群,但“燒錢”不是行業唯一的邏輯,也并不是誰燒錢多,誰就注定贏得一切。

對此,周鴻祎評論道,V3用2000塊卡做到了萬卡集群才能做到的事。用這種極致訓練方法訓練專業大模型,算力成本會進一步降低,促使中國AI在專業、垂直、場景、行業大模型上更快普及。

標簽:

精彩閱讀

伊頓與國軒高科達成戰略合作,共繪綠色能源未來

《醬香威士忌團體標準》正式發布

在購買車輛保險時需要注意哪些因素?

故宮博物院攜手蘇州灣數字藝術館,共啟“‘紋’以載道——故宮沉浸式數字體驗展”

當前兒童呼吸道感染有哪些特點?家長應該注意什么?專家建議

我與國家一起前行丨中國嗩吶成新“頂流” 鄉土樂器也能吹出國際范兒

新華社經濟隨筆:車企駛入“人形機器人”賽道的背后

北京市出臺自動駕駛汽車條例 支持用于個人乘用車、城市公共汽電車等服務

各行各業積極因素不斷涌現實現“開門紅” 中國經濟熱度穩步提升

女人過了40歲穿衣別糾結,真該試試這些穿搭,溫柔又顯女人味

伊姐周日熱推:電視劇《千朵桃花一世開》;綜藝《你們說了算》......

粉色+灰色、藍色+棕色,這4組配色怎么搭都好看!

中年女人冬季要會穿搭,用這些單品塑造簡約美,優雅高級又耐看

冬季過半,50歲的女性朋友們就這樣穿,才能保暖、時髦兩不誤

女人冬天穿衣要精致些,試試這些大氣簡約穿搭,每一套都舒適

戰略大調整 蒂芙尼退出云南市場

2024年中國輕紡城成交額破4000億元

羽絨服里的“科技范”

日妝在華業務繼續收縮

世界最大“水能充電寶” 全面投產發電

甘肅電源裝機容量突破1億千瓦 新能源占比超64%

人工智能延伸中國電影想象力

“投資中國”品牌更閃亮

2025全國網上年貨節將于1月7日啟動

光電融合確定性新型算網基礎設施在南京開通

用于鋅-空氣電池的新型高效催化劑面世

裸子植物核型演化歷史和關鍵模式揭示

我國直徑最大雙護盾硬巖掘進機始發

上海腦機接口臨床試驗迎重大突破 漢語“意念對話”成真

全球首個光電融合確定性新型算網基礎設施正式開通

地磁暴跟銀川地震并無直接關系

世界最大超導磁體動態測試設施建成

研究顯示中國大米越來越好吃

著力構建可解釋性模型

有色金屬行業首個大模型“坤安”面世

重慶大學有了AI輔導員

南京:挖掘數據潛力 打造智慧城市

營建公正透明數字消費環境

抖音支付回應“注冊資本增至31.5億元”:有助于更穩健地開展業務

2025年國際消費電子展將至 中國AI眼鏡產業鏈或成熱點

2025年,人工智能如何進化

開源鴻蒙操作系統5.0版本發布

2025全國網上年貨節將于1月7日啟動

人工智能延伸中國電影想象力

貴4000元!零跑C16長續航售17.28萬起 限時降5000

大眾汽車與小鵬汽車再聯合 打造超快充網絡

極氪領克整合:讓中國新能源汽車從做大到做強

2025款ID.4 CROZZ上市 售19.49-29.86萬元

主打低油耗 吉利銀河L6 EM-i官圖發布

利好接續政策值得車市期待 激發首購需求是促進消費關鍵

特斯拉汽車交付量十多年來首次同比下滑

合資車企合資模式蝶變 今年欲打“翻身仗”

推動汽車產業高質量發展正當時

年終講|從云端融入市場競爭 保時捷在中國市場還有很多事可以做

浙江為科技成果轉化上“雙保險”

吉林:溫室大棚“科技范”,農民增收添動力

引江補漢工程首臺雙護盾硬巖掘進機始發

上海2024年接待入境游客超600萬人次

清潔能源賦能青海綠算發展

浙江為科技成果轉化上“雙保險”

南京:挖掘數據潛力 打造智慧城市

四川丹棱:追“光”逐“綠” 向“新”而行

江西省科技型中小企業入庫數突破16000家

提升粵港澳大灣區科技創新中心建設整體效能

推動香港更好融入國家創新體系建設

如何破解“一人生病全家動員”的難題?無陪護病房給出暖心答案

“蛇幣”“蛇鈔”、陳醋、冰雪……新年消費市場活力足、人氣旺

冬季是發生一氧化碳中毒最主要的季節 該如何應對?

陜西首開至香港直達高鐵

各地冰天雪地變成“金山銀山” 冰雪經濟持續繁榮“熱”起來

“硬核”數據見證冰雪經濟潛能 “冷資源”釋放出“熱效應”

兒童感染流感后建議48小時內用抗病毒藥

近期流感病毒陽性率快速上升 兒童流感、肺炎支原體感染高發

新年伊始 冰雪經濟活力綻放

專家提醒:兒童流感癥狀和成人不同 應對流感 可以“未病先防”

專家提醒:兒童流感癥狀和成人不同 應對流感 可以“未病先防”

賣慘短視頻何以頻出“新花樣”

網紅兒童玩具安全性調查:用“迷你廚房”炒菜,刺鼻味道撲面而來

全國碳市場活力進一步提升 2024年配額成交額超181億元

2024年前11月民企新增減稅降費及退稅1萬億元 占比超七成

冷空氣將影響我國大部地區

“主動”放棄休年假,能否獲得補償?

青海率先實現居民醫保省級統籌

國內首款市域C型動車組上線運營

首店經濟蓬勃發展激活消費新動能

繳納過社保仍被認定為“應屆畢業生”?這個可以有!

集采阿司匹林一片3分錢,質量有保證嗎?

守護“核電心臟”的90后

這群年輕人,組裝出載人飛船

河北希望工程:傳承希望星火 傳遞社會溫暖

羽絨服里的“科技范”

一起解鎖“微度假”多種打開方式 “City Eat”成為年輕力消費新趨勢

免簽效應持續顯現 “中國游”成“熱”體驗

科技為“中國速度”點睛加油

地方發力吸引新品牌、新門店,企業加速開首店、推新品 首店經濟蓬勃發展激活消費新動能

2025年全國新年登高健身大會四川省主會場活動在天全縣啟動

重磅!華潤啤酒攜旗下雪花啤酒與摘要酒簽約2025春糖首席合作伙伴

|閬芽|第六屆新芽杯國際少兒書畫大賽圓滿落幕

寶驪賦能亞太市場,攜手經銷商伙伴共贏新時代

奔向健康新藍海,揚子江藥業集團召開2024年年終工作會議暨職工代表大會

國家退役軍人服務中心領導蒞臨中銀律所交流座談

中銀律所及中銀律師榮登《2024錢伯斯大中華區指南》榜單

寶驪叉車實力“炸街”,法國市場全面生花

孔達達:文藝工作者于大國文化建設中的責任與擔當

河南黃河酒業:大黃河美酒

聯創十載·居安興業:西安聯創物業10周年盛典年會成功舉辦!

一加 Ace 5 系列Pop-up快閃來襲,電競女神程瀟驚喜現身

全國冰雪消費季“歡騰亞冬 嗨購龍江”促消費系列活動 正式啟動