您的位置:首頁 >科技 >

DeepSeek顛覆了什么?——大模型“國產之光”破局的啟示

2025-02-07 13:49:54    來源:經濟參考報

一家人工智能初創企業淺淺扇動兩下翅膀,即掀起全球科技界的一陣“海嘯”。

短短30天,中國初創企業深度求索(DeepSeek)先后發布兩款性能比肩GPT-4o的大模型,“1/18的訓練成本、1/10的團隊規模、不分伯仲的模型性能”令硅谷大受震撼。

最新一期《經濟學人》封面文章第一時間讓位給這一土生土長的國產大模型:《低成本中國模型的成功動搖美國科技優勢》。很快,華爾街也同樣感受到了這種被動搖的震感。

事實上,這匹黑馬的貢獻絕非“低成本”這一個標簽所能概括。它不僅重新定義了大模型的生產函數,還將重新定義計算。

不論開源與閉源未來的優勢如何,這股沖擊波都將迫使全球科技界重新思考:當“規模定律”與“生態壁壘”不再絕對,什么才是下一賽季AI競爭的核心?或許我們能從中獲得新的啟示。

擊穿三大定式

1月下旬,DeepSeek在中區、美區蘋果App Store下載榜單中登頂,超越ChatGPT、谷歌Gemini等全球頂尖科技巨頭研發的模型產品。具體而言,它顛覆了什么?

——打破“越強越貴”的成本詛咒

價格感人是讓DeepSeek快速出圈的第一個標簽。DeepSeek-R1的API服務定價為每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens 16元,而o1模型上述三項服務的定價分別是55元、110元、438元。

凡是使用過幾款大模型的用戶很快就能形成這樣一個共識:就推理能力而言,DeepSeek直逼OpenAI的o1、Meta的Llama-3等一流模型,甚至在回答問題之前還能給出它的推理過程和思考鏈路。AI投資機構Menlo Ventures負責人Deedy對比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜、上下文更長、推理性能更佳。低成本比肩o1模型,令硅谷的“燒錢模式”一時間遭到猛烈質疑。

然而在過去,大模型服務是標準的“一分錢一分貨”,想要用上更優性能的產品必須支付更高昂的費用,以覆蓋整個模型訓練過程中更高算力成本的支出。

——超越“性能-成本-速度”的不可能三角

當硅谷仍在為GPU萬卡集群豪擲千億資金時,一群土生土長的中國年輕人用557.6萬美元證明:AI大模型的比拼或許并不只靠規模,更重要的是看實際效果。有句話形象地概括出DeepSeek的優勢:“不是GPT用不起,而是DeepSeek更具性價比。”

傳統模型訓練,需要在性能、成本、速度之間權衡,其高性能的獲得,需要極高的成本投入、更漫長的計算時間。而DeepSeek重構了大模型的“成本-性能”曲線,同時壓縮了計算周期。

根據DeepSeek技術報告,DeepSeek-V3模型的訓練成本為557.6萬美元,訓練使用的是算力受限的英偉達H800 GPU集群。相比之下,同樣是開源模型的Meta旗下Llama-3.1模型的訓練成本超過6000萬美元,而OpenAI的GPT-4o模型的訓練成本為1億美元,且使用的是性能更加優異的英偉達H100 GPU集群。而使用過程中,DeepSeek給出反饋的時長也大部分控制在5秒至35秒之間,通過算法輕量化、計算效率最大化、資源利用率優化,成功壓縮了計算時間,降低了延遲。

——走出“參數膨脹”陷阱

ChatGPT橫空出世后700多天里,全球人工智能巨頭不約而同走上了一條“大力出奇跡”的“暴力美學”路線,參數越“煉”越大,給算力、數據、能耗帶來了極大壓力。很長一段時間,參數幾乎成為大模型廠商比拼的最大焦點。

而另辟蹊徑的DeepSeek恰巧處于對角線的另一端:并不盲目追求參數之大,而是選擇了一條通過探索更高效訓練方法以實現性能提升的“小而精”路線,打破了“參數膨脹”的慣性。

例如DeepSeek-R1(4B參數)在數學推理、代碼生成等任務上具有比肩70B參數模型(如Llama-2)的能力,通過算法優化、數據質量提升,小參數模型一樣能實現高性能,甚至能夠“四兩撥千斤”。

實現三大躍升

“DeepSeek出圈,很好地證明了我們的競爭優勢:通過有限資源的極致高效利用,實現以少勝多。中國與美國在AI領域的差距正在縮小。”面壁智能首席科學家劉知遠說。

算力封鎖下的有力破局,得益于DeepSeek技術架構、數據策略、工程實踐三方面的關鍵突破。

——技術架構:重新定義參數效率

大模型的千億參數不應是冰冷的數字堆砌,而應是巧奪天工般地重組整合。

傳統大模型Transformer架構好比一條承載車輛的高速公路,當車輛(數據)數量足夠多的時候,每輛車必須和前后所有車溝通完成才能繼續行駛(計算),導致堵車(計算慢、能耗高)。而DeepSeek創新的架構則把一條串行的高速路,變成了一個輻射狀的快遞分揀中心,先把貨物(數據)按類型分類打包,再分不同路線同時出發開往不同目的地,每輛貨車(計算)只需選擇最短路徑。因此既能提高速度又能節約能耗。

——數據策略:質量驅動的成本控制

DeepSeek研發團隊相信,用“煉數據”取代“堆數據”,能使訓練更具效率。

傳統的數據策略好比去農場隨便采撿,常有價值不高的爛菜葉(低質量數據)。而DeepSeek創新的數據蒸餾技術,有針對性地篩選掉質量不高的爛菜葉:一方面自動識別高價值數據片段(如代碼邏輯推理鏈),相比隨機采樣訓練效率提升3.2倍,另一方面通過對抗訓練生成合成數據,將高質量代碼數據獲取成本從每100個tokens的0.8元降低至0.12元。

——工程實踐:架起“超級工廠”流水線

大模型傳統的訓練方式好比手工造車,一次只能裝配一臺,效率低下。而DeepSeek的3D并行相當于一方面通過流水線并行把造車流程拆分為10個步驟,同時組裝10輛車(數據分塊處理),另一方面通過張量并行,把發動機拆成零件,分給10個工廠同時生產(模型分片計算)。

至于推理過程,傳統模型好比現點現做的餐廳,客戶等菜時間長,推理過程慢。而DeepSeek采用的INT4量化,能把復雜菜品提前做成預制菜,加熱(計算)時間減半,口味損失不到5%,實現了大模型的低成本工業化。

超越技術的啟示

拆解DeepSeek的成功公式不難發現,通過底層架構創新降低AGI成本,同時以開源策略構建生態護城河,提供了中小型機構突破算力限制的可行路徑。此外,我們還能從中得到一些超越技術的啟示。

一直以來,驅動DeepSeek的目標并非利潤而是使命。“探索未至之境”的愿景也指向一種與之匹配的極簡且清爽的組織架構。

一名人工智能科學家表示,在人工智能大模型領域,大廠、高校、傳統科研機構、初創公司在資源稟賦上其實各有優勢,但結構性的局限很難扭轉。DeepSeek這種類型的初創公司能很好地彌補其中的一個缺位——具有大工程能力、不受制于短視商業邏輯的創新定力、創業團隊扁平化組織機制帶來的絲滑流暢的協作度。

據不具名人士透露,其V3模型的關鍵訓練架構MLA就源于一位年輕研究員的個人興趣,經過研判后DeepSeek組建了專項團隊開展大規模驗證與攻關。而R1模型果斷調整強化學習路線,領先于其他機構實現了近似o1的推理能力,核心原因之一也歸功于其青年團隊對前沿技術的敏銳嗅覺與大膽嘗試。

“我們創新缺少的不是資本,而是信心,以及組織高密度人才的能力,調動他們高效地進行創造力與好奇心驅動的創新。”DeepSeek創始人梁文鋒說。

在DeepSeek身上,我們看到了皮克斯動畫工作室的影子。這個年輕的中國初創企業與那個創作27部長片有19部獲得奧斯卡最佳動畫、同樣以創新為鮮明標簽的組織,有著不謀而合的組織機制與范式選擇,以及由此帶來的高企的創新成功率與人才留存率。

不同于先發者略顯封鎖的護城堡壘,DeepSeek贏得贊譽的還有它的開源路線。將代碼、模型權重和訓練日志全部公開,不僅需要格局,更需要勇氣與實力。

“在顛覆性技術面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。”梁文鋒這樣解釋選擇開源的原因,“開源、發論文,其實并不會失去什么。對于技術人員來說,被follow(追隨模仿)是很有成就感的事。”

從技術到愿景,DeepSeek堅定選擇的始終是一條難且正確的路。這也是為什么,即便別國在人工智能領域已坐享先發優勢,后發者依然有機會憑借技術創新、成本革命打破大模型競爭的傳統邏輯,打破人工智能行業競爭格局,打破“他國更擅長從0到1的原始創新,而中國更擅長從1到10的應用創新”的成見,重塑競爭優勢的奧秘。

北京時間2月1日凌晨,在OpenAI發布其推理系列最新模型o3-mini時,我們從中看到了一個熟悉的字眼:“Deep research”。這是否是國產之光“被follow”的開端盡管不好斷言,但我們至少身體力行走出了一條“大力出奇跡”之外,另一條具有自主創新基因的制勝之道。

正如梁文鋒此前接受采訪時所說,“中國要逐步成為貢獻者,而不是一直‘搭便車’。”( 張漫子)

標簽:

精彩閱讀

定位豪華電混越野,捷途發布“縱橫”產品序列

年終講|比亞迪向左,吉利向右

中國電動汽車走俏新加坡市場

2024年全國電動汽車充換電基礎設施數量增長49.1%

2025年豪車市場:格局將如何演變?

特斯拉新一輪全球漲價要來了?

德國汽車業:歐洲應歡迎中國電動車企投資

年終講|東風干大事,以人為本

2.7億人次、2.5億人次、3.21億張……透過數據看“流動的中國”活力奔涌

鏟冰除雪、壓速帶道、“人工+機械”……各地積極應對寒潮 保通保暢保安全

多地年度住房計劃關注“人房地錢”聯動 土地成交活躍提信心、“暖意”濃

歡歡喜喜過大年!新春“氛圍組”就位 “民俗+”點亮春節“儀式感”

預防春季食源性疾病需防范兩類風險因素 專家作出詳細解讀

為了一份責任和擔當 “鋼軌醫生”默默守護春運安全

1.74萬億元、比上年增3.2% 電信業務乘“數”而上向“新”行穩步增長

節前招聘送“春風” 為就業群體和各類用人單位吃下“定心丸”

“村晚”讓各族群眾共享熱鬧非凡“文化大餐” 沉浸式感受獨特年味

一起解鎖各地春節文旅市場“流量密碼” 文化之美添彩和美中國年氛圍

春節臨近 節日市場購銷兩旺

龍舞鳳飛歌盛世,國強民富樂無邊!春節臨近 各地舉辦豐富多彩迎新活動

“旅游過年”避坑 別貪便宜是關鍵

這個流感季啥時結束?

新型“回憶錄”走紅網絡:靠一本手作書 實現回憶二創與幸福重組

獨轅四景車曬出百姓幸福年

我國呼吸道傳染病流行情況下降

春節臨近騙子“加班加點”!教你如何守住“錢袋子”

衣服、機票、日用品…… 不同的年貨裝滿對家人同樣的愛

“我們都是傳承人” 揭秘春節申遺背后的故事

綠皮車上,守護鄉愁與希望

2024年全社會用電量同比增6.8%

南粵空港國門“春天的故事”

春節假期全國口岸日均出入境人員將達185萬人次

在海底建隧道迎春節

醫保藥品追溯碼覆蓋九成以上定點醫藥機構:一藥一碼,讓參保人用藥更安心

春晚吉祥物“巳升升”有哪些中式美好寓意?設計團隊揭秘

班味更濃了!封神電影“魔家四將”現身小米科技園,這下真找到班上了!

“老有所為”讓“銀發經濟”持續釋放出巨大的市場潛力

春節臨近騙子“加班加點”!教你如何守住“錢袋子”→

當最強寒潮遇到春運高峰 請收好這份出行攻略

「超級元氣工廠」攜手閱文八大明星IP 推出行業首款“PPF(Premium Plush Figure)精品毛絨手辦”

加碼“春節檔” 中國銀行攜手中國銀聯啟動“國補營銷季”信用卡專項活動

以暖心、用心換放心、舒心,人保健康全力構建“大消保”工作格局

上海試點開展“已故人員銀行卡賬戶線索跨行查詢”服務

“模”力無界,“算”賦百業!奧蘭德 MDC 智能微模塊正式發布

過年都在想賺錢?你想它有啥用啊

2025海絲騰新春禮贊:以臻眠犒賞更卓越的自己

Checkout.com 實現45%的增長,為重返盈利奠定基礎

共慶豐收,同望未來,“2024豐收中國萬里行”在京圓滿收官

小柴胡顆粒入選廣西流感中醫藥防治方案

中國自行車運動騎游大會2025環浙步道自行車系列賽在上海啟動

當國寶遇上非遺:愛上淘寶的熊貓公益,網友表示根本停不下來!

破局2025·東西方玄學文化研討會圓滿落幕

智美未來,藝啟新程——摩天輪智美集團年會奏響發展新樂章

人保車險-新能源車車險購買指南:電動車與燃油車的車險差異

人保車險-新能源車車險購買指南:電動車與燃油車的車險差異

喜迎新春!承德市第十屆職工、社區趣味冰上運動會歡樂開賽!

“云算力與傳統挖礦的比較:Bit.com 讓你了解挖礦新趨勢”

“潮燃青春共創會”正式啟動,奏響青春激昂樂章

林德叉車亮相第五屆航空物流產業年會

林德連續七年閃耀進博會,展現智慧物流新風貌

醫者仁心 御醫之后——記北京大衛中醫醫院院長張占宗

年貨節暖意來襲!用10萬+個村級合作點,講述順豐“下沉與上行”的故事

當代婦產十五周年慶典——乘風破浪,揚帆新起點·啟航新征程

以“長期思維”連接世界,中企跨境護航“外貿新兵”——天久金屬高質量出海

“向上增長”進行時:中企跨境激活行業龍頭華宇紙箱機械 增長新引擎

凌俊杰委員:深化京港合作,提升“北京服務”品牌的國際化水平

巖山科技:位列胡潤AI企業榜第7名,AI創新實力獲肯定

算力交易“電商平臺”來了!

航天溫控技術讓蔬果擁有超長保鮮期

“新同事”春運“上崗” 變電所實現無人化

AR眼鏡,離我們還有多遠

智慧春運讓旅客出行更從容

中國人民銀行:科技型中小企業獲貸率近50%

機器學習助力多種癌癥早期篩查

深度求索大模型:“花小錢辦大事”

快手年貨節促消費,近2.2萬主播商品交易總額增速超一倍

高德將上線“京城網約司機服務地圖”等服務

刷掌開門更普及了——智能門鎖生物識別技術升級

嫦娥五號月壤樣品中發現奇特晶體生長現象

“銻貓”實驗為量子計算糾錯提供新方法

磷化鈮薄膜在超薄線路制造中展現潛力 有助解決電子產品能耗問題

AI推理芯片激發新一輪應用創新

數智檢修迎春運首秀

我國建立世界第一套微波亮溫度國家計量基準

迄今最精細黑猩猩腦圖譜發布

全國首家AI醫院將面向公眾開放,AI會取代醫生嗎?

呼吸道感染康復期用藥“益氣清肺顆粒”獲批上市

2025,人工智能走向何方?我們如何擁抱變化?

算力交易“電商平臺”來了!

逐浪AI大潮,中國向新而生

中國科技企業宜以AI為槳高質量“出海”

浙江:去年數字經濟核心產業增加值增長8%左右

中國電子云可信數據空間解決方案發布

機器學習助力多種癌癥早期篩查

全國青少年科技創新大賽不再接受15歲以下少年兒童參賽

日本人工智能應用潛力仍存

強化數智賦能制造業蝶變升級

2025流行色 摩卡慕斯

駱駝牽手中國科學探險協會,制定《多場景下戶外沖鋒衣服裝分級評價標準》

“冰雪熱”釋放新動能

“可愛經濟”為什么惹人愛?

春節寵物寄養咨詢火爆 寵物主人盼攜寵便捷出行

滑雪裝備市場開“卷” 不斷擴張的Nobaday瞄準線下門店

“谷子經濟”受中國年輕人追捧 驅動城市產業發展

轉型未見效,太平鳥業績再下滑

著力培育服飾消費新增長點

新消費觀察 | 專業與時尚齊飛 國貨品牌掀起戶外新風潮

廣汽豐田把高階智駕價格打下來了