DeepSeek顛覆了什么?——大模型“國產之光”破局的啟示
一家人工智能初創企業淺淺扇動兩下翅膀,即掀起全球科技界的一陣“海嘯”。
短短30天,中國初創企業深度求索(DeepSeek)先后發布兩款性能比肩GPT-4o的大模型,“1/18的訓練成本、1/10的團隊規模、不分伯仲的模型性能”令硅谷大受震撼。
最新一期《經濟學人》封面文章第一時間讓位給這一土生土長的國產大模型:《低成本中國模型的成功動搖美國科技優勢》。很快,華爾街也同樣感受到了這種被動搖的震感。
事實上,這匹黑馬的貢獻絕非“低成本”這一個標簽所能概括。它不僅重新定義了大模型的生產函數,還將重新定義計算。
不論開源與閉源未來的優勢如何,這股沖擊波都將迫使全球科技界重新思考:當“規模定律”與“生態壁壘”不再絕對,什么才是下一賽季AI競爭的核心?或許我們能從中獲得新的啟示。
擊穿三大定式
1月下旬,DeepSeek在中區、美區蘋果App Store下載榜單中登頂,超越ChatGPT、谷歌Gemini等全球頂尖科技巨頭研發的模型產品。具體而言,它顛覆了什么?
——打破“越強越貴”的成本詛咒
價格感人是讓DeepSeek快速出圈的第一個標簽。DeepSeek-R1的API服務定價為每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens 16元,而o1模型上述三項服務的定價分別是55元、110元、438元。
凡是使用過幾款大模型的用戶很快就能形成這樣一個共識:就推理能力而言,DeepSeek直逼OpenAI的o1、Meta的Llama-3等一流模型,甚至在回答問題之前還能給出它的推理過程和思考鏈路。AI投資機構Menlo Ventures負責人Deedy對比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜、上下文更長、推理性能更佳。低成本比肩o1模型,令硅谷的“燒錢模式”一時間遭到猛烈質疑。
然而在過去,大模型服務是標準的“一分錢一分貨”,想要用上更優性能的產品必須支付更高昂的費用,以覆蓋整個模型訓練過程中更高算力成本的支出。
——超越“性能-成本-速度”的不可能三角
當硅谷仍在為GPU萬卡集群豪擲千億資金時,一群土生土長的中國年輕人用557.6萬美元證明:AI大模型的比拼或許并不只靠規模,更重要的是看實際效果。有句話形象地概括出DeepSeek的優勢:“不是GPT用不起,而是DeepSeek更具性價比。”
傳統模型訓練,需要在性能、成本、速度之間權衡,其高性能的獲得,需要極高的成本投入、更漫長的計算時間。而DeepSeek重構了大模型的“成本-性能”曲線,同時壓縮了計算周期。
根據DeepSeek技術報告,DeepSeek-V3模型的訓練成本為557.6萬美元,訓練使用的是算力受限的英偉達H800 GPU集群。相比之下,同樣是開源模型的Meta旗下Llama-3.1模型的訓練成本超過6000萬美元,而OpenAI的GPT-4o模型的訓練成本為1億美元,且使用的是性能更加優異的英偉達H100 GPU集群。而使用過程中,DeepSeek給出反饋的時長也大部分控制在5秒至35秒之間,通過算法輕量化、計算效率最大化、資源利用率優化,成功壓縮了計算時間,降低了延遲。
——走出“參數膨脹”陷阱
ChatGPT橫空出世后700多天里,全球人工智能巨頭不約而同走上了一條“大力出奇跡”的“暴力美學”路線,參數越“煉”越大,給算力、數據、能耗帶來了極大壓力。很長一段時間,參數幾乎成為大模型廠商比拼的最大焦點。
而另辟蹊徑的DeepSeek恰巧處于對角線的另一端:并不盲目追求參數之大,而是選擇了一條通過探索更高效訓練方法以實現性能提升的“小而精”路線,打破了“參數膨脹”的慣性。
例如DeepSeek-R1(4B參數)在數學推理、代碼生成等任務上具有比肩70B參數模型(如Llama-2)的能力,通過算法優化、數據質量提升,小參數模型一樣能實現高性能,甚至能夠“四兩撥千斤”。
實現三大躍升
“DeepSeek出圈,很好地證明了我們的競爭優勢:通過有限資源的極致高效利用,實現以少勝多。中國與美國在AI領域的差距正在縮小。”面壁智能首席科學家劉知遠說。
算力封鎖下的有力破局,得益于DeepSeek技術架構、數據策略、工程實踐三方面的關鍵突破。
——技術架構:重新定義參數效率
大模型的千億參數不應是冰冷的數字堆砌,而應是巧奪天工般地重組整合。
傳統大模型Transformer架構好比一條承載車輛的高速公路,當車輛(數據)數量足夠多的時候,每輛車必須和前后所有車溝通完成才能繼續行駛(計算),導致堵車(計算慢、能耗高)。而DeepSeek創新的架構則把一條串行的高速路,變成了一個輻射狀的快遞分揀中心,先把貨物(數據)按類型分類打包,再分不同路線同時出發開往不同目的地,每輛貨車(計算)只需選擇最短路徑。因此既能提高速度又能節約能耗。
——數據策略:質量驅動的成本控制
DeepSeek研發團隊相信,用“煉數據”取代“堆數據”,能使訓練更具效率。
傳統的數據策略好比去農場隨便采撿,常有價值不高的爛菜葉(低質量數據)。而DeepSeek創新的數據蒸餾技術,有針對性地篩選掉質量不高的爛菜葉:一方面自動識別高價值數據片段(如代碼邏輯推理鏈),相比隨機采樣訓練效率提升3.2倍,另一方面通過對抗訓練生成合成數據,將高質量代碼數據獲取成本從每100個tokens的0.8元降低至0.12元。
——工程實踐:架起“超級工廠”流水線
大模型傳統的訓練方式好比手工造車,一次只能裝配一臺,效率低下。而DeepSeek的3D并行相當于一方面通過流水線并行把造車流程拆分為10個步驟,同時組裝10輛車(數據分塊處理),另一方面通過張量并行,把發動機拆成零件,分給10個工廠同時生產(模型分片計算)。
至于推理過程,傳統模型好比現點現做的餐廳,客戶等菜時間長,推理過程慢。而DeepSeek采用的INT4量化,能把復雜菜品提前做成預制菜,加熱(計算)時間減半,口味損失不到5%,實現了大模型的低成本工業化。
超越技術的啟示
拆解DeepSeek的成功公式不難發現,通過底層架構創新降低AGI成本,同時以開源策略構建生態護城河,提供了中小型機構突破算力限制的可行路徑。此外,我們還能從中得到一些超越技術的啟示。
一直以來,驅動DeepSeek的目標并非利潤而是使命。“探索未至之境”的愿景也指向一種與之匹配的極簡且清爽的組織架構。
一名人工智能科學家表示,在人工智能大模型領域,大廠、高校、傳統科研機構、初創公司在資源稟賦上其實各有優勢,但結構性的局限很難扭轉。DeepSeek這種類型的初創公司能很好地彌補其中的一個缺位——具有大工程能力、不受制于短視商業邏輯的創新定力、創業團隊扁平化組織機制帶來的絲滑流暢的協作度。
據不具名人士透露,其V3模型的關鍵訓練架構MLA就源于一位年輕研究員的個人興趣,經過研判后DeepSeek組建了專項團隊開展大規模驗證與攻關。而R1模型果斷調整強化學習路線,領先于其他機構實現了近似o1的推理能力,核心原因之一也歸功于其青年團隊對前沿技術的敏銳嗅覺與大膽嘗試。
“我們創新缺少的不是資本,而是信心,以及組織高密度人才的能力,調動他們高效地進行創造力與好奇心驅動的創新。”DeepSeek創始人梁文鋒說。
在DeepSeek身上,我們看到了皮克斯動畫工作室的影子。這個年輕的中國初創企業與那個創作27部長片有19部獲得奧斯卡最佳動畫、同樣以創新為鮮明標簽的組織,有著不謀而合的組織機制與范式選擇,以及由此帶來的高企的創新成功率與人才留存率。
不同于先發者略顯封鎖的護城堡壘,DeepSeek贏得贊譽的還有它的開源路線。將代碼、模型權重和訓練日志全部公開,不僅需要格局,更需要勇氣與實力。
“在顛覆性技術面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。”梁文鋒這樣解釋選擇開源的原因,“開源、發論文,其實并不會失去什么。對于技術人員來說,被follow(追隨模仿)是很有成就感的事。”
從技術到愿景,DeepSeek堅定選擇的始終是一條難且正確的路。這也是為什么,即便別國在人工智能領域已坐享先發優勢,后發者依然有機會憑借技術創新、成本革命打破大模型競爭的傳統邏輯,打破人工智能行業競爭格局,打破“他國更擅長從0到1的原始創新,而中國更擅長從1到10的應用創新”的成見,重塑競爭優勢的奧秘。
北京時間2月1日凌晨,在OpenAI發布其推理系列最新模型o3-mini時,我們從中看到了一個熟悉的字眼:“Deep research”。這是否是國產之光“被follow”的開端盡管不好斷言,但我們至少身體力行走出了一條“大力出奇跡”之外,另一條具有自主創新基因的制勝之道。
正如梁文鋒此前接受采訪時所說,“中國要逐步成為貢獻者,而不是一直‘搭便車’。”( 張漫子)
標簽:
精彩閱讀
-
應用為先,未來已來——深圳打造人工智...
AI檢測一體機大幅提升車企產線效率,發布近200個城市+AI應用場景清... -
2024年我國規上電子信息制造業 增加值...
工業和信息化部2月6日發布數據顯示,2024年,我國規模以上電子信息... -
DeepSeek顛覆了什么?——大模型“國產...
一家人工智能初創企業淺淺扇動兩下翅膀,即掀起全球科技界的一陣海... -
人形機器人產業發展不斷提速 機構看好...
近期,人形機器人行業接連迎來利好消息,產業鏈多家上市公司紛紛透... -
DeepSeek有望激發 新一波人工智能創新浪潮
中國人工智能(AI)企業深度求索(DeepSeek)日前發布其最新開源模型Dee... -
家用市場期待機器人來“敲門”
挪威機器人初創公司1X科技研發的家用雙足人形機器人NEO Beta,可沖... -
春節假期全國攬投快遞包裹超19億件
近日,國家郵政局監測數據顯示,今年春節假期(1月28日至2月4日),全... -
DeepSeek來了!人工智能知識產權法律保...
2025年1月28日,深度探索DeepSeek發布,在世界產生巨大反響,DeepSe... -
2024年我國規上電子信息制造業增加值同...
工業和信息化部6日公布數據顯示,2024年,我國電子信息制造業生產增... -
從助力登山到服務生活 養老機器人規模...
真的管用。戴上之后腿都不疼了,感覺像是有人在拉著我上山!今年春節... -
人工智能助力研制出自愈瀝青
來源標題:人工智能助力研制出自愈瀝青據物理學家組織網2月4日報道... -
新型鈣鈦礦疊層電池能效創新高
來源標題:新型鈣鈦礦疊層電池能效創新高據美國每日科學網站2月5日... -
如何煮出熟度均勻的雞蛋
來源標題:如何煮出熟度均勻的雞蛋無論是在普通的廚房里,還是在充... -
健康干細胞轉為口腔癌細胞機制揭示
來源標題:健康干細胞轉為口腔癌細胞機制揭示據最新一期《自然·通... -
低空經濟時代無人機飛手如何“高飛”
來源標題:低空經濟時代無人機飛手如何高飛2024年,低空經濟首次被... -
科技賦能國防動員提質增效
來源標題:科技賦能國防動員提質增效科學技術是軍事發展最直接、最... -
山東探索“氫進萬家”示范樣板
來源標題:山東探索氫進萬家示范樣板這幾天,濟青高速濟南東服務區... -
杭州打造高水平創新活力之城
來源標題:杭州打造高水平創新活力之城杭州市打造更高水平創新活力... -
2024年我國規上電子信息制造業 增加值...
工業和信息化部2月6日發布數據顯示,2024年,我國規模以上電子信息... -
人形機器人產業發展提速 多家公司透露...
近期,人形機器人行業接連迎來利好消息,產業鏈多家上市公司紛紛透... -
DeepSeek有望激發新一波人工智能創新浪潮
中國人工智能(AI)企業深度求索(DeepSeek)日前發布其最新開源模型Dee... -
英媒: DeepSeek打破美對AI話語權壟斷
英國《衛報》網站日前刊文指出,中國人工智能(AI)企業深度求索(Deep... -
國產大模型破局啟示:DeepSeek顛覆了什么?
一家人工智能初創企業淺淺扇動兩下翅膀,即掀起全球科技界的一陣海... -
家用市場期待機器人來“敲門”
挪威機器人初創公司1X科技研發的家用雙足人形機器人NEO Beta,可沖... -
應用為先 深圳打造人工智能先鋒城市
AI檢測一體機大幅提升車企產線效率,發布近200個城市+AI應用場景清... -
現象級的科技飛躍:相信光 追逐光
從DeepSeek橫空出世,到登上春晚舞臺扭起秧歌的宇樹機器人;從以動畫... -
人工智能體產業風口已至
近段時間,人工智能體(AI Agent)這一新名詞開始頻繁出現在公眾視野... -
運營商“二次號碼”一鍵解綁上線 覆蓋1...
工業和信息化部近日通告2024年第四季度電信服務質量情況。數據顯示... -
政策與市場雙重驅動 多家消費電子公司...
2025年春節假期期間,消費電子市場熱度高漲,彰顯出行業復蘇的強勁... -
AI眼鏡賽道火熱 “百鏡大戰”一觸即發?
2月6日,AI眼鏡概念震蕩走強,概念股深圳雷柏科技股份有限公司、深... -
戲曲成頂流,年輕人越品越有味!
破圈,得以守圈。千年戲曲撞上賽博狂歡,meme梗圖與字幕竟成了年輕... -
15套神仙睡衣!又甜又撩顏值巨高!穿出...
待在家里的時候穿最多的就是各種好看的家居服睡衣了,超幸福的! 天... -
今年流行衛衣+半身裙,超百搭,時尚溫柔...
在時尚的輪回中,總有一些組合能夠跨越季節,成為永恒的經典。2025... -
新春走基層丨“中式戰袍”點燃春節服飾...
用一件漢服、馬面裙或具有新中式風格的衣服,作為今年春節走親訪友... -
金價超850元/克 春節優惠、小克重產品...
春節期間金價持續上漲,北京黃金市場消費也迎來了一波新年流量。在... -
18道工序打磨 西湖綢傘美出圈
在今年的春晚上,節目《借傘》給觀眾留下了深刻印象。演員手中精美... -
縣域消費市場供銷兩旺
菜籃子米袋子果盤子物豐量足價穩,百姓餐桌美味飄香;新能源汽車、綠... -
從春晚李子柒的彩裙 聊聊傳統的五色之美
春晚的開場視覺秀《迎福》中,李子柒化身蝴蝶仙子,以一襲長裙驚艷... -
披上“奧運戰袍”李寧能否實現新突破
近日,中國體育用品市場迎來了一場備受矚目的較量,李寧接替安踏成... -
文化潮起來 消費旺起來
消費升騰跳動,城市脈搏躍動,新春的廣州一片火熱。剛過去的蛇年春... -
本田日產合并失敗后,日產尋找新合作伙...
本田與日產的經營整合實際上很可能已告失敗。日產 2 月 3 日召... -
拒絕“兄弟”變“父子” 日產本田合并...
2月5日,據多方消息,日本兩大汽車制造商本田與日產的合并談判正走... -
豐田在華設新公司水到渠成
2月5日,豐田汽車宣布,將在上海市金山區設立獨資的雷克薩斯純電動... -
上市公司競逐低空飛行器固態電池 誰將...
今年以來,固態電池在eVTOL(電動垂直起降飛行器)領域的應用持續升溫... -
福特汽車2025年業績指引不如預期
當地時間2月5日,美國福特汽車發布財報顯示,公司2024年第四季度收... -
能源“機器人”應對充電激增壓力
今年春運期間,地處河北、河南、山西三省交界的青蘭高速山西東陽關... -
新能源車“上路”三大難點怎么破
新能源汽車保有量的快速增長讓更多使用過程中的難題暴露出來。充電... -
豐田第三財季營業利潤降28%,仍上調2025...
2月5日,全球最大汽車制造商豐田汽車公布,2025財年第三財季(2024年... -
2024年成績單揭曉,博世:2025年進一步...
回望2024年,全球經濟復蘇之路依舊崎嶇,且牽連甚廣,Tier 1巨頭博... -
“示界”競逐第五“界” 東風汽車戰略急轉
東風汽車管理層正在慎重思考一重大戰略,神龍可能要撤回一個示界。... -
錨定硬科技 科技主題基金有望大擴容
硬科技正在成為機構強力布局方向,當前多只科技主題基金正在或即將... -
醫療股開工首日崛起!熱門賽道基金悄然...
節后開工首日醫療賽道強勢行情背后,是許多管理熱門科技賽道的明星... -
春節假期后權益類基金新發熱度再攀升
2025年春節假期后,公募基金開始排隊發行。其中,權益類基金仍是基... -
財經深一度|春節假期后權益類基金新發熱...
2025年春節假期后,公募基金開始排隊發行。其中,權益類基金仍是基... -
DeepSeek“火出圈” 績優基金提前布局AI產業鏈
春節假期前后,國產AI大模型DeepSeek憑借其高性能、低成本、強生態... -
超30只公募基金蛇年開啟認購 市場將迎...
新發基金有望再度為市場注入增量資金。作為農歷蛇年新年的首個交易... -
股票型ETF相繼上市 增量資金持續入場
近日,永贏中證A500ETF、嘉實創業板50ETF等股票型ETF相繼發布上市公... -
1月份75%QDII基金正收益 易方達11只基金漲超6%
2025年1月份,全市場650只(各類份額分開計算,下同)有可比業績的QDI... -
重大突破,機器人再掀漲停潮!方正富邦...
除夕夜,16臺人形機器人春晚熱舞出圈,這個春節,在多個景區,機器... -
蛇年開市科技股全面走強 一線私募研判積極
受國內春節消費趨旺、國產DeepSeek大模型在人工智能(AI)領域掀起巨... -
新春走基層·走筆丨趕集!打開手機就有...
在記憶深處,趕集是一種充滿煙火氣與人情味的體驗。南疆地域遼闊,... -
關注糧食浪費丨如何避免節日盛宴變“剩...
平均每桌剩菜三分之一,有的客人甚至只拍不吃,年年有余成了‘... -
各地“新春第一會”都聚焦什么?一起來...
來源標題:各地新春第一會都聚焦什么?一起來看新變化→春節假期... -
全國超過1.8億人參加長期護理保險 這些...
來源標題:全國超過1 8億人參加長期護理保險 這些短板仍需補齊國... -
油氣地質儲量超1.5億噸!渤海億噸級油田...
來源標題:油氣地質儲量超1 5億噸!渤海億噸級油田渤中26-6投產記者... -
“爾濱”準備好了!熱“雪”之約待你來
來源標題:爾濱準備好了!熱雪之約待你來龍辭舊歲,蛇舞新春。盛會適... -
冰雪經濟激活發展動能
來源標題:冰雪經濟激活發展動能在哈爾濱亞冬會的賽場上,冰雪運動... -
快收藏!哈爾濱亞冬會金牌賽程來了
來源標題:快收藏!哈爾濱亞冬會金牌賽程來了 -
夯實節后返崗就業,助力務工人員逐夢新程
來源標題:夯實節后返崗就業,助力務工人員逐夢新程隨著春節假期結... -
哈爾濱冰雪大世界有多火熱?美國小伙埃...
來源標題:哈爾濱冰雪大世界有多火熱?美國小伙埃文也來打過卡了哈爾... -
亞冬會|閑記:“爾濱”的Hā Há Hǎ Hà
來源標題:亞冬會|閑記:爾濱的Hā Há Hǎ Hà亞冬... -
瞧!亞冬會的“科技范兒”
來源標題:瞧!亞冬會的科技范兒行駛在通往亞冬會雪上項目舉辦地亞布... -
整點“small 芭比Q”!爾濱的哥猛學英...
來源標題:整點small 芭比Q!爾濱的哥猛學英語迎接亞冬會來的且好客... -
亞冬會|何以“爾濱”
亞冬會何以選擇冰城哈爾濱?在哈爾濱,冰雪運動可不僅僅是專業運動員... -
南國熱雪:湖北冰雪運動“滑出”經濟增...
近年來,湖北挖掘特色冰雪資源,發揮九省通衢優勢,推動冷資源煥發... -
新聞分析:登頂我國影史票房榜,《哪吒...
伴隨一代代人成長的神話人物哪吒,點燃了乙巳蛇年新春電影市場。統... -
“AI老中醫”,把脈準不準?用戶體驗如何?
來源標題:AI老中醫,把脈準不準?用戶體驗如何?將手放在脈枕上,機... -
從護工到醫療護理員,“辛苦活”變成了...
來源標題:從護工到醫療護理員,辛苦活變成了技術活多地試點無陪護... -
2024年中國手機產量16.7億臺 同比增長7.8%
來源標題:2024年中國手機產量16 7億臺 同比增長7 8%中國工信部6... -
2月5日全社會跨區域人員流動量完成23153...
來源標題:2月5日全社會跨區域人員流動量完成23153 8萬人次交通運... -
DeepSeek如何攪動AI產業?
從ChatGPT、Sora、Kimi、豆包,再到如今的DeepSeek,這些橫空出世的... -
DeepSeek大放異彩 AI迎來“破圈時刻”
剛剛我還在用DeepSeek-R1模型測試本地知識庫,它的文本生成能力比預... -
逾2萬億元逆回購到期 央行多舉措調節流動性
蛇年春節后的首周,央行連續兩個工作日回籠資金引發市場關注。2月6... -
DeepSeek顛覆了什么?——大模型“國產...
一家人工智能初創企業淺淺扇動兩下翅膀,即掀起全球科技界的一陣海... -
DeepSeek有望激發 新一波人工智能創新浪潮
中國人工智能(AI)企業深度求索(DeepSeek)日前發布其最新開源模型Dee... -
樓市止跌回穩態勢延續 核心城市“小陽...
近期,多地陸續披露2025年1月份樓市成交數據,總體延續了止跌回穩態... -
今日視點:中長期資金入市總量持續提升可期
近日,中國證監會主席吳清在《求是》雜志發表署名文章指出,從投資... -
銀行紛紛啟動首季“開門紅”活動 貸款...
起步即沖刺,開年即開跑。對于商業銀行而言,開門紅意味著新一年貸... -
AI眼鏡賽道火熱 “百鏡大戰”一觸即發?
2月6日,AI眼鏡概念震蕩走強,概念股深圳雷柏科技股份有限公司、深... -
工業和信息化部:2024年我國手機產量16.7億臺
工業和信息化部6日公布數據顯示,2024年,我國電子信息制造業生產增... -
信銀理財財富管理事業部專戶投資條線副...
2025年1月18日,由易趣財經傳媒、《金融理財》雜志社主辦的金貔貅· -
時間復利,能為投資者帶來“穩穩的信服...
一、利率下行疊加市場波動,銀行理財如何為客戶創造價值?近年來, -
“手”護完整匠心再造為花季少女再豎“...
在生活中,不經意間的意外傷害可能會給我們后來的生活,帶來無法想象 -
暖心護航春節返程,順豐確保每一份滿滿...
新的一年,標志著全新的開始。當春節假期進入收尾階段,游子們紛紛... -
怪不得刷屏!看完這支賀歲片,我的文化D...
-
以十方融海職教新范式為例,看數字化如...
在二十一世紀的今天,教育正經歷著前所未有的變革。隨著科技的飛速... -
永康中泰全國醫療器械供應鏈服務平臺發...
為推動醫療器械產業轉型升級,共商行業未來,2025年1月24日,“合眾 -
北京大衛中醫院院長張占宗向全國人民拜...
北京大衛中醫院院長張占宗向全國人民拜年!致以新春問候!尊敬的全 -
中國汽車跑出“加速度”
1月10日,在比利時布魯塞爾會展中心舉辦的2025布魯塞爾車展上,比亞... -
推動更多新能源汽車駛向全球
新能源時代的全球浪潮帶來了技術的飛速進步和產業的全面升級,中國...