深度求索大模型:“花小錢辦大事”
一個來自中國的開源模型,在開年之際聚焦了人工智能(AI)行業的目光。
日前,杭州深度求索人工智能基礎技術研究有限公司(以下簡稱“深度求索”)上線并同步開源DeepSeek-V3模型,同時公布長達53頁的技術報告,介紹關鍵技術和訓練細節。
和很多語焉不詳的報告相比,這份報告真正做到了開源。其中最抓人眼球的部分是,V3模型能力大幅升級,但訓練僅僅花費557.6萬美元,僅用2048塊H800顯卡,耗時不到兩個月。
美國人工智能初創公司Anthropic首席執行官達里奧·阿莫迪曾透露,GPT-4o的模型訓練成本約為1億美元。美國開放人工智能研究中心(OpenAI)創始成員之一安德烈·卡帕西點評,DeepSeek-V3讓在有限算力預算內進行模型預訓練這件事變得容易。
深度求索如何實現“花小錢辦大事”?它是否走出了大模型發展的一條新路?
降低模型推理成本
深度求索一直是國內AI版圖上位置相對獨特的一家——它是唯一沒有做2C(面向個人消費者)應用的公司,選擇開源路線,至今沒有融過資。
去年5月,深度求索發布DeepSeek-V2,以其創新的模型架構和史無前例的性價比爆火。模型推理成本被降至每百萬Tokens(大模型用來表示自然語言文本的單位)僅1元錢,約等于開源大模型Llama370B的七分之一,GPT-4Turbo的七十分之一,引發字節、阿里、百度等企業的模型降價潮。
個中關節在于,DeepSeek提出的MLA(多頭潛在注意力機制)架構和DeepSeekMoESparse(采用稀疏結構的混合專家模型)結構,大幅降低了模型的計算量和顯存占用,實現了高效推理和經濟高效的訓練。
簡單來說,模型壓縮、專家并行訓練、FP8混合精度訓練、數據蒸餾與算法優化等一系列創新技術大幅降低了V3模型成本。作為新興的低精度訓練方法,FP8技術通過減少數據表示所需的位數,顯著降低了內存占用和計算需求。據報道,目前,谷歌等已將這項技術引入模型訓練與推理中。
深度科技研究院院長張孝榮在接受媒體采訪時說,DeepSeek的“出圈”是對其在大模型技術上的突破和創新的認可,其通過優化算法和工程實踐,實現高性能與低成本的平衡。DeepSeek為整個行業的發展注入活力,也對大模型的技術路徑和工程實踐產生積極影響,推動高效訓練、模型輕量化和工程優化。
有業內人士分析,V3在架構創新、訓練效率和推理性能方面展現巨大潛力,尤其在成本和性能的平衡方面作出重要貢獻。不過,與此同時,也仍有許多挑戰需要解決,如需進一步擴展上下文長度、優化多模態數據處理等。未來的研究方向包括提升模型的推理速度、完善更高效的硬件架構設計,以及增強多模態學習和生成能力。
不堆算力創新算法
大參數、大算力、大投入,這條已經被驗證行之有效的ChatGPT路徑,實則是絕大部分創業公司難以承受之重。
據報道,仍處于研發過程中的GPT-5,已進行過至少兩輪訓練,每輪訓練耗時數月,一輪計算成本接近5億美元。一年半過去,GPT-5仍未問世。這意味著,新一代通用大模型的訓練成本已達到十多億美元甚至更高。未來這一數字可能持續攀升。
規模定律(Scalinglaw)是指在訓練大模型時,數據量、參數量和計算資源越多,訓練出的模型能力和效果越好。然而,一段時間以來,行業對規模定律可持續性的疑問不絕于耳。
V3的出現提供了新的解法。“ScalingLaw不只停留在預訓練階段,而是往后訓練,尤其是注重推理領域的后訓練集、強化學習等領域擴展。”智源研究院副院長兼總工程師林詠華接受科技日報記者采訪時說,這一點在國外以OpenAIo1發布為標志,國內則有DeepSeek使用強化學習訓練發布DeepSeekR1這個具有很強挖掘和激活能力的模型。
在林詠華看來,V3的發布,也印證了利用R1可以很好進行能力提升。
行業相關探索還有很多,如Kimi將強化學習用到更多搜索場景,發布以邏輯思考和深度思考為核心功能的數學模型K0-math;螞蟻技術研究院建立強化學習實驗室,圍繞如何在后訓練及強化學習上進行更多模型能力的探索。林詠華期待,未來不僅是靠堆砌更多算力、參數和數據,而是靠真正的算法創新,持續在后訓練階段幫助模型提升基礎能力。
值得注意的是,“省錢模式開啟”并不意味著算力式微。
V3發布后,360集團創始人周鴻祎發文稱贊“DeepSeek的進步對推動中國AI產業發展是極大利好”,但他也認為,這并非說中國AI發展不需要高端算力芯片。囤顯卡建算力集群依舊必要,因為目前預訓練算力需求或許沒那么大,但像慢思考這類復雜推理模型對推理算力需求大,文生圖、文生視頻的應用也需消耗大量算力資源。巨頭們提供AI云服務,構建龐大算力基礎必不可少,這與DeepSeek降低訓練算力需求是兩回事,兩者并不矛盾。
一位行業專家在接受記者采訪時認為,2025年,大模型行業會進一步收斂,這種收斂既包括技術層面,也包括廠商層面。進入“百模大戰”后期,要進一步提高模型計算效率,降低推理成本,對計算的架構分布、利用效率等都提出更為精細化的要求。
“燒錢”不是唯一邏輯
深度求索創始人梁文鋒在金融行業征戰已久。他成立的幻方量化早在2019年就開始大手筆投入深度學習訓練平臺。2023年7月,梁文鋒創立深度求索,專注AI大模型的研究和開發。
據報道,包括梁文鋒在內,深度求索僅有139名工程師和研究人員。在外界看來,這是一支“神秘的東方力量”。
但在一次采訪中,梁文鋒曾透露,深度求索并沒有什么高深莫測的奇才,團隊都是國內頂尖高校的應屆畢業生,沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。他特別提及,“V2模型沒有海外回來的人,都是本土的”。
他也曾在訪談中說,過去30多年的IT浪潮,中國基本上扮演的是追隨者角色,“隨著經濟的發展,中國也應該逐步成為技術創新的主要貢獻者”。如今,V3的橫空出世貢獻了一個更高效率、更低成本的大模型發展樣本,也讓AI行業看到一種可能:雖然訓練大模型依然需要大規模顯卡集群,但“燒錢”不是行業唯一的邏輯,也并不是誰燒錢多,誰就注定贏得一切。
對此,周鴻祎評論道,V3用2000塊卡做到了萬卡集群才能做到的事。用這種極致訓練方法訓練專業大模型,算力成本會進一步降低,促使中國AI在專業、垂直、場景、行業大模型上更快普及。
標簽:
精彩閱讀
-
深度求索大模型:“花小錢辦大事”
一個來自中國的開源模型,在開年之際聚焦了人工智能(AI)行業的目光... -
快手年貨節促消費,近2.2萬主播商品交易...
1月14日,快手電商發布2025快手年貨節戰報。數據顯示,年貨節期間,... -
高德將上線“京城網約司機服務地圖”等服務
1月14日消息,北京出租汽車暨汽車租賃協會與高德聚合平臺簽署了《黨... -
刷掌開門更普及了——智能門鎖生物識別...
刷掌即可打開家門——對老人、小孩等特殊群體更友好的靜脈識別技術... -
嫦娥五號月壤樣品中發現奇特晶體生長現象
來源標題:嫦娥五號月壤樣品中發現奇特晶體生長現象中國科學院院士... -
“銻貓”實驗為量子計算糾錯提供新方法
來源標題:銻貓實驗為量子計算糾錯提供新方法澳大利亞新南威爾士大... -
磷化鈮薄膜在超薄線路制造中展現潛力 ...
來源標題:磷化鈮薄膜在超薄線路制造中展現潛力 有助解決電子產品... -
AI推理芯片激發新一輪應用創新
來源標題:AI推理芯片激發新一輪應用創新隨著ChatGPT橫空出世,人工... -
數智檢修迎春運首秀
來源標題:數智檢修迎春運首秀1月14日春運大幕拉開。春運期間,全國... -
我國建立世界第一套微波亮溫度國家計量基準
來源標題:我國建立世界第一套微波亮溫度國家計量基準1月14日,記者... -
迄今最精細黑猩猩腦圖譜發布
來源標題:迄今最精細黑猩猩腦圖譜發布記者1月14日從中國科學院自動... -
全國首家AI醫院將面向公眾開放,AI會取...
來源標題:全國首家AI醫院將面向公眾開放,AI會取代醫生嗎?最近,全... -
呼吸道感染康復期用藥“益氣清肺顆粒”...
來源標題:呼吸道感染康復期用藥益氣清肺顆粒獲批上市1月9日,國家... -
2025,人工智能走向何方?我們如何擁抱變化?
從各類人工智能聊天機器人與人類直擊靈魂的對話,到訓練AI將一張圖... -
算力交易“電商平臺”來了!
僅需3 8毫秒,安徽宿州一家企業人工智能大模型的訓練數據,便可以... -
逐浪AI大潮,中國向新而生
隨著2022年OpenAI正式發布ChatGPT,人工智能技術以迅猛之勢席卷全球... -
中國科技企業宜以AI為槳高質量“出海”
賈 麗在數字化智能化浪潮下,中國科技企業新一輪走出去如何突破、... -
浙江:去年數字經濟核心產業增加值增長8...
1月14日,浙江省第十四屆人民代表大會第三次會議在杭州開幕,浙江省... -
中國電子云可信數據空間解決方案發布
1月9日,記者從中電云計算技術有限公司(以下簡稱中國電子云)獲悉,... -
機器學習助力多種癌癥早期篩查
英國牛津大學科學家開發出一種名為TriOx的血液檢測新方法。在機器學... -
全國青少年科技創新大賽不再接受15歲以...
記者14日從中國科協獲悉,中國科協辦公廳日前印發《全國青少年科技... -
日本人工智能應用潛力仍存
近年來,日本在人工智能應用方面積極探索,在制造業、農業、教育等... -
強化數智賦能制造業蝶變升級
中央經濟工作會議強調,廣泛應用數智技術、綠色技術,加快傳統產業... -
2025流行色 摩卡慕斯
近年流行穿搭與流行色彩呈現萬變不離其棕的趨勢,2023年秋冬,以大... -
駱駝牽手中國科學探險協會,制定《多場...
1月10日至12日,2025 ISPO(亞洲運動用品與時尚展)在北京國家會議中... -
“冰雪熱”釋放新動能
今晚夜場滑雪,走不?1月11日17時許,27歲的王哲輝給自己的滑雪搭子... -
“可愛經濟”為什么惹人愛?
一些萌萌的文創你方唱罷我登場。蘇州博物館的蟹黃黃毛絨玩具、甘肅... -
春節寵物寄養咨詢火爆 寵物主人盼攜寵...
春節假期臨近,寵物寄養成為寵物主關注焦點。記者12日走訪上海多家... -
滑雪裝備市場開“卷” 不斷擴張的Nobad...
近日,北京商報記者走訪發現,滑雪品牌Nobaday正在加速門店調整。目... -
“谷子經濟”受中國年輕人追捧 驅動城...
谷子一詞在2024年悄然流行。從拯救老牌商場到出現谷子概念股,據統... -
轉型未見效,太平鳥業績再下滑
轉型年復一年,太平鳥沒等來增長。近日,太平鳥發布2024年業績快報... -
著力培育服飾消費新增長點
近日,國家統計局發布的數據顯示,2024年1月至11月,限額以上單位服... -
新消費觀察 | 專業與時尚齊飛 國貨品...
從人手一件的沖鋒衣,到火爆全網的始祖鳥、迪桑特、駱駝、伯希和,... -
廣汽豐田把高階智駕價格打下來了
(2024年11月15日)智能化下半場中,高階智駕是幾乎所有品牌都會非常... -
一汽奧迪持續“增點擴面”,一季度將新...
1月14日前后,一汽奧迪迎來新年開業潮。郴州蘭天南奧、紹興德奧、杭... -
冰雪撒歡之旅,解鎖捷途自由者的硬派越...
在去年的廣州車展上,捷途自由者以其硬派方盒子的設計語言和卓越的... -
鴻蒙智行2025年新車規劃曝光!除了問界M...
2024年,鴻蒙智行一共取得了444956輛新車的銷量成績單,而在2025年... -
站上600萬輛新臺階!中國蟬聯全球最大汽...
原標題:站上600萬輛新臺階!中國蟬聯全球最大汽車出口國:一場史無... -
"國Ⅳ"車輛納入報廢補貼 車市加速駛過"...
國家發展改革委、財政部日前聯合發布的《關于2025年加力擴圍實施大... -
寒區試車讓“冷資源”點燃“熱引擎”
原標題:冰天雪地也是金山銀山 寒區試車讓冷資源點燃熱引擎冬季,... -
加拿大將暫停電動汽車激勵計劃
據外媒報道,加拿大政府日前表示,一旦可用資金耗盡,將暫停其零排... -
特斯拉全球汽車銷量首次超過奧迪
據彭博社報道,2024年,美國電動汽車制造商特斯拉的全球銷量(179萬... -
年終講丨四大維度“突破”,一汽-大眾全...
一汽-大眾這艘大船,已經調好頭了,從2025年開始,我們將陸續加速啟... -
愛奇藝與紅果短劇宣布達成深度合作 共...
1月13日,愛奇藝與紅果短劇在精品微短劇產業發展交流會上共同宣布雙... -
突破43萬億元!2024年我國外貿規模再創新高
來源標題:突破43萬億元!2024年我國外貿規模再創新高2024年,我國外... -
春運開啟,以精準調控緩解“搶票難”
來源標題:春運開啟,以精準調控緩解搶票難據新京報報道,2025年春... -
第十屆“ME計劃”資助儀式在京舉行
1月13日,由中國民生銀行聯合中國鄉村發展基金會共同發起的第十屆“ -
“碳賬戶+碳征信”,讓企業有了綠色融資...
來源標題:全面描繪企業碳減排軌跡,使企業用能曲線躍然紙上500萬噸... -
餐飲企業“花式”搶灘年夜飯市場
來源標題:推出全菜宴、全果宴等,銷售半成品禮盒,開啟上門代廚服... -
AI“破圈”加速步入物理世界
來源標題:AI破圈加速步入物理世界從實現爆發性發展的語言智能,到... -
中國汽車產銷連續16年居全球首位
來源標題:中國汽車產銷連續16年居全球首位全年汽車產銷量破3100萬... -
助力經濟回升向好 支持高質量發展 —...
2024年,人民銀行堅持支持性貨幣政策立場,先后4次實施了比較重大的... -
冰雪“熱”了 經濟“火”了!冰雪產業...
隨著冰雪游的火熱,冰雪經濟也正蓬勃發展,由此催生出一批新職業。2... -
小泉水大生意,熱資源成就“暖”經濟
氣溫低至零下16攝氏度,記者近日走進遼寧省阜新市寶地溫泉小鎮,南... -
新春走基層丨一路歡歌一路情——中老鐵...
車外,暖陽高照,山林蒼翠;車內,節目紛呈,歡聲笑語……1月14日上... -
“最可愛的人”肩負重任堅守執勤一線 ...
來源標題:最可愛的人肩負重任堅守執勤一線 確保人民群眾出行安全2... -
“一簽多行”等政策助力內地與港澳居民...
來源標題:一簽多行等政策助力內地與港澳居民雙向奔赴持續升溫記者... -
年貨消費市場日漸紅火升騰“煙火氣” ...
來源標題:年貨消費市場日漸紅火升騰煙火氣 助農增收涌動蓬勃活力... -
眾多旅游城市“圈粉”外國游客 獨特城...
來源標題:眾多旅游城市圈粉外國游客 獨特城市魅力成為文旅金名片... -
“一周一行”“一簽多行”等便利措施效...
來源標題:一周一行一簽多行等便利措施效果顯著 赴港澳客流量增幅... -
傳統非遺技藝亮相火車站 與旅客共赴“...
來源標題:傳統非遺技藝亮相火車站 與旅客共赴非遺年味春運之行1月... -
2024年共6.1億人次出入境 “中國游”持續火熱
來源標題:2024年共6 1億人次出入境 中國游持續火熱1月14日,國家... -
春運開啟,全國鐵路實施新運行圖
來源標題:春運開啟,全國鐵路實施新運行圖記者從國鐵集團獲悉,202... -
春節將至,出入境人數不斷攀升
來源標題:春節將至,出入境人數不斷攀升春節假期即將到來,全國口... -
“周五下班去中國”成國際新潮
來源標題:周五下班去中國成國際新潮記者昨天(14日)從國家移民管理... -
說來就來的旅行 “周五下班去中國”成...
來源標題:說來就來的旅行 周五下班去中國成為國際新熱潮在剛剛過... -
冰雪游碰上亞冬會 哈爾濱鐵路春運如何...
來源標題:冰雪游碰上亞冬會 哈爾濱鐵路春運如何接招?受冰雪旅游、... -
全球旅游達人山西感受熱情中國年
1月11日至14日,中國年味之旅全球達人游中國系列活動走進中國古建大... -
以文旅“出圈”促進區域經濟高質量發展
來源標題:以文旅出圈促進區域經濟高質量發展【學習貫徹黨的二十屆... -
【開創高質量發展新局面】2024年我國社...
來源標題:【開創高質量發展新局面】2024年我國社會融資規模保持合... -
啟程回家!春運回家路 有“速度”更有...
來源標題:啟程回家!春運回家路 有 速度更有溫度1月14日,2025年... -
“流動的中國”活力滿滿——春運首日一...
來源標題:流動的中國活力滿滿——春運首日一線觀察14日,2025年春... -
“最美基層民警”沈剛:“勇”護百姓 ...
來源標題:最美基層民警沈剛:勇護百姓 智守安全他為救輕生少女,... -
冰雪“熱”了 經濟“火”了!冰雪產業...
來源標題:冰雪熱了 經濟火了!冰雪產業新工種了解一下隨著冰雪游的... -
出行有保障!臨近春節車站服務上新 旅...
來源標題:出行有保障!臨近春節車站服務上新 旅客心里很踏實2025年... -
鄉村行·看振興丨山西柳林:冬日里的小...
近日,山西省柳林縣張家垣果蔬采摘基地的草莓已陸續成熟上市。14日... -
新春走基層|海拔2800米!這條高寒特長...
2025年春運首日蘭張高鐵新烏鞘嶺隧道迎來了通車之后的首個春運1月14... -
文化中國行丨沉浸式體驗“春節”之美 ...
隨著中國春節申遺成功,蛇年春節非遺味兒更濃。目前,120余項與春節... -
我國每萬人口高價值發明專利擁有量達14件
來源標題:新華社權威快報丨我國每萬人口高價值發明專利擁有量達14... -
家門口更有“醫”靠——多地深入推進緊...
來源標題:家門口更有醫靠——多地深入推進緊密型縣域醫共體建設觀... -
心血管要這樣“保暖”
來源標題:新華健康 | 心血管要這樣保暖隨著氣溫的降低,人體的生... -
叮咚,寒假甲流防治指南,請查收
來源標題:叮咚,寒假甲流防治指南,請查收 -
權威醫者說|得了流感該怎么辦?
目前正值流感等呼吸道疾病高發期,假如自己得了流感怎么辦?自己的家... -
解決婚姻家庭糾紛,最新司法規定來了!
來源標題:新華社權威快報丨解決婚姻家庭糾紛,最新司法規定來了!《... -
RockAI攜手黑芝麻智能打造全新AI Agent解決方案
黑芝麻智能與RockAI聯合發布基于武當C1200家族芯片的AI Agent解決 -
見證灣區新勢力|橫琴口岸·琴鳴廣場啟業...
2025年1月10日上午10時,橫琴口岸·琴鳴廣場(以下簡稱琴鳴廣場 -
浙江金欣集團鼓勵百萬大學生兼職創業,...
全球經濟一體化,訂單消費作為一種創新的商業模式,正逐步成為推 -
都樂攜比利時國寶級聯名啤梨Olé首發,...
上海北京Olé雙城首發!都樂藍精靈聯名款Truval啤梨萌趣上市!2025 -
銷量/保值率/品質的王者,MPV界的“全能...
進入2024年以來,汽車行業洗牌再次加劇。汽車市場始終是競技場,淘 -
中國汽車工業協會越野車分會2025會員大...
2025年1月10日,中國汽車工業協會越野車分會2025會員大會暨換屆大會 -
車險全解:了解基礎險種與附加險種的區...
在車險的世界里,基礎險種與附加險種有著各自獨特的作用。清晰了解... -
車險全解:了解基礎險種與附加險種的區...
在車險的世界里,基礎險種與附加險種有著各自獨特的作用。清晰了解... -
激發“年貨經濟”消費潛力,順豐賦能“...
為全面落實國家發改委、農業農村部、自治區人民政府,關于開展消費 -
云酒頭條評出2024酒業十大熱點事件
日前,云酒頭條編輯部評選出中國酒業2024年度十大值得關注的熱點 -
君樂寶集團向日喀則震區捐贈價值500萬元物資
1月8日,君樂寶乳業集團向西藏日喀則震區捐贈總價值500萬元物資,用 -
惡性腫瘤威脅健康,謝啟超醫生教你科學防癌
在當今社會快速發展的背景下,惡性腫瘤的頻發態勢愈發嚴峻,嚴重威 -
揚子江藥業集團捐贈100萬元藥品馳援西藏...
1月7日,西藏日喀則市定日縣發生6 8級地震,給當地人民群眾的生命財產 -
百架無人機升空點亮情城夜幕,浪漫康定為...
近日,以“冬游康定·閃亮情城”為主題的康定市首屆冰雪?暖陽?溫泉... -
聯發科與NVIDIA合作 為NVIDIA 個人AI...
聯發科近日宣布與NVIDIA合作設計NVIDIA GB10 Grace Blackwell超 -
德鐵信可開通“鄂州 - 法蘭克福”貨運...
2025年1月7日,一架滿載多類貨物的波音777全貨機從鄂州花湖國際機場