DeepSeek登《Nature》封面，梁文鋒帶隊，首次回應“蒸餾”爭議

2025-09-18 來源：鳳凰網

930

關鍵詞： DeepSeek-R1 DeepSeek登《Nature》低成本AI訓練梁文鋒 AI推理革命

2025年9月17日，屬于中國人工智能的又一個高光時刻來到了。DeepSeek-AI團隊梁文鋒及其同事在《自然》雜志發表了關于開源模型 DeepSeek-R1 的研究成果，并登上當期封面。

論文指出，大語言模型（LLM）的推理能力可以通過純強化學習顯著提升，從而減少對人工標注的依賴。與傳統訓練方式相比，這一方法培養出的模型在數學解題、編程競賽以及涉及STEM領域研究生水平的問題上，均展現出更優的表現。

在此，DeepSeek也首次回應“蒸餾”爭議，在與審稿人的交流中，DeepSeek明確表示，R1并非通過復制OpenAI模型生成的推理示例來學習。只是和大多數其他大語言模型一樣，R1的基礎模型是在網絡上訓練的，因此它會吸收互聯網上已有的AI生成的內容。

“低成本奇跡”：從29萬美元到世界舞臺

在AI世界，有一個殘酷的共識：頂尖大模型的門檻，從來不是算法，而是成本。OpenAI訓練GPT-4，外界估算其花費在1億美元以上；谷歌、Anthropic、Meta也在數千萬美元級別的預算上展開競賽。資金與算力，成了決定話語權的核心。

然而，DeepSeek打破了這一“潛規則”。根據研究團隊在論文補充材料披露的細節，DeepSeek-R1的推理成本僅為29.4萬美元，低到驚人。即便加上約600萬美元的基礎模型訓練開銷，整體成本依然遠低于國外巨頭。

DeepSeek-R1的真正突破，不僅體現在成本，更在于方法論上的創新。

研究團隊在《Nature》發表的論文中指出，他們采用了純強化學習（RL）框架，并引入組相對策略優化（GRPO）算法，僅依據最終答案的正確與否給予獎勵，而非讓模型模仿人類推理路徑。

令人意外的是，這種看似“粗放”的訓練方式，卻讓模型在實踐中自然涌現出自我反思（reflection）、自我驗證（self-verification）以及生成更長推理鏈條（long chains of thought）等高級行為，有時甚至會生成成百上千個token來反復推敲一個問題。

這一點在數學測試中尤為明顯。論文數據顯示，在美國數學邀請賽（AIME 2024）中，DeepSeek-R1-Zero的準確率從15.6%躍升至77.9%，在使用自洽解碼（self-consistency decoding）后更達到86.7%，超過了人類平均水平。

《Nature》評論稱，這表明模型能夠在沒有人類推理示范的情況下，通過強化學習自主形成復雜的思維模式。

在后續的多階段優化中（包括RL、拒絕采樣、監督微調及二次RL），最終版本的DeepSeek-R1不僅在數學和編程等硬核任務上表現突出，還在寫作、問答等通用任務上展現了流暢性和一致性。這意味著，DeepSeek并不是在“教AI思考”，而是在“讓AI學會自己思考”。

梁文鋒的十年長跑

除了技術層面的突破，DeepSeek-R1的成功背后，更有一段鮮為人知的奮斗故事。梁文鋒，1985年出生于廣東湛江一個普通家庭，父親是小學老師。他的成長軌跡雖不為大眾熟知，卻在細節中顯露出早期的求知與堅韌。

2002年，17歲的梁文鋒考入浙江大學電子信息工程專業；五年后，他繼續攻讀信息與通信工程碩士，師從項志宇，專注機器視覺研究。正是在碩士階段，他與同學嘗試將機器學習應用于金融市場，探索全自動量化交易——那一年，全球金融危機正在席卷世界。盡管機會很多，像大疆創始人汪滔曾邀請他共同創業，梁文鋒卻選擇了一條少有人走的路：堅信人工智能將改變世界，他決定獨立創業。

碩士畢業后，梁文鋒先是將人工智能技術與量化交易結合，創辦雅克比投資及幻方科技，并在十余年間穩步發展。直到2023年，他將目光轉向通用人工智能，創辦DeepSeek，開啟了AI大模型研發之路。憑借對算法和成本效率的雙重關注，DeepSeek在短短兩年內連續發布V2、V3模型，不僅拉低了國產大模型的推理成本，更以驚人的性價比震撼了全球市場。

梁文鋒對團隊建設的理念同樣非同尋常。他堅持“能力為先”，核心崗位多由應屆畢業生和經驗僅一兩年的年輕人組成，“我們或許不是在中國找到前50名頂尖人才，但我們可以自己培養。”這種信念，也正是DeepSeek能夠在低成本下實現高推理能力的關鍵。

現在來看，DeepSeek的這項研究，其價值遠不止于一個性能強大的模型。它更像是一份“方法論宣言”，向世界展示了一條不依賴天量標注數據、更具可持續性的AI進化之路。它打破了“資金即壁壘”的魔咒，將AI發展的主動權交還給了科學創新本身。

這不僅僅是中國AI的高光時刻，更是全球AI邁向“推理革命”的一個重要里程碑。Nature審稿人、Hugging Face機器學習工程師Lewis Tunstall認為，“R1開啟了一場革命”。越來越多正在應用R1的方法論改善現有的大語言模型。

未來的AI競爭，很可能將從“數據與算力的軍備競賽”，轉向“算法與智慧的創新競賽”。而DeepSeek-R1，已經為這場新競賽吹響了號角。

行業動態

澄天偉業2025年實現營收4.14億元，凈利潤同比增長32.83%

LGDQ1盈利增338%，OLE轉型成效顯著

寒武紀完成DeepSeek-V4“Day 0”適配

熱讀文章

苗圩出席統籌推進疫情防控和產業轉型升級促進制造業通信業穩定發展發布會

一圖讀懂2020年《政府工作報告》

工業富聯：擬7763萬美元收購鴻海精密美國子公司相關資產