國內(nèi)推理 GPU 獨角獸曦望再獲超 10 億元融資，重構 AI 推理

2026-04-21 來源：曦望

102

4月20日，國內(nèi)全棧自研AI推理GPU企業(yè)曦望（Sunrise）宣布完成新一輪超10億元人民幣融資。這是2026年AI產(chǎn)業(yè)全面邁入“推理落地、智能體普及”時代后，國內(nèi)GPU賽道誕生的最大單筆融資之一。至此，分拆獨立僅一年多的曦望已累計完成七輪融資，總?cè)谫Y額約40億元，成為國內(nèi)首家估值超百億的純推理GPU獨角獸。

本輪融資資金將主要用于新一代S3推理GPU的規(guī)模化量產(chǎn)交付、全棧軟件生態(tài)建設，以及S4/S5后續(xù)芯片的研發(fā)迭代。

智能體元年，推理算力成最大產(chǎn)業(yè)瓶頸

2026年被行業(yè)公認為“AI智能體元年”。隨著大模型從“會聊天”進化為“會思考、會執(zhí)行”的數(shù)字員工，推理需求迎來爆發(fā)式增長。英偉達GTC 2026大會正式宣告AI產(chǎn)業(yè)全面邁入“推理落地、智能體普及”的新時代，將“每瓦Token吞吐量”定義為AI時代的核心競爭力。這與曦望自創(chuàng)立之初就鎖定的核心戰(zhàn)場高度契合。

“AI 算力基建的重心已徹底切換。”曦望董事長徐冰表示，“2026 年 AI 推理計算需求將達到訓練需求的 4-5 倍，推理算力租賃價格半年漲幅近 40%。”

不同于行業(yè)主流的"訓推一體"路線，曦望從成立第一天起就堅定All-in推理賽道，以用戶真實的Token成本、單位能耗和服務穩(wěn)定性為芯片設計核心。目前公司已推進三代推理GPU迭代、數(shù)萬顆GPU量產(chǎn)落地，實現(xiàn)了從芯片研發(fā)、產(chǎn)品量產(chǎn)到解決方案交付的完整閉環(huán)，并保持“芯片均實現(xiàn)一次性流片成功、流片后性能符合設計預期”的行業(yè)一流標準。

啟望S3：為Agentic AI重構的推理原生架構

2026年1月，曦望正式發(fā)布新一代旗艦產(chǎn)品啟望S3推理GPU。這是國內(nèi)首款搭載LPDDR6且兼容LPDDR5X內(nèi)存的推理GPU，它沒有盲目照搬高端訓練GPU的HBM顯存路線，而是基于Agent推理的本質(zhì)需求，從AI Core計算架構到內(nèi)存IO系統(tǒng)進行了全鏈路重構。

以OpenClaw為代表的智能體推理，“感知—規(guī)劃—執(zhí)行—反饋”高頻循環(huán)，帶來了對KV-cache密集訪問的全新計算負載。而通用GPU面向訓練優(yōu)化，推理實際算力利用率往往遠低于峰值——推理側(cè)的效率瓶頸已不再是“算力不夠”，而是“算力用不滿”。

這正是S3所押注的結(jié)構性機會：放棄訓練能力，專為大模型推理做原生深度定制。通過裁剪訓練態(tài)所需的模塊，將節(jié)省出的晶體管與功耗預算集中投向推理，讓單位面積有效算力效率提升5倍以上。

計算層：專為推理而生的AI Core架構升級

S3通過計算層的深度定制，解決了通用GPU“算力用不滿”的核心痛點，推理性能較上一代S2提升5倍，目標實現(xiàn)Token成本下降90%。

1. 逼近物理極限的算子利用率

大語言模型推理中，GEMM與Attention算子占總計算量的90%以上，但受限于通用架構的設計約束，這兩項核心算子的實際利用率通常遠低于理論峰值。S3將這GEMM和Flash Attention兩項核心算子的利用率分別推至約99%與98%，標稱算力幾乎都轉(zhuǎn)化為有效吞吐，同樣硬件投入可服務更多并發(fā)請求。

2. Agent原生的指令集與微架構

采用128-bit指令集+支持3D指令，指令密度領先傳統(tǒng)SIMT架構；獨立線程調(diào)度精準匹配智能體復雜控制流，消除條件跳轉(zhuǎn)帶來的流水線代價；通過Block cluster和Broadcast等技術實現(xiàn)片上數(shù)據(jù)復用，減少對外帶寬依賴，大幅提升Agent多輪推理效率。

3. FP4全鏈路低精度，吞吐3-4倍躍升

原生支持FP16至FP4全鏈路低精度運算，在DeepSeek V3/R1等主流模型上實現(xiàn)接近無損的FP4推理，吞吐量較FP16提升3-4倍，直接轉(zhuǎn)化為客戶側(cè)的毛利空間和價格彈性。

系統(tǒng)層：三大接口技術破解智能體核心瓶頸

S3創(chuàng)新性地集成了三大先進高速接口技術，從內(nèi)存和IO兩個推理時代最核心的瓶頸入手，解決了智能體三大核心瓶頸。

1. LPDDR6內(nèi)存接口技術，解決智能體的“顯存生死線”問題

大模型推理的一個核心特征是，在高并發(fā)、長上下文的主流云端推理場景中，KV Cache 的顯存占比可超過 80%，且隨并發(fā)用戶數(shù)線性增長。S3 采用的 LPDDR6 方案，在提供足夠推理帶寬的同時，將顯存容量上限大幅提高，且功耗降低50%，匹配推理場景“大容量、高性價比、低功耗”的核心需求。同時，LPDDR6 與 LPDDR5x 兼容的設計，讓 S3 可以推出不同顯存規(guī)格的產(chǎn)品版本，覆蓋從邊緣到云端的各類推理場景，無需重新設計芯片。

2. 高速SerDes+SUE融合互聯(lián)技術，解決智能體的“多模型協(xié)同瓶頸”

曦望踐行“軟件定義互聯(lián)”的設計思路，對推理場景下的互聯(lián)架構進行了深度優(yōu)化。從超節(jié)點協(xié)議、片上互聯(lián)、片間互聯(lián)、交換設備、高速通信軟件棧協(xié)同設計，實現(xiàn)TCO 與性能兼顧的推理互聯(lián)系統(tǒng)。

Agent 時代的到來，對推理集群的互聯(lián)性能提出了前所未有的要求——一個 Agent 請求會觸發(fā)數(shù)十次推理調(diào)用，涉及多模型協(xié)同與海量 KV Cache 流轉(zhuǎn)，如果互聯(lián)帶寬不足、協(xié)議割裂、延遲太高，整個系統(tǒng)的性能會出現(xiàn)超線性下降，集群規(guī)模越大，性能損失越嚴重。

S3 創(chuàng)新性地在片上原生融合了 Scale-Up 超節(jié)點與 Scale-Out 的雙模互聯(lián)底座。在超節(jié)點通信域，S3 搭載基于以太網(wǎng)的超節(jié)點互聯(lián)引擎，支持 load/store 內(nèi)存語義與 UVA 統(tǒng)一編址，任意兩卡間一跳直達，為 AllReduce/AlltoAll 等集合通信提供硬件級加速；S3 選擇基于以太網(wǎng)的超節(jié)點方案，具備雙重優(yōu)勢：既可利舊復用標準以太網(wǎng)交換機節(jié)省組網(wǎng)成本，又可無縫接入支持超低延遲能力的增強型交換機，將端到端延遲壓縮至百納秒級，性能逼近專有互聯(lián)協(xié)議。基于超節(jié)點和DeepEP實現(xiàn)的MoE超大模型推理系統(tǒng)，可以很大程度掩蓋LPDDR相較于HBM的帶寬劣勢。另外，S3 在片上集成了 RDMA 通信引擎，專為 PD 分離架構下的超長上下文 KV Cache 傳輸進行優(yōu)化，實現(xiàn)跨節(jié)點 KV Cache 的零拷貝、高吞吐傳輸，突破分離式架構的內(nèi)存墻瓶頸。在組網(wǎng)上 S3 支持 32/64/128/256 彈性擴展能力，為不同算力密度的推理場景提供靈活選擇。

3. PCIe Gen6接口技術，解決智能體的“資源碎片化”問題

云原生推理時代，超長上下文已成為大模型標配能力，千億參數(shù)模型在處理數(shù)萬 Token 序列時，單請求 KV Cache 占用可達數(shù)百 GB 甚至 TB 級，傳統(tǒng) PCIe 帶寬瓶頸成為制約 KV Cache 高效管理的沉重枷鎖。S3 搭載的 PCIe Gen6 接口，帶寬較 Gen5 翻倍，可同時滿載多路高速網(wǎng)卡與 NVMe 存儲集群，滿足云原生推理的高并發(fā)數(shù)據(jù)吞吐需求；通過 PCIe Gen6的高帶寬讓CPU DRAM 真正成為 S3 顯存的擴展池。可構建起顯存-DRAM-NVMe 三層異構 KV Cache 架構：熱數(shù)據(jù)駐留顯存保證低延遲的訪問，溫數(shù)據(jù)通過 PCIe Gen6 擴展至 CPU DRAM實現(xiàn)容量倍增，冷數(shù)據(jù)則下沉至 NVMe SSD 持久化存儲，解決智能體的資源碎片化問題。

“推理原生”帶來普惠算力基礎設施

從產(chǎn)業(yè)周期看，訓練側(cè)格局已相對固化，而推理側(cè)正隨Agentic AI放量進入指數(shù)級增長通道——多家機構預測，未來五年推理算力市場規(guī)模將超越訓練側(cè)數(shù)倍，其中Agent類負載將貢獻最主要的增量。

曦望S3同時具備三個難以共存的要素：推理原生的架構前瞻性、實現(xiàn)98–99%算子利用率的頂尖工程能力、以及完整的生態(tài)適配能力。

“S3不是簡單的性能升級，而是一次對AI推理成本曲線的重構。”徐冰表示，“我們的目標是將推理成本降至‘百萬Token一分錢’，讓AI像水電一樣成為普惠基礎設施。”

資本助力推理賽道進入加速期

本輪融資由多家產(chǎn)業(yè)方戰(zhàn)投、地方國資及頭部財務機構共同參與。

杭州資本表示：“本次投資是杭州資本緊扣杭州‘296X’先進制造業(yè)集群建設戰(zhàn)略、深耕人工智能萬億級產(chǎn)業(yè)賽道的重要布局。曦望‘All-in 推理’的戰(zhàn)略選擇具備行業(yè)前瞻性，其在技術創(chuàng)新和產(chǎn)品商業(yè)化方面的能力，是我們決定投資的重要原因。作為長期資本，我們更看重企業(yè)在關鍵技術方向上的持續(xù)投入與落地能力。”

普華資本表示，“曦望是國內(nèi)少數(shù)真正理解推理場景、并能提供全棧自主可控解決方案的企業(yè)。我們看好公司'不做訓推一體跟隨者，只做推理賽道領跑者'的戰(zhàn)略選擇。”

聚集頂尖人才，打造中國AI工業(yè)化算力底座

曦望團隊規(guī)模已增長至400人，研發(fā)人員占比超80%，匯聚了來自英偉達、AMD、華為海思等國內(nèi)外頂尖芯片企業(yè)的核心人才，碩士及以上學歷占比超80%。團隊融合了芯片設計、高性能計算、AI 算法、軟硬產(chǎn)品的跨行業(yè)人才。

2026年，曦望將圍繞“落地、兌現(xiàn)、增長”核心原則，全力推進S3芯片量產(chǎn)交付，完成與國內(nèi)外主流大模型、多模態(tài)模型和Agent框架的全面適配。同時，公司已完成S4高性能推理GPU和S5安全可控推理GPU的技術路線規(guī)劃，持續(xù)加碼近存計算、光電共封等前沿技術探索。

未來，曦望將繼續(xù)堅守“讓AI推理便宜、穩(wěn)定、隨處可用”的核心目標，為中國AI發(fā)展鑄造堅實的算力底座。

行業(yè)動態(tài)

華為Pura X Max發(fā)布行業(yè)首款大闊折手機

全球半導體設備廠商排名Top10：ASML蟬聯(lián)榜首，北方華創(chuàng)成唯一入榜中國企業(yè)

馬斯克旗下SpaceX或600億美元收購Cursor，強化AI編程工具

熱讀文章

苗圩出席統(tǒng)籌推進疫情防控和產(chǎn)業(yè)轉(zhuǎn)型升級促進制造業(yè)通信業(yè)穩(wěn)定發(fā)展發(fā)布會

一圖讀懂2020年《政府工作報告》

工業(yè)富聯(lián)：擬7763萬美元收購鴻海精密美國子公司相關資產(chǎn)