最新MLPerf 3.0測試結果出爐！國產AI芯片新勢力發起沖鋒

2023-04-12 來源：半導體芯聞

3614

據福布斯報道，全球機器學習工程聯盟MLCommons基于權威AI基準評測MLPerf 3.0發布最新測試結果，美國人工智能訓練芯片巨頭英偉達又一次在性能對比中超越競爭對手。

英偉達及其合作伙伴在MLPerf 3.0中運行并提交了基準測試，包括圖像分類、對象檢測、推薦、語音識別、NLP（自然語言處理）和3D分割。英偉達指出，許多客戶需要一個多功能的AI（人工智能）平臺，該平臺主要適用于數據中心環境，許多像圖像分類或檢測的邊緣AI應用僅使用一種或兩種AI模型。

這一輪MLPerf的新測試成員分別是致力于邊緣圖像分類和數據中心的美國機器學習初創公司SiMa.ai和美國AI解決方案提供創企Neuchips。

MLCommons每6個月發布新一輪人工智能推理處理基準測試。

在最新一期的幫當中，有 25 個組織提交了測試，高于去年秋季的 21 個和去年春季的 19 個。英特爾展示了早期基于 Sapphire Rapids 的系統，高通的 Cloud AI 100 表現出色，尤其是在功耗指標方面。新加入的參與者包括 CTuning、廣達云科技、SiMa 和 xFusion。

同樣值得注意的是在本周的新聞/分析師預簡報會上圍繞生成式 AI 的討論——是的，更多關于 ChatGPT 的議論紛紛。MLPerf 應該如何涉足生成式 AI 領域？BERT Large 是 LLM 的良好代理嗎？MLCommons執行董事 David Kanter 表示，大型語言模型 (LLM) 將很快添加到 MLPerf 基準測試套件中。

目前，BERT（來自transformers的雙向編碼器表示）是 MLPerf 使用的 NLP 模型。生成式人工智能應用程序的預期激增——想想ChatGPT和DALL?E 2的目標版本 ——可能會導致對推理基礎設施的需求激增。

有趣的是，有一些共識認為 BERT 可以作為大型 LLM 的早期代理，即使它的規模要小得多（GPT3 有 1750 億個參數，BERT large 有大約 3 億個參數）。

Nvidia 仍然閃耀光芒

Nvidia 在廣泛的加速器市場仍然占據主導地位，并展示了其新的 H100 GPU 以及剛剛推出的 L4（T4 的替代品）的性能。

Nvidia 人工智能、基準測試和云主管 David Salvator 提供了一個很好的頂線總結，“我們在短短六個月內看到了一些驚人的性能提升，與我們六個月前的第一次提交相比高達 54%。這證明了我們圍繞軟件創新正在進行的工作。通常，在我們在產品生命周期過程中構建的任何給定一代產品中，我們將從軟件優化和我們的庫、我們的驅動程序的持續調整中獲得另外 2 倍的性能。

“我們剛剛在 GTC 上推出的 L4 產品首次出現在 MLPerf 中，與我們的上一代產品相比，其結果提高了 3 倍以上。第三個興趣點是我們的Jetson Orin平臺也有了長足的進步。這不是它第一次出現在 MLPerf 中，但通過在平臺級別結合軟件和一些功率調整，我們已經能夠在效率方面將性能和效率提高多達 57%，”他說。

Salvator 將軟件改進歸功于 H100 Transformer Engine（使用混合精度格式的庫）。他還引用了非最大內核在對象檢測推理中的使用。如下面的幻燈片所示，邊界框通常用于幫助識別對象。“為了徹底，這些邊界框通常以重疊的方式完成，但是 [如圖所示] 在幻燈片的右側（下圖），通過優化這些內核，我們能夠在 3D U-Net 和 ResNet-50 中看到一些不錯的性能提升，”他說。

英特爾Sapphire Rapids異軍突起

在上一次的 MLPerf Inference 練習中，英特爾在預覽類別中提交了預覽類別，這是針對預計在六個月內推出的產品。這一輪，英特爾在單節點系統 (1-node-2S-SPR-PyTorch-INT8) 的封閉數據中心提交了兩個 CPU（英特爾至強鉑金 8480+）。在過去的幾年中，圍繞通用 CPU 可能足以滿足某些推理工作負載的概念進行了大量討論，通常是在推理是偶爾需要而不是專用或主要需求的情況下。

最新的英特爾提交，雖然跟不上基于加速器的系統，但能夠運行工作負載并顯示出比上一個 MLPerf 有所改進。

“借助第四代至強可擴展處理器，之前代號為 Sapphire Rapids，我們實際上在我們的產品中擁有一個名為AMX（高級矩陣指令）的新加速器。最后一次提交實際上是我們剛剛啟用了 Amex。因此，為了建立 Nvidia 的觀點（關于通過軟件實現性能改進），現在我們實際上正在調整它并改進軟件，”Plawner 說。

“我們看到所有型號的性能在短短幾個月內全面提高了 1.2 倍到 1.4 倍。[我們] 從僅僅啟用 AMX（這對我們來說也是 CPU 內核中的一種新加速器）到有機會調整軟件。與之前的評論類似，我們預計在當前這一代中可能會達到 2 倍左右，僅通過軟件和改進即可。在英特爾，我們都喜歡摩爾定律，但唯一比摩爾定律更好的是，隨著時間的推移，軟件可以在同一個芯片內為您提供什么，”他說。

在這里值得一提的是，競爭供應商遵守 MLPerf 的規定，即在其整體媒體/分析師簡報會上發表評論不能直接將一種產品與競爭對手的產品進行比較。這令人耳目一新，也很有用。如前所述，確實有必要深入研究結果數據并將相似/相似的系統（硬件、軟件和新網絡測試沒有網絡）與類似系統進行比較。

許多供應商還發布博客宣傳他們的結果并進行競爭比較。

高通顯示穩步增長

高通對 MLPerf 練習并不陌生，其 Cloud AI 100 加速器一直表現最佳，展示了低延遲和出色的能效。該公司報告稱，其 MLPerf v3.0 推理結果超過了之前所有類別的峰值離線性能、能效和更低延遲的所有記錄。

“配備 18 個 Qualcomm Cloud AI 100 Pro（75W TDP）加速器的 2U 數據中心服務器平臺實現了每秒 430K+ 推理的 ResNet-50 離線峰值性能，并實現了 241 推理/秒/瓦的能效。Qualcomm Cloud AI 100 RetinaNet Network 跨所有平臺的離線性能優化了約 40-80%，服務器性能優化了高達 110%，”Qualcomm 表示。

“自首次提交 MLPerf 1.0 以來，Qualcomm Cloud AI 100 性能提升高達 86%，能效提升高達 52%。這些改進是通過軟件優化實現的，例如 AI 編譯器、DCVS 算法和內存使用方面的改進。這凸顯了過去幾年的持續努力和投資，”該公司表示。

VMware 展示了其與戴爾和 Nvidia 合作虛擬化 Nvidia Hopper 系統的性能。“我們實現了 205% 裸機性能的 94%。值得注意的是，在 128 個邏輯 CPU 內核中，我們只使用了 16 個 CPU 內核。所有剩余的 112 個 CPU 代碼應該在您的數據中心可用于其他工作負載，而不會影響運行推理工作負載的機器的性能。這就是虛擬化的力量，”VMware 高級工程師 Uday Kurkure 說。文末VMware的補充聲明中展示了幾個結果圖表。

英偉達江湖地位穩固，國產AI芯片新勢力發起沖鋒

總的來看，英偉達繼續穩定發揮，霸榜MLPerf推理基準測試，是毫無爭議的大贏家。雖說部分單點性能成績被其他競品趕超，但若論通用性，英偉達A100和H100依然是能將其他一眾AI芯片“按地摩擦”的存在。

目前英偉達還沒有提交H100的推理能效測試數據，以及其在訓練方面的性能表現，等這些成績出來，H100預計會風頭更盛。

國產AI芯片企業也嶄露鋒芒。繼阿里平頭哥自研云端AI芯片含光800的單卡算力在2019年登頂MLPerf ResNet-50模型推理測試后，壁仞科技、墨芯也分別通過第三方權威AI基準測試平臺展示出其AI芯片的實測性能實力。

從這次開放優化類榜單展示的性能成績，我們看到稀疏性計算已經成數據中心AI推理的一個熱門趨勢，我們期待接下來這類具有創新力的技術能進入固定任務榜單，通過更精細、更公平地比較系統實力，進一步驗證其落地價值。

隨著參評機構、系統規模、系統配置的增加和走向多元化，MLPerf基準測試正變得越來越復雜。這些歷屆的榜單結果，也能反映出全球AI芯片的技術及產業格局之變遷。

登入后，方可留言>>

行業動態

澄天偉業2025年實現營收4.14億元，凈利潤同比增長32.83%

LGDQ1盈利增338%，OLE轉型成效顯著

寒武紀完成DeepSeek-V4“Day 0”適配

熱讀文章

苗圩出席統籌推進疫情防控和產業轉型升級促進制造業通信業穩定發展發布會

一圖讀懂2020年《政府工作報告》

工業富聯：擬7763萬美元收購鴻海精密美國子公司相關資產