超碰av在线短片|中文字幕第一页日本|亚洲国产精品Va|亚洲一区二区中文字幕在线观看|日本青青草一级片|亚洲 福利 AV|中文字幕日版第一页|免费视频一区|五月丁香在线视.|黄色在线观看aa

每秒110萬個token!微軟聯(lián)手英偉達刷新AI推理紀錄

11 月 5 日消息,微軟當?shù)貢r間 11 月 4 日宣布,其 Azure ND GB300 v6 虛擬機在運行 Meta 的 Llama2 70B 模型時,推理速度達到了每秒 110 萬個 token。

每秒110萬個token!微軟聯(lián)手英偉達刷新AI推理紀錄-有駕

IT之家注意到,微軟首席執(zhí)行官薩提亞?納德拉(Satya Nadella)在 X 平臺(原 Twitter)上表示:“這一行業(yè)紀錄的實現(xiàn),得益于我們與英偉達長期的聯(lián)合創(chuàng)新,以及我們在生產級規(guī)模運行人工智能方面的專業(yè)能力?!?/p>

每秒110萬個token!微軟聯(lián)手英偉達刷新AI推理紀錄-有駕

Azure ND GB300 虛擬機由英偉達 Blackwell Ultra GPU 提供動力,具體基于 NVIDIA GB300 NVL72 系統(tǒng)。該系統(tǒng)在單個機架級配置中集成了 72 顆 NVIDIA Blackwell Ultra GPU 和 36 顆 NVIDIA Grace CPU。

該虛擬機專門針對推理工作負載進行了優(yōu)化,GPU 內存容量提升了 50%,熱設計功耗(TDP)提高了 16%。

為驗證性能提升,微軟在單個 NVIDIA GB300 NVL72 域內的 18 個 ND GB300 v6 虛擬機上,分別運行了 MLPerf Inference v5.1 基準測試中的 Llama2 70B 模型(采用 FP4 精度),并使用 NVIDIA TensorRT-LLM 作為推理引擎。

微軟表示:“單個 NVL72 機架的 Azure ND GB300 v6 虛擬機實現(xiàn)了總計每秒 1,100,000 個 token 的推理吞吐量。這刷新了 AI 推理領域的新紀錄,超越了此前在同一 NVIDIA GB200 NVL72 機架上使用 ND GB200 v6 虛擬機所創(chuàng)下的每秒 865,000 個 token 的紀錄?!?/p>

由于該系統(tǒng)包含 72 顆 Blackwell Ultra GPU,其性能大致相當于每顆 GPU 約 15,200 個 token / 秒。

微軟已詳細公開了本次測試的完整數(shù)據,包括全部日志文件和詳盡的測試結果。該性能結果已由獨立的性能驗證與基準測試機構 Signal65 進行認證。

每秒110萬個token!微軟聯(lián)手英偉達刷新AI推理紀錄-有駕
每秒110萬個token!微軟聯(lián)手英偉達刷新AI推理紀錄-有駕

Signal65 實驗室副總裁拉斯?費洛斯(Russ Fellows)在其博客中指出:“這一里程碑不僅在于率先突破了每秒百萬 token 的大關,成為行業(yè)首次,更在于它是在一個專為滿足現(xiàn)代企業(yè)動態(tài)使用需求和數(shù)據治理要求而設計的平臺上實現(xiàn)的。”

Signal65 還補充道,與上一代 NVIDIA GB200 相比,Azure ND GB300 在推理性能上提升了 27%,而功耗僅增加了 17%。

“與 NVIDIA H100 世代相比,GB300 在機架級測試中實現(xiàn)了近 10 倍的推理性能提升,同時能效比提高了近 2.5 倍?!痹摴具M一步表示。

【來源:IT之家

0

全部評論 (0)

暫無評論