中文毛片无遮挡高潮免费,真人高清实拍女处被破的视频,夜夜躁狠狠躁日日躁2022,伊人久久大香线蕉av影院,中文无码热在线视频

每秒110萬個token!微軟聯(lián)手英偉達(dá)刷新AI推理紀(jì)錄

11 月 5 日消息,微軟當(dāng)?shù)貢r間 11 月 4 日宣布,其 Azure ND GB300 v6 虛擬機在運行 Meta 的 Llama2 70B 模型時,推理速度達(dá)到了每秒 110 萬個 token。

每秒110萬個token!微軟聯(lián)手英偉達(dá)刷新AI推理紀(jì)錄-有駕

IT之家注意到,微軟首席執(zhí)行官薩提亞?納德拉(Satya Nadella)在 X 平臺(原 Twitter)上表示:“這一行業(yè)紀(jì)錄的實現(xiàn),得益于我們與英偉達(dá)長期的聯(lián)合創(chuàng)新,以及我們在生產(chǎn)級規(guī)模運行人工智能方面的專業(yè)能力?!?/p>

每秒110萬個token!微軟聯(lián)手英偉達(dá)刷新AI推理紀(jì)錄-有駕

Azure ND GB300 虛擬機由英偉達(dá) Blackwell Ultra GPU 提供動力,具體基于 NVIDIA GB300 NVL72 系統(tǒng)。該系統(tǒng)在單個機架級配置中集成了 72 顆 NVIDIA Blackwell Ultra GPU 和 36 顆 NVIDIA Grace CPU。

該虛擬機專門針對推理工作負(fù)載進(jìn)行了優(yōu)化,GPU 內(nèi)存容量提升了 50%,熱設(shè)計功耗(TDP)提高了 16%。

為驗證性能提升,微軟在單個 NVIDIA GB300 NVL72 域內(nèi)的 18 個 ND GB300 v6 虛擬機上,分別運行了 MLPerf Inference v5.1 基準(zhǔn)測試中的 Llama2 70B 模型(采用 FP4 精度),并使用 NVIDIA TensorRT-LLM 作為推理引擎。

微軟表示:“單個 NVL72 機架的 Azure ND GB300 v6 虛擬機實現(xiàn)了總計每秒 1,100,000 個 token 的推理吞吐量。這刷新了 AI 推理領(lǐng)域的新紀(jì)錄,超越了此前在同一 NVIDIA GB200 NVL72 機架上使用 ND GB200 v6 虛擬機所創(chuàng)下的每秒 865,000 個 token 的紀(jì)錄?!?/p>

由于該系統(tǒng)包含 72 顆 Blackwell Ultra GPU,其性能大致相當(dāng)于每顆 GPU 約 15,200 個 token / 秒。

微軟已詳細(xì)公開了本次測試的完整數(shù)據(jù),包括全部日志文件和詳盡的測試結(jié)果。該性能結(jié)果已由獨立的性能驗證與基準(zhǔn)測試機構(gòu) Signal65 進(jìn)行認(rèn)證。

每秒110萬個token!微軟聯(lián)手英偉達(dá)刷新AI推理紀(jì)錄-有駕
每秒110萬個token!微軟聯(lián)手英偉達(dá)刷新AI推理紀(jì)錄-有駕

Signal65 實驗室副總裁拉斯?費洛斯(Russ Fellows)在其博客中指出:“這一里程碑不僅在于率先突破了每秒百萬 token 的大關(guān),成為行業(yè)首次,更在于它是在一個專為滿足現(xiàn)代企業(yè)動態(tài)使用需求和數(shù)據(jù)治理要求而設(shè)計的平臺上實現(xiàn)的。”

Signal65 還補充道,與上一代 NVIDIA GB200 相比,Azure ND GB300 在推理性能上提升了 27%,而功耗僅增加了 17%。

“與 NVIDIA H100 世代相比,GB300 在機架級測試中實現(xiàn)了近 10 倍的推理性能提升,同時能效比提高了近 2.5 倍?!痹摴具M(jìn)一步表示。

【來源:IT之家

0

全部評論 (0)

暫無評論