10月13日,螞蟻集團(tuán)正式開源業(yè)界首個(gè)高性能擴(kuò)散語言模型推理框架dInfer。
在基準(zhǔn)測試中,dInfer將擴(kuò)散語言模型的推理速度相比于英偉達(dá)擴(kuò)散模型框架Fast-dLLM提升了10.7倍;在代碼生成任務(wù)HumanEval上,dInfer在單批次推理中創(chuàng)造了1011Tokens/秒的速度,首次在開源社區(qū)中實(shí)現(xiàn)擴(kuò)散語言模型的單批次推理速度顯著超越自回歸模型。dInfer的工作表明,擴(kuò)散語言模型具備顯著的效率潛力,可以通過系統(tǒng)性的創(chuàng)新工程兌現(xiàn),為通往AGI的架構(gòu)路徑提供極具競爭力的選項(xiàng)。
擴(kuò)散語言模型,作為一種全新的范式將文本生成視為一個(gè)“從隨機(jī)噪聲中逐步恢復(fù)完整序列”的去噪過程,具有高度并行、全局視野、結(jié)構(gòu)靈活三大優(yōu)勢。憑借這些優(yōu)勢,以螞蟻集團(tuán)和人大發(fā)布的LLaDA-MoE為代表的模型已在多個(gè)基準(zhǔn)測試中,展現(xiàn)出與頂尖AR模型相媲美的準(zhǔn)確性 。然而在推理效率方面,dLLM理論上的強(qiáng)大潛能,卻長期被殘酷的現(xiàn)實(shí)“枷鎖”所束縛。dLLM的高效推理面臨計(jì)算成本高、KV緩存失效、并行解碼三大挑戰(zhàn)。這些瓶頸使得擴(kuò)散語言模型的推理速度一直不盡人意,如何打破枷鎖釋放擴(kuò)散語言模型在推理效率上的潛能,成為整個(gè)領(lǐng)域亟待解決的難題。
dInfer是一款專為擴(kuò)散語言模型設(shè)計(jì)的、算法與系統(tǒng)深度協(xié)同的高性能推理框架 ,可支持多種擴(kuò)散語言模型,包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等。
dInfer包含四大核心模塊:模型接入(Model)、KV緩存管理器(KV-Cache Manager),擴(kuò)散迭代管理器(Iteration Manager),和解碼策略(Decoder)。這種可插拔的架構(gòu),允許開發(fā)者像搭樂高一樣,進(jìn)一步組合和探索不同模塊的優(yōu)化策略,并在統(tǒng)一的平臺(tái)上進(jìn)行標(biāo)準(zhǔn)化評(píng)測 。更重要的是,dInfer針對(duì)上述三大挑戰(zhàn),在每個(gè)模塊中都集成了針對(duì)性的解決方案。
(圖說:dInfer的架構(gòu))
在配備8塊NVIDIA H800 GPU的節(jié)點(diǎn)上,dInfer的性能表現(xiàn)令人矚目:
螞蟻集團(tuán)介紹,dInfer連接了前沿研究與產(chǎn)業(yè)落地,標(biāo)志著擴(kuò)散語言模型從“理論可行”邁向“實(shí)踐高效”的關(guān)鍵一步。此次開預(yù)案,也是誠邀全球的開發(fā)者與研究者共同探索擴(kuò)散語言模型的巨大潛能,構(gòu)建更加高效、開放的AI新生態(tài)。
全部評(píng)論 (0)