NVIDIA představila novou funkci v TensorRT-LLM nazvanou multiblock attention, která významně zlepšuje propustnost AI inference až o 3,5x na platformě HGX H200. Tato inovace se zabývá problémy dlouhých sekvencí, což je patrné u moderních generativních AI modelů, jako jsou Llama 2 a Llama 3.1.
Tyto modely mají větší kontextová okna, což jim umožňuje vykonávat složité kognitivní úkoly na rozsáhlých datech. Nicméně, tato expanze představuje výzvy v AI inference, jako jsou požadavky na nízkou latenci a malé velikosti dávky. Multiblock attention NVIDIA’s TensorRT-LLM tyto problémy řeší tím, že distribuuje výpočetní úkoly napříč všemi dostupnými SM, maximalizuje využití GPU zdrojů a zlepšuje celkovou propustnost systému.
Zdroj
<p>Příspěvek NVIDIA’s TensorRT-LLM: Zvyšování propustnosti AI inference na HGX H200 se poprvé objevil na CoinBuzzFeed.</p>