NVIDIA ha introdotto una nuova funzionalità in TensorRT-LLM chiamata attenzione multiblock, che migliora significativamente il throughput dell'inferenza AI fino a 3,5 volte sulla piattaforma HGX H200. Questa innovazione affronta le sfide delle lunghezze delle sequenze lunghe, come si vede nei moderni modelli generativi AI come Llama 2 e Llama 3.1.
Questi modelli hanno finestre di contesto più ampie, consentendo loro di eseguire compiti cognitivi complessi su ampi dataset. Tuttavia, questa espansione presenta sfide nell'inferenza AI, come le esigenze di bassa latenza e le piccole dimensioni dei batch. L'attenzione multiblock di TensorRT-LLM di NVIDIA risolve questi problemi distribuendo i compiti computazionali su tutti i SM disponibili, massimizzando l'utilizzo delle risorse GPU e migliorando il throughput complessivo del sistema.
Fonte
<p>Il post TensorRT-LLM di NVIDIA: Aumentare il throughput dell'inferenza AI sulla HGX H200 è apparso per la prima volta su CoinBuzzFeed.</p>