NVIDIA a introduit une nouvelle fonctionnalité dans TensorRT-LLM appelée attention multibloc, qui améliore considérablement le débit d'inférence de l'IA jusqu'à 3,5 fois sur la plateforme HGX H200. Cette innovation relève les défis des longueurs de séquence longues, comme on le voit dans les modèles d'IA générative modernes tels que Llama 2 et Llama 3.1.
Ces modèles ont des fenêtres de contexte plus grandes, leur permettant d'effectuer des tâches cognitives complexes sur de vastes ensembles de données. Cependant, cette expansion présente des défis dans l'inférence de l'IA, tels que des exigences de faible latence et de petites tailles de lot. L'attention multibloc de TensorRT-LLM de NVIDIA résout ces problèmes en répartissant les tâches computationnelles sur tous les SM disponibles, maximisant l'utilisation des ressources GPU et améliorant le débit global du système.
Source
<p>Le post TensorRT-LLM de NVIDIA : Améliorer le débit d'inférence de l'IA sur le HGX H200 est apparu en premier sur CoinBuzzFeed.</p>