NVIDIA представила нову функцію в TensorRT-LLM під назвою багатоблочна увага, яка значно покращує пропускну здатність AI-виводу до 3,5 разів на платформі HGX H200. Це нововведення вирішує проблеми довгих послідовностей, які можна побачити в сучасних генеративних AI моделях, таких як Llama 2 і Llama 3.1.
Ці моделі мають більші контекстні вікна, що дозволяє їм виконувати складні когнітивні задачі з великими наборами даних. Однак це розширення створює проблеми в AI-виводі, такі як вимоги до низької затримки та малі розміри пакетів. Багатоблочна увага NVIDIA TensorRT-LLM вирішує ці проблеми, розподіляючи обчислювальні задачі між усіма доступними SM, максимізуючи використання ресурсів GPU та покращуючи загальну пропускну здатність системи.
Джерело
<p>Пост NVIDIA’s TensorRT-LLM: Підвищення пропускної здатності AI-виводу на HGX H200 вперше з'явився на CoinBuzzFeed.</p>