A NVIDIA introduziu um novo recurso no TensorRT-LLM chamado atenção multiblock, que melhora significativamente a taxa de transferência de inferência de IA em até 3,5x na plataforma HGX H200. Essa inovação enfrenta os desafios de comprimentos de sequência longos, como visto em modelos de IA generativa modernos, como Llama 2 e Llama 3.1.
Esses modelos têm janelas de contexto maiores, permitindo que realizem tarefas cognitivas complexas em conjuntos de dados extensos. No entanto, essa expansão apresenta desafios na inferência de IA, como demandas de baixa latência e tamanhos de lote pequenos. A atenção multiblock do TensorRT-LLM da NVIDIA resolve essas questões distribuindo tarefas computacionais por todas as SMs disponíveis, maximizando a utilização dos recursos da GPU e melhorando a taxa de transferência geral do sistema.
Fonte
<p>A postagem TensorRT-LLM da NVIDIA: Aumentando a Taxa de Transferência de Inferência de IA no HGX H200 apareceu pela primeira vez no CoinBuzzFeed.</p>