NVIDIA telah memperkenalkan fitur baru dalam TensorRT-LLM yang disebut perhatian multiblock, yang secara signifikan meningkatkan throughput inferensi AI hingga 3,5x di platform HGX H200. Inovasi ini mengatasi tantangan panjang urutan yang panjang, seperti yang terlihat pada model AI generatif modern seperti Llama 2 dan Llama 3.1.
Model-model ini memiliki jendela konteks yang lebih besar, memungkinkan mereka untuk melakukan tugas kognitif yang kompleks di atas dataset yang luas. Namun, perluasan ini menghadirkan tantangan dalam inferensi AI, seperti permintaan latensi rendah dan ukuran batch kecil. Perhatian multiblock TensorRT-LLM NVIDIA menyelesaikan masalah ini dengan mendistribusikan tugas komputasi ke semua SM yang tersedia, memaksimalkan pemanfaatan sumber daya GPU dan meningkatkan throughput sistem secara keseluruhan.
Sumber
<p>Postingan TensorRT-LLM NVIDIA: Meningkatkan Throughput Inferensi AI di HGX H200 pertama kali muncul di CoinBuzzFeed.</p>