NVIDIA đã giới thiệu một tính năng mới trong TensorRT-LLM gọi là attention đa khối, giúp cải thiện đáng kể thông lượng suy luận AI lên đến 3,5 lần trên nền tảng HGX H200. Đổi mới này giải quyết các thách thức của độ dài chuỗi dài, như thấy trong các mô hình AI sinh tạo hiện đại như Llama 2 và Llama 3.1.

Các mô hình này có các cửa sổ ngữ cảnh lớn hơn, cho phép chúng thực hiện các tác vụ nhận thức phức tạp trên các tập dữ liệu rộng lớn. Tuy nhiên, sự mở rộng này đặt ra những thách thức trong suy luận AI, chẳng hạn như yêu cầu độ trễ thấp và kích thước lô nhỏ. Attention đa khối của TensorRT-LLM của NVIDIA giải quyết những vấn đề này bằng cách phân phối các nhiệm vụ tính toán trên tất cả các SM có sẵn, tối đa hóa việc sử dụng tài nguyên GPU và cải thiện thông lượng hệ thống tổng thể.

Nguồn

<p>Bài viết TensorRT-LLM của NVIDIA: Tăng cường thông lượng suy luận AI trên HGX H200 lần đầu tiên xuất hiện trên CoinBuzzFeed.</p>