Binance Square'de Meta cho biết dự đoán nhiều mã thông báo tăng tốc độ mô hình AI lên ba lần

Cryptopolitan · 2024-05-07T05:13:07.000Z

Các nhà nghiên cứu tại Meta cho biết việc đào tạo các mô hình ngôn ngữ để dự đoán nhiều mã thông báo cùng một lúc sẽ mang lại hiệu quả lấy mẫu tốt hơn. Các mô hình ngôn ngữ lớn như Llama và ChatGPT thường được đào tạo để dự đoán mã thông báo tiếp theo, nhưng với phương pháp mới này, có thể đạt được hiệu suất tốt hơn. Kỹ thuật dự đoán mã thông báo đơn là gì? Kỹ thuật dự đoán nhiều mã thông báo mang lại lợi thế đáng kể trong một số tình huống với tốc độ gấp ba lần so với các tác vụ tổng hợp, nhưng nó vẫn không phải là giải pháp chung cho mọi loại mô hình. Kỹ thuật này còn nhiều chỗ cần cải tiến và đối với một số ứng dụng LLM, nó có thể trở thành một công cụ mạnh mẽ.

Meta'daki araştırmacılar, dil modellerini aynı anda birden fazla jetonu tahmin edecek şekilde eğitmenin daha iyi örnek verimliliği sağladığını söylüyor.
Llama ve ChatGPT gibi büyük dil modelleri genellikle bir sonraki token tahmini için eğitilir ancak bu yeni yaklaşımla daha iyi performans elde edilebilir.
Tek token tahmin tekniği nedir?
Çoklu belirteçli tahmin tekniği, bazı senaryolarda üretken görevlerin üç katı hızıyla önemli bir avantaj sağlar, ancak yine de her model türü için herkese uyan tek çözüm değildir. Tekniğin geliştirilebilecek oldukça yeri var ve bazı LLM uygulamaları için sağlam bir araç haline gelebilir.
Daha net bir anlayış için, LLM eğitimi için geleneksel sürecin "sonraki token tahmini" adı verilen bir yaklaşımı kullandığı ve bu şekilde bir modelin belirli bir dizide yalnızca bir sonraki gelecekteki tokenı tahmin ettiği söylenebilir.
Otomatik bir süreçte, tahmin ettiği jeton girdiye eklenir ve süreç, sağlanan tüm metin girişi boyunca tekrar tekrar tekrarlanır, böylece model ortak kalıpları öğrenir ve mantıksal ve tutarlı çıktılardan oluşan çıktı üretme yeteneğini geliştirir. metin.
Bu tekniğin bazı dezavantajları vardır; yalnızca bir sonraki jetonu işleyerek model, metindeki yerel kalıplara fazla odaklanır ve yalnızca akıl yürütmeyle yapılabilecek tahminleri göz ardı eder.
Bu teknikle ilgili bir başka sorun da, insanların çok az metinle yapabileceği normal dil çıktısı akışına ulaşmak için modele büyük miktarda veri kümesinin beslenmesini gerektirmesidir.
Çoklu jeton tahmini 3 kat hız sağlar
 Kaynak: Meta.
Meta tarafından önerilen yeni çoklu token yaklaşımında, LLM'ye eğitim sürecinde aynı anda farklı konumlardan birden fazla tokenı tahmin etmesi talimatı veriliyor. Araştırmacılar, çoklu token tahmini için zaman ve bellek işleme gibi ekstra kaynaklar gerektirmeyen basit bir tahmin mimarisi kullandılar.
Araştırmacılar, halihazırda çoğu LLM tarafından kullanılan aynı Transformer mimarisini kullandılar, ancak çıktı kafalarını tekliden çokluya çıkararak ve her bir tokena bir tane tahsis ederek çoklu token tahminini karşılamak için bazı değişiklikler yaptılar.
Bu şekilde, sonuçlar çıkarmak ve tahminlerde bulunmak için model aynı temel sonraki tahmin stratejisini kullanır, ancak birden fazla başlık kullanarak süreci hızlandırabilir. Araştırma çalışması şunu söylüyor:
"Maliyetsiz ve basit olmasına rağmen, çoklu jetonlu tahmin, daha güçlü ve daha hızlı transformatör modellerini eğitmek için etkili bir modifikasyondur."
 Kaynak: Meta.
Araştırmacılar, çalışma sırasında tekniğin daha küçük modellerde kullanıldığında ortalamanın altında sonuçlar ürettiğini, ancak aynı işlemi daha büyük modellere uyguladıklarında sonuçların ortalamanın üzerinde daha iyi hale geldiğini ve sonuçların modelin boyutuyla birlikte gelişmeye devam ettiğini buldu.  Çalışmanın yazdığı gibi,
"Yöntem, daha büyük model boyutları için giderek daha kullanışlı hale geliyor ve birden fazla dönem için eğitim sırasında çekiciliğini koruyor. Kazanımlar özellikle kodlama gibi üretken kıyaslamalarda belirgindir; modellerimiz sürekli olarak güçlü temel değerlerin birkaç puan üzerinde performans gösterir."
 Kaynak: Meta.
Araştırmacılar ayrıca, çoklu token tahmin tekniğinin, modeli mantıksal sonuçlar üretmede üç kat daha hızlı hale getirdiğini, bunun da hiçbir ekstra maliyet avantajı olmadan ya da çok az bir faydayla faydalı olduğunu söyledi.

İçerik Üreticisinden Daha Fazla İçerik Keşfedin

En Son Haberler

İçerik Üreticisinden Daha Fazla İçerik Keşfedin

En Son Haberler

Öne Çıkan Makaleler