Meta'daki araştırmacılar, dil modellerini aynı anda birden fazla jetonu tahmin edecek şekilde eğitmenin daha iyi örnek verimliliği sağladığını söylüyor.

Llama ve ChatGPT gibi büyük dil modelleri genellikle bir sonraki token tahmini için eğitilir ancak bu yeni yaklaşımla daha iyi performans elde edilebilir.

Tek token tahmin tekniği nedir?

Çoklu belirteçli tahmin tekniği, bazı senaryolarda üretken görevlerin üç katı hızıyla önemli bir avantaj sağlar, ancak yine de her model türü için herkese uyan tek çözüm değildir. Tekniğin geliştirilebilecek oldukça yeri var ve bazı LLM uygulamaları için sağlam bir araç haline gelebilir.

Daha net bir anlayış için, LLM eğitimi için geleneksel sürecin "sonraki token tahmini" adı verilen bir yaklaşımı kullandığı ve bu şekilde bir modelin belirli bir dizide yalnızca bir sonraki gelecekteki tokenı tahmin ettiği söylenebilir.

Otomatik bir süreçte, tahmin ettiği jeton girdiye eklenir ve süreç, sağlanan tüm metin girişi boyunca tekrar tekrar tekrarlanır, böylece model ortak kalıpları öğrenir ve mantıksal ve tutarlı çıktılardan oluşan çıktı üretme yeteneğini geliştirir. metin.

Bu tekniğin bazı dezavantajları vardır; yalnızca bir sonraki jetonu işleyerek model, metindeki yerel kalıplara fazla odaklanır ve yalnızca akıl yürütmeyle yapılabilecek tahminleri göz ardı eder.

Bu teknikle ilgili bir başka sorun da, insanların çok az metinle yapabileceği normal dil çıktısı akışına ulaşmak için modele büyük miktarda veri kümesinin beslenmesini gerektirmesidir.

Çoklu jeton tahmini 3 kat hız sağlar

Kaynak: Meta.

Meta tarafından önerilen yeni çoklu token yaklaşımında, LLM'ye eğitim sürecinde aynı anda farklı konumlardan birden fazla tokenı tahmin etmesi talimatı veriliyor. Araştırmacılar, çoklu token tahmini için zaman ve bellek işleme gibi ekstra kaynaklar gerektirmeyen basit bir tahmin mimarisi kullandılar.

Araştırmacılar, halihazırda çoğu LLM tarafından kullanılan aynı Transformer mimarisini kullandılar, ancak çıktı kafalarını tekliden çokluya çıkararak ve her bir tokena bir tane tahsis ederek çoklu token tahminini karşılamak için bazı değişiklikler yaptılar.

Bu şekilde, sonuçlar çıkarmak ve tahminlerde bulunmak için model aynı temel sonraki tahmin stratejisini kullanır, ancak birden fazla başlık kullanarak süreci hızlandırabilir. Araştırma çalışması şunu söylüyor:

"Maliyetsiz ve basit olmasına rağmen, çoklu jetonlu tahmin, daha güçlü ve daha hızlı transformatör modellerini eğitmek için etkili bir modifikasyondur."

Kaynak: Meta.

Araştırmacılar, çalışma sırasında tekniğin daha küçük modellerde kullanıldığında ortalamanın altında sonuçlar ürettiğini, ancak aynı işlemi daha büyük modellere uyguladıklarında sonuçların ortalamanın üzerinde daha iyi hale geldiğini ve sonuçların modelin boyutuyla birlikte gelişmeye devam ettiğini buldu.  Çalışmanın yazdığı gibi,

"Yöntem, daha büyük model boyutları için giderek daha kullanışlı hale geliyor ve birden fazla dönem için eğitim sırasında çekiciliğini koruyor. Kazanımlar özellikle kodlama gibi üretken kıyaslamalarda belirgindir; modellerimiz sürekli olarak güçlü temel değerlerin birkaç puan üzerinde performans gösterir."

Kaynak: Meta.

Araştırmacılar ayrıca, çoklu token tahmin tekniğinin, modeli mantıksal sonuçlar üretmede üç kat daha hızlı hale getirdiğini, bunun da hiçbir ekstra maliyet avantajı olmadan ya da çok az bir faydayla faydalı olduğunu söyledi.