Meta pētnieki saka, ka valodu modeļu apmācība, lai prognozētu vairākus marķierus vienlaikus, nodrošina labāku izlases efektivitāti.

Lieli valodu modeļi, piemēram, Llama un ChatGPT, parasti tiek apmācīti nākamā marķiera prognozēšanai, taču ar šo jauno pieeju var sasniegt labāku veiktspēju.

Kas ir viena marķiera prognozēšanas tehnika?

Vairāku marķieru prognozēšanas tehnika dažos scenārijos nodrošina ievērojamu priekšrocību ar trīsreiz lielāku ātrumu nekā ģeneratīvie uzdevumi, taču tā joprojām nav universāls risinājums katram modeļa veidam. Tehnikai ir daudz iespēju uzlabot, un dažām LLM lietojumprogrammām tā var kļūt par spēcīgu rīku.

Lai iegūtu skaidrāku izpratni, var teikt, ka tradicionālajā LLM apmācības procesā tiek izmantota pieeja, ko sauc par "nākamā marķiera prognozēšanu", un šādā veidā modelis prognozē tikai nākamo nākotnes marķieri noteiktā secībā.

Automatizētā procesā tā paredzētā marķiera ievade tiek pievienota ievadei, un process tiek atkārtots atkal un atkal visā nodrošinātajā teksta ievadē, lai modelis apgūtu kopīgās shēmas un attīstītu spēju radīt izvadi, kas sastāv no loģiskas un konsekventas. tekstu.

Šai tehnikai ir daži trūkumi, jo, apstrādājot tikai nākamo marķieri, modelis kļūst pārāk koncentrēts uz vietējiem teksta modeļiem un ignorē prognozes, kuras var izdarīt tikai ar argumentāciju.

Vēl viena šīs metodes problēma ir tā, ka modelī ir jāievada milzīgs datu kopu daudzums, lai sasniegtu normālu valodas izvades plūsmu, ko cilvēki var paveikt ar ļoti mazu teksta daudzumu.

Vairāku marķieru prognozēšana nodrošina 3X ātrumu

Avots: Meta.

Jaunajā Meta ieteiktajā vairāku marķieru pieejā LLM ir uzdots paredzēt vairākus marķierus no dažādām pozīcijām vienlaikus apmācības procesā. Pētnieki izmantoja vienkāršu prognozēšanas arhitektūru vairāku marķieru prognozēšanai, kas neprasa papildu resursus, piemēram, laika un atmiņas apstrādi.

Pētnieki izmantoja to pašu Transformatora arhitektūru, ko jau izmanto lielākā daļa LLM, taču viņi veica dažas izmaiņas, lai pielāgotos vairāku marķieru prognozēšanai, palielinot izvades galviņas no vienas uz vairākām un katram marķieram piešķirot vienu.

Tādā veidā, lai izdarītu secinājumus un veiktu prognozes, modelis izmanto to pašu pamata nākamās prognozēšanas stratēģiju, bet, izmantojot vairākas galvas, tas var paātrināt procesu. Pētījumā teikts,

"Lai gan bez maksas un vienkārši, vairāku marķieru prognozēšana ir efektīva modifikācija, lai apmācītu spēcīgākus un ātrākus transformatoru modeļus."

Avots: Meta.

Pētnieki pētījuma laikā atklāja, ka, lietojot to mazākos modeļos, šī metode radīja zemākus rezultātus, taču rezultāti kļuva labāki par vidējo, kad to pašu procesu izmantoja lielākiem modeļiem, un rezultāti turpināja uzlaboties, palielinoties modeļa izmēram.  Kā raksta pētījumā,

"Metode kļūst arvien noderīgāka lielāka izmēra modeļiem un saglabā savu pievilcību, apmācot vairākus laikmetus. Ieguvumi ir īpaši izteikti attiecībā uz tādiem ģeneratīviem etaloniem kā kodēšana, kur mūsu modeļi konsekventi par vairākiem procentpunktiem pārspēj spēcīgas bāzes līnijas.

Avots: Meta.

Pētnieki arī teica, ka vairāku marķieru prognozēšanas tehnika arī ļauj modelim trīs reizes ātrāk iegūt loģiskus rezultātus, kas ir noderīgi, jo papildu izmaksas nav vai ir ļoti mazas.