Sunt SLM-urile următoarea schimbare de joc a AI-ului?

Deși industria AI se concentrează puternic pe Modelele Mari de Limbaj (LLM-uri), un număr tot mai mare de experți crede că Modelele Mici de Limbaj (SLM-uri) ar putea foarte curând să devină principala atracție.

Pe măsură ce companiile tehnologice cresc investițiile în AI generativ în timpul sezonului aglomerat de sărbători, conversația se îndreaptă spre necesitatea de soluții personalizate în detrimentul sistemelor monolitice.

Deși LLM-urile excelează în gestionarea sarcinilor diverse, acestea sunt adesea intensive în resurse, prezentând provocări legate de costuri, consum de energie și cerințe computaționale.

Potrivit CEO-ului AWS, Matt Garman, există deja un interes semnificativ din partea afacerilor care utilizează AI generativ alimentat de modele precum Anthropic.

Totuși, LLM-urile, deși dominante în unele domenii, nu sunt potrivite pentru toate.

CEO-ul Teradata, Steven McMillan, susține SLM-urile ca fiind viitorul AI-ului, subliniind capacitatea lor de a oferi rezultate specifice sarcinilor.

McMillan a exprimat:

„Pe măsură ce ne uităm spre viitor, credem că modelele mici și medii de limbaj și medii controlate, cum ar fi LLM-urile specifice domeniului, vor oferi soluții mult mai bune.”

SLM-urile sunt construite cu un scop, antrenate pe seturi de date specifice pentru a oferi perspective foarte relevante, asigurând în același timp confidențialitatea datelor.

Un Studiu Cuprinzător asupra Modelor de Limbaj Mici

Un studiu interesant despre modelele de limbaj mici (SLM-uri) și discuții legate de definiții, aplicații, îmbunătățiri, fiabilitate și multe altele. https://t.co/qVxuY1jWDE pic.twitter.com/WZuRm1fqU4

— elvis (@omarsar0) 7 noiembrie 2024

Spre deosebire de omologii lor mai mari, acestea optimizează resursele de energie și calcul pentru a se adapta nevoilor unui proiect, oferind o alternativă eficientă și cost-eficientă.

Pentru afacerile care necesită expertiză profundă într-un domeniu particular, modelele specializate—fie că sunt LLM-uri specifice domeniului sau SLM-uri—oferă o acuratețe neegalată. De exemplu, un model adaptat pentru un Chief Marketing Officer (CMO) în comparație cu unul pentru un Chief Financial Officer (CFO) oferă perspective foarte contextuale și relevante în domeniul său de formare.

Pe măsură ce peisajul AI evoluează, ascensiunea SLM-urilor evidențiază o cerere în creștere pentru precizie, eficiență și scalabilitate—calități care ar putea redefini viitorul sistemelor inteligente.

Sunt SLM-urile o opțiune mai bună?

Asociația Științificilor în Domeniul Datelor (ADaSci) estimează că dezvoltarea unui SLM cu 7 miliarde de parametri pentru a servi un milion de utilizatori ar necesita doar 55,1 MWh (megawatt ore) de electricitate.

În contrast, antrenarea GPT-3, cu cei 175 de miliarde de parametri, a consumat o sumă impresionantă de 1,287 MWh, fără a ține cont de energia utilizată atunci când modelul este activ implementat.

Aceasta înseamnă că un SLM folosește aproximativ 5% din energia necesară unui LLM.

LLM-urile, datorită cerințelor lor masive de calcul, sunt de obicei rulate pe servere cloud, ceea ce înseamnă adesea că companiile își pierd controlul asupra datelor lor și se confruntă cu timpi de răspuns mai lenti pe măsură ce informația călătorește prin internet.

Mai slab este mai bine - O lucrare grozavă de la @GoogleDeepMind

**Problemă**🔍:

Antrenarea modelelor de limbaj (LM) pe date sintetice de înaltă calitate din LMs puternice este comună pentru îmbunătățirea raționamentului, dar poate să nu fie optimă din punct de vedere computațional sub bugete fixe de inferență.

**Perspectiva Cheie din această Lucrare… pic.twitter.com/PIbhSN3zVV

— Rohan Paul (@rohanpaul_ai) 28 septembrie 2024

Pe măsură ce afacerile adoptă din ce în ce mai mult AI-ul, este clar că o singură soluție nu va fi potrivită pentru toți.

Companiile vor prioritiza eficiența, cost-eficacitatea și minimizarea transferului de date către cloud, alegând cel mai potrivit model pentru fiecare proiect—fie că este vorba de un LLM de uz general sau de un model mai mic, mai specializat.

În acest peisaj în evoluție, eficiența și acuratețea vor fi esențiale.

McMillan a spus:

„Când te gândești la antrenarea modelelor AI, acestea trebuie să fie construite pe fundația unor date excelente.”

El a adăugat:

„Aceasta este ceea ce ne definește, oferind acel set de date de încredere și apoi oferind capabilitățile și capacitățile analitice astfel încât clienții, și clienții lor, să poată avea încredere în rezultatele.”

LLM-urile mai mici, specifice domeniului oferă o alternativă atractivă, permițând afacerilor să valorifice puterea AI-ului fără costurile mari de resurse și complexitatea modelelor mai mari.

Pe măsură ce AI devine central în luarea deciziilor de afaceri, alegerea modelului potrivit pentru fiecare sarcină va fi critică, asigurând atât rezultate fiabile, cât și scalabile.