Czy SLM-y są następnym przełomem w AI?

Podczas gdy przemysł AI pozostaje silnie skoncentrowany na dużych modelach językowych (LLM), rosnąca grupa ekspertów uważa, że małe modele językowe (SLM) mogą wkrótce zająć centralne miejsce.

W miarę jak firmy technologiczne zwiększają inwestycje w generatywną AI w szalonym okresie świątecznym, rozmowa przesuwa się w kierunku potrzeby dostosowanych rozwiązań zamiast monolitycznych systemów.

Podczas gdy LLM-y doskonale radzą sobie z różnorodnymi zadaniami, często są zasobożerne, co stwarza wyzwania w zakresie kosztów, zużycia energii i wymagań obliczeniowych.

Według CEO AWS, Matta Garmana, istnieje już znaczne zainteresowanie ze strony firm wykorzystujących generatywną AI zasilaną przez modele takie jak Anthropic.

Jednak LLM-y, mimo dominacji w niektórych obszarach, nie są uniwersalnym rozwiązaniem.

CEO Teradata, Steven McMillan, promuje SLM-y jako przyszłość AI, podkreślając ich zdolność do dostarczania wyników specyficznych dla zadania.

McMillan wyraził:

„Patrząc w przyszłość, uważamy, że małe i średnie modele językowe oraz kontrolowane środowiska, takie jak LLM-y specyficzne dla danej dziedziny, zapewnią znacznie lepsze rozwiązania.”

SLM-y są budowane z myślą o celu, szkolone na określonych zestawach danych, aby dostarczać wysoko istotne informacje, zapewniając jednocześnie prywatność danych.

Kompleksowe badanie małych modeli językowych

Fajna ankieta na temat małych modeli językowych (SLM) i dyskusja na temat kwestii związanych z definicjami, zastosowaniami, ulepszeniami, niezawodnością i innymi. https://t.co/qVxuY1jWDE pic.twitter.com/WZuRm1fqU4

— elvis (@omarsar0) 7 listopada 2024

W przeciwieństwie do ich większych odpowiedników, optymalizują zużycie energii i zasobów obliczeniowych, aby dostosować się do potrzeb projektu, oferując opłacalną i wydajną alternatywę.

Dla firm wymagających głębokiej wiedzy w określonej dziedzinie, modele wyspecjalizowane — czy to LLM-y specyficzne dla danej dziedziny, czy SLM-y — zapewniają niezrównaną dokładność. Na przykład model dostosowany do Dyrektora Marketingu (CMO) w porównaniu do modelu dla Dyrektora Finansowego (CFO) dostarcza wysoko kontekstowe i istotne informacje w swojej dziedzinie szkolenia.

W miarę jak krajobraz AI ewoluuje, wzrost SLM-ów podkreśla rosnące zapotrzebowanie na precyzję, wydajność i skalowalność — cechy, które mogą zdefiniować przyszłość inteligentnych systemów.

Czy SLM-y są lepszą opcją?

Stowarzyszenie Naukowców Danych (ADaSci) oszacowało, że opracowanie SLM z 7 miliardami parametrów, aby obsłużyć milion użytkowników, wymagałoby zaledwie 55,1 MWh (megawatogodzin) energii elektrycznej.

W przeciwieństwie do tego, szkolenie GPT-3, z jego 175 miliardami parametrów, pochłonęło oszałamiające 1,287 MWh, nie uwzględniając energii użytej, gdy model jest aktywnie wdrażany.

Oznacza to, że SLM zużywa zaledwie około 5% energii wymaganej przez LLM.

LLM-y, ze względu na swoje ogromne wymagania obliczeniowe, zazwyczaj działają na serwerach w chmurze, co często oznacza, że firmy tracą kontrolę nad swoimi danymi i stają w obliczu wolniejszych czasów reakcji, gdy informacje przemieszczają się przez internet.

Słabsze jest lepsze - świetny artykuł od @GoogleDeepMind

**Problem**🔍:

Szkolenie modeli językowych (LM) na wysokiej jakości syntetycznych danych z silnych LM jest powszechne w celu poprawy rozumowania, ale może nie być optymalne obliczeniowo w ramach stałych budżetów wnioskowania.

**Kluczowe spostrzeżenia z tego artykułu… pic.twitter.com/PIbhSN3zVV

— Rohan Paul (@rohanpaul_ai) 28 września 2024

W miarę jak firmy coraz bardziej adoptują AI, jasne jest, że jeden rozmiar nie będzie odpowiedni dla wszystkich.

Firmy będą priorytetowo traktować wydajność, opłacalność i minimalizację transferu danych do chmury, wybierając najbardziej odpowiedni model dla każdego projektu — czy to ogólny LLM, czy mniejszy, bardziej wyspecjalizowany model.

W tym zmieniającym się krajobrazie wydajność i dokładność będą kluczowe.

McMillan powiedział:

„Kiedy myślisz o szkoleniu modeli AI, muszą one być oparte na solidnych danych.”

Dodał:

„To jest to, czym się zajmujemy, dostarczając ten zaufany zestaw danych, a następnie zapewniając możliwości i analityczne zdolności, aby klienci i ich klienci mogli zaufać wynikom.”

Mniejsze, specyficzne dla danej dziedziny LLM-y oferują atrakcyjną alternatywę, umożliwiając firmom wykorzystanie mocy AI bez dużych kosztów zasobów i złożoności większych modeli.

W miarę jak AI staje się centralnym elementem podejmowania decyzji biznesowych, wybór odpowiedniego modelu dla każdego zadania będzie kluczowy, zapewniając zarówno niezawodne, jak i skalowalne wyniki.