Czy SLM-y są następnym przełomem w AI?
Podczas gdy przemysł AI pozostaje silnie skoncentrowany na dużych modelach językowych (LLM), rosnąca grupa ekspertów uważa, że małe modele językowe (SLM) mogą wkrótce zająć centralne miejsce.
W miarę jak firmy technologiczne zwiększają inwestycje w generatywną AI w szalonym okresie świątecznym, rozmowa przesuwa się w kierunku potrzeby dostosowanych rozwiązań zamiast monolitycznych systemów.
Podczas gdy LLM-y doskonale radzą sobie z różnorodnymi zadaniami, często są zasobożerne, co stwarza wyzwania w zakresie kosztów, zużycia energii i wymagań obliczeniowych.
Według CEO AWS, Matta Garmana, istnieje już znaczne zainteresowanie ze strony firm wykorzystujących generatywną AI zasilaną przez modele takie jak Anthropic.
Jednak LLM-y, mimo dominacji w niektórych obszarach, nie są uniwersalnym rozwiązaniem.
CEO Teradata, Steven McMillan, promuje SLM-y jako przyszłość AI, podkreślając ich zdolność do dostarczania wyników specyficznych dla zadania.
McMillan wyraził:
„Patrząc w przyszłość, uważamy, że małe i średnie modele językowe oraz kontrolowane środowiska, takie jak LLM-y specyficzne dla danej dziedziny, zapewnią znacznie lepsze rozwiązania.”
SLM-y są budowane z myślą o celu, szkolone na określonych zestawach danych, aby dostarczać wysoko istotne informacje, zapewniając jednocześnie prywatność danych.
Kompleksowe badanie małych modeli językowych
Fajna ankieta na temat małych modeli językowych (SLM) i dyskusja na temat kwestii związanych z definicjami, zastosowaniami, ulepszeniami, niezawodnością i innymi. https://t.co/qVxuY1jWDE pic.twitter.com/WZuRm1fqU4
— elvis (@omarsar0) 7 listopada 2024
W przeciwieństwie do ich większych odpowiedników, optymalizują zużycie energii i zasobów obliczeniowych, aby dostosować się do potrzeb projektu, oferując opłacalną i wydajną alternatywę.
Dla firm wymagających głębokiej wiedzy w określonej dziedzinie, modele wyspecjalizowane — czy to LLM-y specyficzne dla danej dziedziny, czy SLM-y — zapewniają niezrównaną dokładność. Na przykład model dostosowany do Dyrektora Marketingu (CMO) w porównaniu do modelu dla Dyrektora Finansowego (CFO) dostarcza wysoko kontekstowe i istotne informacje w swojej dziedzinie szkolenia.
W miarę jak krajobraz AI ewoluuje, wzrost SLM-ów podkreśla rosnące zapotrzebowanie na precyzję, wydajność i skalowalność — cechy, które mogą zdefiniować przyszłość inteligentnych systemów.
Czy SLM-y są lepszą opcją?
Stowarzyszenie Naukowców Danych (ADaSci) oszacowało, że opracowanie SLM z 7 miliardami parametrów, aby obsłużyć milion użytkowników, wymagałoby zaledwie 55,1 MWh (megawatogodzin) energii elektrycznej.
W przeciwieństwie do tego, szkolenie GPT-3, z jego 175 miliardami parametrów, pochłonęło oszałamiające 1,287 MWh, nie uwzględniając energii użytej, gdy model jest aktywnie wdrażany.
Oznacza to, że SLM zużywa zaledwie około 5% energii wymaganej przez LLM.
LLM-y, ze względu na swoje ogromne wymagania obliczeniowe, zazwyczaj działają na serwerach w chmurze, co często oznacza, że firmy tracą kontrolę nad swoimi danymi i stają w obliczu wolniejszych czasów reakcji, gdy informacje przemieszczają się przez internet.
Słabsze jest lepsze - świetny artykuł od @GoogleDeepMind
**Problem**🔍:
Szkolenie modeli językowych (LM) na wysokiej jakości syntetycznych danych z silnych LM jest powszechne w celu poprawy rozumowania, ale może nie być optymalne obliczeniowo w ramach stałych budżetów wnioskowania.
**Kluczowe spostrzeżenia z tego artykułu… pic.twitter.com/PIbhSN3zVV
— Rohan Paul (@rohanpaul_ai) 28 września 2024
W miarę jak firmy coraz bardziej adoptują AI, jasne jest, że jeden rozmiar nie będzie odpowiedni dla wszystkich.
Firmy będą priorytetowo traktować wydajność, opłacalność i minimalizację transferu danych do chmury, wybierając najbardziej odpowiedni model dla każdego projektu — czy to ogólny LLM, czy mniejszy, bardziej wyspecjalizowany model.
W tym zmieniającym się krajobrazie wydajność i dokładność będą kluczowe.
McMillan powiedział:
„Kiedy myślisz o szkoleniu modeli AI, muszą one być oparte na solidnych danych.”
Dodał:
„To jest to, czym się zajmujemy, dostarczając ten zaufany zestaw danych, a następnie zapewniając możliwości i analityczne zdolności, aby klienci i ich klienci mogli zaufać wynikom.”
Mniejsze, specyficzne dla danej dziedziny LLM-y oferują atrakcyjną alternatywę, umożliwiając firmom wykorzystanie mocy AI bez dużych kosztów zasobów i złożoności większych modeli.
W miarę jak AI staje się centralnym elementem podejmowania decyzji biznesowych, wybór odpowiedniego modelu dla każdego zadania będzie kluczowy, zapewniając zarówno niezawodne, jak i skalowalne wyniki.