Podczas gdy firmy inwestują pieniądze w duże modele językowe (LLM), niektórzy eksperci branżowi w sektorze AI uważają, że małe modele językowe (SLM) staną się następną wielką rzeczą.

Dzieje się to w miarę jak działalność w branży nadal rośnie, gdy zbliża się sezon świąteczny, a firmy technologiczne inwestują więcej funduszy w rozwój swojej technologii.

Przyszłość leży w małych modelach językowych

Tego typu xAI prowadzone przez miliardera Elona Muska zdołało pozyskać dodatkowe 5 miliardów dolarów od Andreessen Horowitz, Qatar Investment Authority, Sequoia i Valor Equity Partners, podczas gdy Amazon zainwestował dodatkowe 4 miliardy dolarów w Anthropic, rywala OpenAI.

Podczas gdy te wielkie firmy technologiczne i inne inwestują miliardy dolarów, skupiając się na opracowywaniu dużych LLM, aby poradzić sobie z wieloma różnymi zadaniami, rzeczywistość sztucznej inteligencji jest taka, że nie ma jednego rozwiązania, które pasuje do wszystkich, ponieważ istnieje potrzeba modeli specyficznych dla zadań dla firm.

Zgodnie z wypowiedzią dyrektora generalnego AWS Matta Garmana w komunikacie o ich rozwijającej się partnerstwie i inwestycjach, już istnieje ogromna reakcja od klientów AWS, którzy rozwijają generatywną AI napędzaną przez Anthropic.

LLM dla większości firm nadal są numerem jeden w przypadku niektórych projektów, ale dla innych ten wybór może być kosztowny w odniesieniu do kosztów, energii i zasobów obliczeniowych.

Steven McMillan, prezydent i dyrektor generalny Teradata, który zaproponował alternatywną ścieżkę dla niektórych firm, ma również inne poglądy. Jest pozytywnie nastawiony do przyszłości w SLM.

„Patrząc w przyszłość, uważamy, że małe i średnie modele językowe oraz kontrolowane środowiska, takie jak specyficzne dla dziedziny LLM, będą dostarczać znacznie lepsze rozwiązania.”

~ McMillan

SLM generują dostosowane wyniki na podstawie specyficznych typów danych, ponieważ modele językowe są specjalnie szkolone, aby to robić. Ponieważ dane generowane przez SLM są przechowywane wewnętrznie, modele językowe są zatem trenowane na potencjalnie wrażliwych danych.

Ponieważ LLM są energochłonne, małe wersje językowe są szkolone, aby dostosować zarówno obliczenia, jak i zużycie energii do rzeczywistych potrzeb projektu. Dzięki takim dostosowaniom oznacza to, że SLM są efektywne przy niższych kosztach niż obecne duże modele.

Dla użytkowników, którzy chcą korzystać z AI w celu uzyskania konkretnych informacji, istnieje opcja specyficznych dla dziedziny LLM, ponieważ nie oferują one szerokiej wiedzy. Są szkolone, aby głęboko rozumieć tylko jedną kategorię informacji i odpowiadać dokładniej, na przykład CMO w porównaniu do CFO w tej dziedzinie.

Dlaczego SLM są preferowaną opcją

Zgodnie z danymi Stowarzyszenia Naukowców Danych (ADaSci), całkowite opracowanie SLM z 7 miliardami parametrów dla miliona użytkowników wymagałoby zaledwie 55,1MWh (megawatogodzin).

ADaSci ustaliło, że szkolenie GPT-3 z 175 miliardami parametrów zużyło szacunkowo 1,287MWh energii elektrycznej, a moc ta nie obejmuje momentu, gdy model wchodzi w użycie przez publiczność. Dlatego SLM zużywa około 5% energii potrzebnej do szkolenia LLM.

Duże modele zwykle działają na komputerach w chmurze, ponieważ wymagają więcej mocy obliczeniowej, niż kiedykolwiek dostępne jest na pojedynczym urządzeniu. Powoduje to komplikacje dla firm, ponieważ tracą kontrolę nad swoimi informacjami, gdy przechodzą do chmury, oraz wolne odpowiedzi, gdy podróżują przez internet.

Wchodząc w przyszłość, przyjęcie AI przez firmy nie będzie jednorodne, ponieważ wydajność i wybór najlepszego i najtańszego narzędzia do wykonania zadań będą w centrum uwagi, co oznacza wybór odpowiedniego modelu do każdego projektu.

To będzie zrobione dla wszystkich modeli, czy to ogólnego przeznaczenia LLM, czy mniejszych i specyficznych dla dziedziny LLM, w zależności od tego, który model dostarczy lepsze wyniki, wymaga mniej zasobów i zmniejszy potrzebę migracji danych do chmury.

W następnej fazie sztuczna inteligencja będzie kluczowa dla decyzji biznesowych, ponieważ społeczeństwo ma wysoką pewność co do odpowiedzi generowanych przez AI.

„Kiedy myślisz o szkoleniu modeli AI, muszą one być oparte na fundamentach świetnych danych.”

~ McMillan

„O to chodzi, dostarczenie zaufanego zestawu danych, a następnie zapewnienie możliwości i możliwości analitycznych, aby klienci i ich klienci mogli ufać wynikom,” dodał McMillan.

W obliczu dużego zapotrzebowania na wydajność i dokładność w świecie, mniejsze i specyficzne dla dziedziny LLM oferują inną opcję dostarczania wyników, na których firmy i szersza publiczność mogą polegać.

Krok po kroku system uruchamiający karierę w Web3 i zdobywający dobrze płatne prace w krypto w 90 dni.