Чи є SLMs наступними іграми для штучного інтелекту?
Хоча індустрія штучного інтелекту залишається зосередженою на великих мовних моделях (LLMs), зростаюча кількість експертів вважає, що малі мовні моделі (SLMs) можуть незабаром стати в центрі уваги.
Оскільки технологічні компанії активізують інвестиції в генеративний штучний інтелект під час насиченого святкового сезону, розмова переходить до необхідності адаптованих рішень, а не монолітних систем.
Хоча LLM відмінно справляються з різноманітними завданнями, вони часто є ресурсоємними, що створює виклики в витратах, споживанні енергії та обчислювальних вимогах.
Згідно з CEO AWS Метом Гармоном, вже існує значний інтерес з боку бізнесу до генеративного штучного інтелекту, який базується на таких моделях, як Anthropic.
Проте, LLM, хоча й домінують у деяких сферах, не є універсальним рішенням.
Генеральний директор Teradata Стівен МакМіллан відстоює SLM як майбутнє штучного інтелекту, підкреслюючи їх здатність надавати специфічні для завдань результати.
МакМіллан висловив:
«Дивлячись у майбутнє, ми вважаємо, що малі та середні мовні моделі та контрольовані середовища, такі як доменно-специфічні LLM, нададуть набагато кращі рішення.»
SLMs створюються з конкретною метою, навчаються на специфічних наборах даних, щоб надавати надзвичайно релевантні інсайти, забезпечуючи при цьому конфіденційність даних.
Комплексний огляд малих мовних моделей
Чудовий огляд малих мовних моделей (SLMs) та обговорення питань, пов'язаних з визначеннями, застосуваннями, вдосконаленнями, надійністю та іншим. https://t.co/qVxuY1jWDE pic.twitter.com/WZuRm1fqU4
— елвіс (@omarsar0) 7 листопада 2024
На відміну від своїх більших аналогів, вони оптимізують енергію та обчислювальні ресурси, щоб масштабуватися відповідно до потреб проекту, пропонуючи економічну та ефективну альтернативу.
Для бізнесу, який потребує глибокої експертизи в конкретній області, спеціалізовані моделі — будь то доменно-специфічні LLM або SLM — забезпечують безпрецедентну точність. Наприклад, модель, адаптована для директора з маркетингу (CMO), на відміну від моделі для фінансового директора (CFO), надає надзвичайно контекстуальні та релевантні інсайти в своїй галузі навчання.
Оскільки ландшафт штучного інтелекту еволюціонує, зростання SLM вказує на зростаючий попит на точність, ефективність і масштабованість — якості, які можуть переосмислити майбутнє інтелектуальних систем.
Чи є SLMs кращим варіантом?
Асоціація науковців даних (ADaSci) оцінює, що розробка SLM з 7 мільярдами параметрів для обслуговування одного мільйона користувачів вимагатиме всього 55,1 МВт-год (мегават-години) електрики.
На противагу цьому, навчання GPT-3, з його 175 мільярдами параметрів, спожило приголомшливі 1,287 МВт-год, не враховуючи енергію, що використовується, коли модель активно експлуатується.
Це означає, що SLM використовує лише близько 5% енергії, необхідної LLM.
LLMs, завдяки своїм величезним обчислювальним вимогам, зазвичай працюють на хмарних серверах, що часто означає, що компанії втрачають контроль над своїми даними і стикаються з повільнішими часами відповіді, оскільки інформація подорожує через Інтернет.
Слабший — це краще - чудова стаття від @GoogleDeepMind
**Проблема**🔍:
Навчання мовних моделей (LMs) на високоякісних синтетичних даних з потужних LMs є звичайним для покращення міркування, але може бути не оптимальним з точки зору обчислень при фіксованих бюджетах на інференцію.
**Ключові висновки з цієї статті… pic.twitter.com/PIbhSN3zVV
— Рохан Пол (@rohanpaul_ai) 28 вересня 2024
Оскільки бізнес все більше приймає штучний інтелект, стає зрозуміло, що один розмір не підходить усім.
Компанії пріоритизуватимуть ефективність, економічність та мінімізацію передачі даних у хмару, вибираючи найбільш підходящу модель для кожного проекту, будь то універсальна LLM чи менша, більш спеціалізована модель.
У цьому змінному середовищі ефективність та точність будуть на першому місці.
МакМіллан сказав:
«Коли ви думаєте про навчання моделей штучного інтелекту, вони повинні базуватися на основі великих даних.»
Він додав:
«Це те, чим ми займаємося, надаючи цей надійний набір даних, а потім забезпечуючи можливості та аналітичні можливості, щоб клієнти та їхні споживачі могли довіряти результатам.»
Менші, доменно-специфічні LLM пропонують привабливу альтернативу, дозволяючи бізнесу використовувати потужність штучного інтелекту без великих витрат на ресурси та складності більших моделей.
Оскільки штучний інтелект стає центральним у прийнятті бізнес-рішень, вибір правильної моделі для кожного завдання буде критично важливим, забезпечуючи надійні та масштабовані результати.