Хотя компании вкладывают деньги в большие языковые модели (LLM), некоторые эксперты отрасли в секторе ИИ считают, что малые языковые модели (SLM) станут следующим большим делом.

Это происходит в то время, как активность в отрасли продолжает расти с наступлением праздничного сезона, когда технологические компании инвестируют больше средств в развитие своей технологии.

Будущее за малыми языковыми моделями

Такие компании, как xAI, управляемая мультимиллиардером Элом Маском, смогли привлечь дополнительно 5 миллиардов долларов от Andreessen Horowitz, Катарского инвестиционного управления, Sequoia и Valor Equity Partners, в то время как Amazon инвестировала дополнительно 4 миллиарда долларов в Anthropic, соперника OpenAI.

Пока эти крупные технологические компании и другие инвестируют миллиарды долларов в разработку больших языковых моделей (LLM) для выполнения множества различных задач, реальность ИИ такова, что универсальных решений не существует, поскольку для бизнеса необходимы модели, специфичные для задач.

Согласно главе компании AWS Мэтту Гармону в пресс-релизе о расширении их партнерства и инвестициях, уже получен ошеломляющий отклик от клиентов AWS, которые разрабатывают генеративный ИИ на основе Anthropic.

Для большинства компаний LLM по-прежнему являются номером один для определенных проектов, но для других этот выбор может быть дорогим как по стоимости, так и по потреблению энергии и вычислительным ресурсам.

Стивен МакаMillan, президент и генеральный директор Teradata, который предложил альтернативный путь для некоторых компаний, также имеет иные взгляды. Он уверен, что будущее за малыми языковыми моделями (SLM).

«Когда мы смотрим в будущее, мы считаем, что малые и средние языковые модели и контролируемые среды, такие как специфические для области LLM, предоставят гораздо лучшие решения».

~ МакаМиллан

SLM производят индивидуальные результаты на основе специфических типов данных, поскольку языковые модели специально обучены на это. Поскольку данные, сгенерированные SLM, хранятся внутри компании, языковые модели, следовательно, обучены на потенциально чувствительных данных.

С учетом того, что LLM потребляют много энергии, малые языковые версии обучены масштабировать как вычисления, так и потребление энергии в соответствии с реальными потребностями проекта. С такими корректировками это означает, что SLM эффективны при более низких затратах, чем текущие большие модели.

Для пользователей, которые хотят использовать ИИ для специфических знаний, есть возможность использовать SLM, так как они не предлагают широких знаний. Они обучены глубоко понимать только одну категорию информации и отвечать более точно, например, CMO против CFO в этой области.

Почему SLM являются предпочтительным вариантом

Согласно Ассоциации ученых данных (ADaSci) полное развитие SLM с 7 миллиардами параметров для миллиона пользователей потребует всего 55,1 МВтч (мегаватт-часов).

ADaSci выяснила, что обучение GPT-3 с 175 миллиардами параметров потребило примерно 1,287 МВтч электричества, и эта мощность не включает время, когда она официально поступает в использование общественности. Следовательно, SLM использует примерно 5% энергии, потребляемой при обучении LLM.

Большие модели обычно работают на облачных компьютерах, потому что они требуют больше вычислительной мощности, чем когда-либо доступно на отдельном устройстве. Это создает проблемы для компаний, так как они теряют контроль над своей информацией, когда она перемещается в облако, и замедляет ответы, когда они проходят через интернет.

Смотря в будущее, принятие ИИ компаниями не будет универсальным решением, так как эффективность и выбор лучшего и наименее дорогого инструмента для выполнения задач будут в центре внимания, что означает выбор модели подходящего размера для каждого проекта.

Это будет сделано для всех моделей, будь то универсальная LLM или более мелкие и специфические для области LLM в зависимости от того, какая модель даст лучшие результаты, потребует меньше ресурсов и уменьшит необходимость в передаче данных в облако.

На следующем этапе ИИ будет жизненно важен для бизнес-решений, так как общественность высоко доверяет ответам, сгенерированным ИИ.

«Когда вы думаете о тренировке моделей ИИ, они должны быть построены на основе отличных данных».

~ МакаМиллан

«Вот что мы делаем: предоставляем этот надежный набор данных, а затем предоставляем возможности и аналитические возможности, чтобы клиенты и их клиенты могли доверять результатам», добавил МакаМиллан.

С учетом того, что эффективность и точность находятся в высоком спросе в мире, более мелкие и специфические для области LLM предлагают другой вариант для предоставления результатов, на которые компании и широкая общественность могут полагаться.

Система шаг за шагом для запуска вашей карьеры в Web3 и получения высокооплачиваемых крипторабот за 90 дней.