Это была удачная неделя для ИИ с открытым исходным кодом.


В среду компания Meta объявила об обновлении своей современной большой языковой модели Llama 3.2, и она не просто говорит — она видит.


Что еще интереснее, некоторые версии можно установить на смартфон без потери качества, а это значит, что вы потенциально можете использовать частные локальные взаимодействия с ИИ, приложения и настройки без отправки данных на сторонние серверы.


Представленная в среду во время Meta Connect, Llama 3.2 поставляется в четырех вариантах, каждый из которых обладает своим ударом. Тяжеловесные претенденты — модели параметров 11B и 90B — демонстрируют свои мускулы с возможностями обработки как текста, так и изображений.


Они могут решать сложные задачи, такие как анализ диаграмм, создание подписей к изображениям и даже определение местоположения объектов на изображениях на основе описаний на естественном языке.


Llama 3.2 вышла на той же неделе, что и Molmo от Института Аллена, которая, по утверждениям, является лучшей открытой мультимодальной системой обучения зрению LLM в синтетических тестах, проявив себя в наших тестах наравне с GPT-4o, Claude 3.5 Sonnet и Reka Core.


Компания Цука также представила двух новых чемпионов в легком весе: пару моделей с параметрами 1B и 3B, разработанных для эффективности, скорости и ограниченных, но повторяющихся задач, не требующих слишком большого объема вычислений.


Эти небольшие модели — многоязычные текстовые мастера с ловкостью в «вызове инструментов», что означает, что они могут лучше интегрироваться с программными инструментами. Несмотря на свой крошечный размер, они могут похвастаться впечатляющим окном контекста токенов в 128 КБ — таким же, как у GPT4o и других мощных моделей, — что делает их идеальными для задач резюмирования на устройстве, следования инструкциям и переписывания.


Инженерная команда Meta проделала серьезную цифровую гимнастику, чтобы это произошло. Сначала они использовали структурное сокращение, чтобы удалить ненужные данные из более крупных моделей, затем применили дистилляцию знаний — перенос знаний из крупных моделей в более мелкие — чтобы втиснуть дополнительные умные возможности.


Результатом стал ряд компактных моделей, которые превзошли конкурентов в своей весовой категории, обойдя такие модели, как Google Gemma 2 2.6B и Microsoft Phi-2 2.7B в различных тестах.




Meta также усердно работает над улучшением ИИ на устройствах. Они заключили альянсы с титанами оборудования Qualcomm, MediaTek и Arm, чтобы гарантировать, что Llama 3.2 отлично работает с мобильными чипами с первого дня. Гиганты облачных вычислений также не остались в стороне — AWS, Google Cloud, Microsoft Azure и множество других предлагают мгновенный доступ к новым моделям на своих платформах.


Под капотом возможности зрения Llama 3.2 исходят из умной архитектурной настройки. Инженеры Meta встроили адаптерные веса в существующую языковую модель, создав мост между предварительно обученными кодировщиками изображений и ядром обработки текста.


Другими словами, возможности модели в области зрения не идут в ущерб ее способности обрабатывать текст, поэтому пользователи могут ожидать аналогичных или лучших результатов по сравнению с Llama 3.1.


Выпуск Llama 3.2 — Open Source, по крайней мере, по стандартам Meta. Meta делает модели доступными для загрузки на Llama.com и Hugging Face, а также через свою обширную партнерскую экосистему.


Те, кто заинтересован в запуске проекта в облаке, могут использовать собственный блокнот Google Collab или Groq для текстового взаимодействия, генерируя около 5000 токенов менее чем за 3 секунды.




Верховая езда на ламе

Мы протестировали Llama 3.2, быстро протестировав ее возможности при выполнении различных задач.


В текстовых взаимодействиях модель работает наравне со своими предшественниками. Однако ее возможности кодирования дали неоднозначные результаты.


При тестировании на платформе Groq Llama 3.2 успешно сгенерировала код для популярных игр и простых программ. Однако, меньшая модель 70B споткнулась, когда ее попросили создать функциональный код для разработанной нами пользовательской игры. Однако более мощная 90B оказалась намного эффективнее и сгенерировала функциональную игру с первой попытки.




Полный код, сгенерированный Llama-3.2 и всеми другими протестированными нами моделями, можно увидеть, перейдя по этой ссылке.


Определение стилей и субъективных элементов в изображениях

Llama 3.2 отлично распознает субъективные элементы в изображениях. Когда ей показали футуристическое изображение в стиле киберпанка и спросили, соответствует ли оно эстетике стимпанка, модель точно определила стиль и его элементы. Она дала удовлетворительное объяснение, отметив, что изображение не соответствует стимпанку из-за отсутствия ключевых элементов, связанных с этим жанром.



Анализ диаграмм (и распознавание SD-изображений)

Анализ диаграмм — еще одна сильная сторона Llama 3.2, хотя для оптимальной производительности требуются изображения высокого разрешения. Когда мы вводили снимок экрана, содержащий диаграмму, которую могли интерпретировать другие модели, такие как Molmo или Reka, возможности зрения Llama давали сбои. Модель извинилась, объяснив, что не смогла правильно прочитать буквы из-за качества изображения.



Текст на изображении Идентификация

В то время как Llama 3.2 испытывала трудности с мелким текстом в нашей диаграмме, она безупречно справилась с чтением текста на более крупных изображениях. Мы показали ей слайд презентации, представляющий человека, и модель успешно поняла контекст, различая имя и должность без каких-либо ошибок.



Вердикт

В целом, Llama 3.2 — это большое улучшение по сравнению с предыдущим поколением и отличное дополнение к индустрии ИИ с открытым исходным кодом. Его сильные стороны — интерпретация изображений и распознавание большого текста, с некоторыми областями для потенциального улучшения, особенно в обработке изображений низкого качества и решении сложных, пользовательских задач кодирования.


Обещание совместимости на устройстве также хорошо для будущего частных и локальных задач ИИ и является отличным противовесом таким закрытым предложениям, как Gemini Nano и фирменные модели Apple.


Под редакцией Джоша Куиттнера и Себастьяна Синклера