Anthropic представляет новый Claude 3.5 Sonnet: модель, достаточно умная, чтобы взять под контроль ваш компьютер

Пользователи Reddit заметили это первыми — Claude вдруг стал более острым, более способным. Теперь мы знаем почему: Anthropic выпустила значительные обновления для своих ИИ-моделей, включая улучшенный Claude 3.5 Sonnet и крайне необходимое обновление для своей легковесной модели Haiku.

Самое жуткое обновление из всех: эти ИИ теперь могут физически управлять компьютерами, перемещая курсоры, прокручивая страницы и даже нажимая кнопки, как это делают люди.

На видео демонстрации Сэм Рингер, исследователь Anthropic, показал, как Claude может заполнять форму на внешнем сайте, прокручивая электронную таблицу, ища информацию о компании после анализа ее CRM и затем понимая и заполняя поля в форме.

«Доступно сегодня через API, разработчики могут направить Claude использовать компьютеры так, как это делают люди — смотря на экран, перемещая курсор, нажимая кнопки и печатая текст. Claude 3.5 Sonnet — это первая модель ИИ на переднем крае, предлагающая использование компьютера», — заявила Anthropic в официальном объявлении ранее сегодня. «Мы выпускаем использование компьютера заранее для получения отзывов от разработчиков и ожидаем, что эта возможность будет быстро улучшаться со временем.»

Anthropic (или, может быть, один из их ИИ, нажимающих кнопки? Шутка.), похоже, выпустила модель до того, как они даже сделали объявление. В течение нескольких часов сабреддиты Claude и Anthropic были переполнены людьми, пытающимися понять, что, черт возьми, происходит, потому что их ИИ справлялся с работой так хорошо: пользователи сообщали, что он был быстрее, точнее и, удивительно, прекратил так сильно извиняться.

«Claude вернулся, и стал намного лучше. Он просто понимает вас, отвечает так, как будто действительно понимает намерение, а не делает мертвый безжизненный ответ», — сказал пользователь NextGenAIUser в одном из постов на Reddit. «Я застрял на несколько часов с проблемой кодирования, используя o1-Mini и o1-Preview, постепенно выдавая все более и более худшие ответы. Подал проблему Claude с точно таким же запросом, и он справился без проблем», — сказал Roth_Skyfire в другом комментарии.

И они были правы. Anthropic сообщила, что после улучшения способности кодирования Claude 3.5 Sonnet поднялись с 33,4% до 49% в тесте SWE-bench Verified, обойдя таких конкурентов, как o1-preview от OpenAI. Это не просто небольшое увеличение. Каждый отдельный бенчмарк, представленный Anthropic, показывает, что новый Claude 3.5 Sonnet намного лучше оригинальной модели.

Изображение: Anthropic
Но вот здесь все становится действительно интересным. Улучшенный Sonnet не только умнее; он теперь способен управлять вашим ПК. Anthropic называет эту новую функцию «использование компьютера», и она сейчас находится в публичной бета-версии. Работает это так: вы предоставляете Claude доступ к вашему рабочему столу и задачу для выполнения. ИИ затем начинает действовать так, как будто он человек, использующий ваш компьютер через удаленный рабочий стол — перемещая курсор, нажимая кнопки и вводя команды и заполняя формы и текстовые поля точно так же, как это сделал бы человек.

Тем не менее, эта функция доступна только через API, так что пользователи не смогут насладиться ею в краткосрочной перспективе.

Anthropic обучила Claude визуально интерпретировать то, что происходит на вашем экране. Разработчики могут инструктировать его выполнять задачи, такие как заполнение форм, навигация по веб-сайтам или даже использование программных приложений. Это немного похоже на то, как если бы вы дали своему ИИ возможность сидеть перед вашим компьютером и выполнять вашу работу за вас, только он не устает и (надеемся) не делает столько ошибок, сколько мы, люди, склонны делать.

Эта функция находится в бета-версии, потому что она все еще спотыкается на некоторых основах — прокрутка и масштабирование вызывают у нее трудности. Вот почему Anthropic внимательно следит за происходящим, храня снимки экрана как минимум 30 дней и проводя проверки безопасности, чтобы поймать любое сомнительное поведение.

Паранойя компании вполне обоснованна. Несколько месяцев назад Microsoft представила функцию под названием «Recall», которая позволила бы Copilot+ делать снимки экрана компьютеров своих пользователей, чтобы ее ИИ мог быть более полезным и актуальным. Это вызвало такой шум, что Microsoft был вынужден отложить свои планы после того, как функция Copilot+ Recall была признана «шпионским ПО», и власти начали расследование.

Но Anthropic состоит из хороших людей, и они обещают, что они другие. «Мы обнаружили, что обновленный Claude 3.5 Sonnet, включая его новый навык использования компьютера, остается на уровне безопасности ИИ 2 — то есть он не требует более высокого стандарта безопасности и мер, чем те, что у нас сейчас есть», — говорит исследовательская группа.

Компании, такие как Replit, уже интегрируют функцию использования компьютера Claude, чтобы помочь автоматизировать оценку приложений, в то время как The Browser Company тестирует свою способность оптимизировать веб-рабочие процессы. Эти ранние последователи исследуют способы заставить Claude выполнять задачи, которые обычно требуют десятков, если не сотен, ручных шагов.

Кроме того, бюджетная модель Anthropic, Claude 3.5 Haiku, теперь так же мощна, как и его предыдущая флагманская модель Claude 3 Opus. Однако эта модель работает за малую часть стоимости и с гораздо меньшей задержкой, что делает ее более доступной, не жертвуя слишком высокой производительностью.

Claude 3.5 Haiku особенно хорош в задачах кодирования и использовании инструментов, получив результат SWE-bench Verified 40,6%. Это ставит его впереди некоторых более дорогих моделей на рынке, что означает, что разработчики с ограниченным бюджетом не должны жертвовать качеством.

Claude 3.5 Haiku будет доступен в ноябре.
Другие публикации автора

Последние новости

Другие публикации автора

Последние новости

Популярные статьи