Основные моменты

  1. GPT-4 поддерживает ввод изображений и текста, а GPT-3.5 принимает только текст.

  2. GPT-4 показал результаты, сравнимые с человеческими, в различных профессиональных и учебных тестах. Например, он сдал экзамен на адвоката, войдя в число 10% лучших сдающих тест.

  3. OpenAI потратила 6 месяцев на тестирование и настройку GPT-4. В простом чате разница между GPT-3.5 и GPT-4 не так заметна, но на более сложных задачах она становится очевидной. GPT-4 более надежен и креативен, чем GPT-3.5, и может обрабатывать более сложные запросы, а также сложные изображения. Однако OpenAI признает, что GPT-4 не идеален и у него все еще есть проблемы с проверкой фактов, рассуждениями и чрезмерной самоуверенностью.

  4. Для использования новой версии GPT-4 теперь потребуется активная подписка на ChatGPT Plus (20 долларов США). OpenAI планирует со временем ввести платную подписку для тех, кто использует систему в больших объёмах, но надеется оставить несколько бесплатных запросов для обычных пользователей.

Особенности и примеры использования новой модели

За последние два года команда перепроектировала весь стек глубокого обучения и в партнерстве с Azure создала суперкомпьютер с нуля. Год назад OpenAI обучила GPT-3.5 в качестве первого «тестового запуска» всей системы, включая поиск и исправление нескольких ошибок и улучшение предыдущей базы. Результатом стала GPT-4, которая работает стабильно и является первой крупной моделью, эффективность обучения которой можно точно предсказать заранее.

GPT-3.5 и GPT-4 немного отличаются в простых запросах. Разница видна в сложных задачах, требующих креативности, надежности и максимальной детализации ответов. Например, решение тестов и олимпийских задач. Зеленые столбцы на графике показывают, насколько лучше работает новая модель:

В таблице ниже показаны баллы, набранные GPT-4 в различных американских тестах. Мелким шрифтом указаны верхние процентильные баллы. Особый интерес вызвал математический раздел экзамена SAT Math, включающий задачи по алгебре и геометрии, в том числе требующие теоретических знаний о функциях множества и числовых модулях, а также знания уравнений, содержащих радикалы, степени и функции. GPT-4 набрал 700 баллов из 800 и вошел в число 11% лучших участников этого теста. И ИИ специально не тренировался для сдачи тестов SAT:

Разработчики также проверили, как ИИ обрабатывает разные языки. Они протестировали 26 языков. Английский был, очевидно, самым понятным языком для ChatGPT с результатом 85,5%, итальянский занял второе место с 84,1%, русский имел относительный рейтинг 82,7%, тайский с 71,8% и телугу (один из индийских языков) с 62% - минимум из протестированных:

Визуальный ввод

GPT-4 теперь понимает не только текст, но и изображения: документы с текстом и фотографиями, диаграммы, скриншоты и многое другое.

На этом изображении ИИ правильно распознал, что провод зарядки iPhone «стилизован» под старый разъем VGA, и что все это выглядит как «уловка для старичков»:

Из этой картинки ИИ спокойно извлек данные и суммировал потребление мяса в Грузии и Западной Азии:

ИИ также решил и подробно описал физическую задачу, написанную на французском языке:

Сделал выжимку из сложного мануала:

Риски и меры по их снижению

Команда усиливает безопасность GPT-4 путем проверки и фильтрации данных перед обучением. Для тестирования запросов с высоким уровнем риска были наняты эксперты. Для улучшения модели были использованы отзывы и данные экспертов в этих областях. Например, команда работала над тем, чтобы GPT-4 отклонял такие запросы, как «синтез опасных химикатов».

Согласно политике OpenAI, по сравнению с GPT-3.5 разработчики снизили склонность GPT-4 отвечать на запросы о незаконном контенте на 82%, одновременно увеличив скорость ответа на конфиденциальные запросы (такие как медицинские консультации и членовредительство) на 29%.

В целом вмешательство команды снизило количество опасных запросов, но по-прежнему случаются ситуации, когда пользователи нарушают алгоритм и получают доступ к опасному контенту. Поскольку риски, связанные с искусственным интеллектом, постоянно растут, в таких ситуациях возникает необходимость достижения высокой степени надежности.

Вполне вероятно, что GPT-4 и последующие модели окажут как положительное, так и отрицательное влияние на общество. Команда привлекает внешних исследователей для оценки потенциального воздействия на данном этапе и в будущем.