OpenAI анонсировала GPT-4o, модель искусственного интеллекта, целью которой является преобразование взаимодействия человека и компьютера. GPT-4o, также известная как модель «омни», представляет собой крупный шаг вперед в области возможностей искусственного интеллекта, который объединяет текстовые, аудио и визуальные входные и выходные данные в единую согласованную систему.

Встречайте GPT-4o, нашу новую флагманскую модель, которая может анализировать звук, изображение и текст в режиме реального времени: https://t.co/MYHZB79UqNText и ввод изображений, которые сегодня доступны в API и ChatGPT с голосом и видео в ближайшие недели. pic.twitter.com/uuthKZyzYx

– OpenAI (@OpenAI) 13 мая 2024 г.

Беспрецедентная скорость и эффективность

Модель GPT-4o — это кульминация многолетних исследований и разработок, направленных на создание более естественного и интуитивно понятного интерфейса между людьми и машинами. Принимая и генерируя любую комбинацию текста, аудио и изображений, GPT-4o разрушает барьеры, которые традиционно разделяли эти модальности, открывая путь к действительно захватывающему и многомерному опыту искусственного интеллекта.

Способность GPT-4o мгновенно реагировать на аудиовходы — одно из его самых замечательных качеств. Модель может общаться со скоростью, поразительно близкой к скорости человеческого общения, при этом типичное время реакции составляет всего 320 миллисекунд. Помимо повышения простоты взаимодействия, эта уменьшенная задержка создает новые возможности для служб перевода в реальном времени и помощников искусственного интеллекта, а также для других приложений, требующих быстрых ответов.

Мы также значительно улучшили производительность неанглоязычных языков, включая улучшение токенизатора для лучшего сжатия многих из них: pic.twitter.com/hE92x1qmM1

– Грег Брокман (@gdb) 13 мая 2024 г.

GPT-4o имеет множество улучшений по сравнению с аудиофункциями. Модель соответствует производительности своей предшественницы, GPT-4 Turbo, и демонстрирует замечательное знание языков, отличных от английского, и при этом может похвастаться заметными улучшениями в интерпретации текста и кода. Это многоязычие важно, поскольку оно открывает новые возможности для межкультурного сотрудничества и общения и делает GPT-4o доступным во всем мире.

Мультимодальные возможности

Однако самой интригующей особенностью GPT-4o может быть его способность обрабатывать и предоставлять визуальные данные. Отличие GPT-4o от других моделей заключается в его инновациях в области распознавания изображений и звука, которые позволяют ему анализировать и интерпретировать фотографии, фильмы и аудиосэмплы с ранее неслыханной точностью. Визуальные навыки GPT-4o, которые варьируются от распознавания объектов и эмоций до создания реалистичных изображений, могут произвести революцию в различных областях, включая образование и здравоохранение, а также в творческих отраслях, таких как дизайн и средства массовой информации.

Запрос живой аудитории на возможности машинного зрения GPT-4o pic.twitter.com/FPRXpZ2I9N

– OpenAI (@OpenAI) 13 мая 2024 г.

Комплексное обучение GPT-4o, охватывающее текстовые, визуальные и аудиомодальности, является одним из его основных преимуществ. В отличие от более ранних методов, в которых использовались разные модели для каждой модальности, GPT-4o представляет собой единую нейронную сеть, которая может анализировать и синтезировать данные из нескольких источников одновременно. Помимо увеличения скорости, эта комбинированная стратегия помогает модели улавливать тонкости и контекстные сигналы, которые в противном случае могут быть упущены в фрагментированном конвейере.

Практическое удобство и доступность

По данным OpenAI, GPT-4o показал себя очень хорошо в различных стандартах, включая кодирование, базовую логику и многоязычные задачи. В ряде тестов, таких как 0-shot COT MMLU и M3Exam (многоязычная визуальная оценка, включающая задачи стандартизированных экзаменов с изображениями и диаграммами), модель получила отличные оценки.

OpenAI уделяет приоритетное внимание вопросам безопасности и морали в дополнение к несомненному инновационному потенциалу GPT-4o. Мультимодальные особенности модели были подвергнуты тщательной оценке и внешней красной команде с целью обнаружения и устранения любых опасностей. Чтобы убедиться, что GPT-4o соответствует этическим стандартам и не представляет серьезной опасности в таких областях, как кибербезопасность, убеждение или автономия модели, OpenAI включил ряд мер безопасности, таких как проверка данных обучения и улучшение поведения модели после обучение.

OpenAI отмечает, что с этими попытками возникают новые опасности, связанные с развитием аудиомодальностей, которые необходимо тщательно рассматривать и постоянно контролировать. В связи с этим компания внедряет аудиовыходы GPT-4o постепенно, начиная с ограниченного набора предустановленных звуков и соблюдая действующие правила безопасности. В будущей системной карте OpenAI обещает прозрачно поддерживать весь спектр модальностей GPT-4o.

Помимо изначальной инновационности, OpenAI стратегически запустила GPT-4o, чтобы повысить доступность своих современных инструментов искусственного интеллекта для более широкого круга пользователей. Функции текста и изображений GPT-4o теперь доступны всем пользователям ChatGPT, включая пользователей бесплатного уровня и участников Plus с более высоким количеством сообщений. Используя API OpenAI, разработчики также могут использовать GPT-4o, который предлагает преимущества по сравнению с более ранними моделями с точки зрения производительности, стоимости и ограничений скорости.

Поскольку мир с нетерпением ожидает полного раскрытия возможностей GPT-4o, ясно одно: OpenAI сделала значительный шаг к реализации видения действительно мультимодальной системы искусственного интеллекта, которая может легко интегрироваться в нашу повседневную жизнь. Благодаря своим беспрецедентным возможностям обработки текста, звука и изображения GPT-4o может преобразовать отрасли, повысить производительность и открыть новые горизонты во взаимодействии человека и компьютера. Будущее ИИ уже здесь, и оно одномерно.

Будущее генеративного искусственного интеллекта

Согласно исследованию Института Thomson Reuters, хотя использование GenAI пока не является распространенным явлением, многие эксперты считают, что его можно и нужно использовать в будущем. Согласно исследованию, более 25% участников заявили, что их организации либо в настоящее время используют GenAI, либо имеют активные намерения сделать это. Респонденты, занимающиеся судебными и деловыми рисками и мошенничеством, с большей вероятностью использовали GenAI, чем респонденты, занимающиеся вопросами налогового и бухгалтерского учета или государственного управления.

Почти треть опрошенных заявили, что их компании все еще обсуждают, использовать или нет GenAI, который может включать использование открытых платформ или технологий, созданных специально для сценариев использования в этом секторе по мере необходимости. Опрос также показал, что многие поставщики услуг все еще работают над включением GenAI в общую стратегию компании и повседневные рабочие продукты. Юристы и налоговые эксперты разделились во мнениях относительно того, как поступать со сборами GenAI и приведет ли это к увеличению сборов.

По прогнозам IDC, к 2027 году предприятия инвестируют 16 миллиардов долларов США (при среднегодовом темпе роста 73,3%) в инфраструктуру, программное обеспечение и услуги, связанные с созданием искусственного интеллекта. Компании делают паузу, чтобы тщательно рассмотреть возможность включения или переоценки генеративного ИИ в свои систем и процессов в свете этого расширения. По мнению Жан-Поля Паоли, директора по трансформации бизнеса в области генеративного искусственного интеллекта в L’Oréal, будущий прогресс, скорее всего, будет непрерывным процессом. Как заявляет Deloitte, корпоративные расходы на генеративный искусственный интеллект, как ожидается, увеличатся на 30% в 2024 году из-за потребности в более специализированных и ограниченных моделях, обученных с использованием конфиденциальных корпоративных данных.

Ускорение за последние два года было ошеломляющим, и ожидается, что эта область будет продолжать расти. Как большие языковые модели (LLMS), так и малые языковые модели (SLMS) останутся актуальными, при этом SLMS будет быстро расти. LLM могут объединиться вокруг нескольких крупных поставщиков, таких как Google, Microsoft и Open AI, в то время как SLM будет иметь более широкий, нерегулируемый набор моделей и встроенных устройств с открытым исходным кодом.

Сообщение «Как новейшая модель OpenAI разрушает барьеры, интегрируя текстовые, аудио и визуальные входные данные для создания бесшовного пользовательского опыта» впервые появилось на сайте Metaverse Post.