OpenAI для вдосконалення моделей ШІ O1 і O3 за допомогою нової парадигми навчання з безпеки

У п’ятницю OpenAI оголосила про випуск нового сімейства моделей ШІ під назвою o3. Компанія стверджує, що нові продукти є більш досконалими, ніж її попередні моделі, включаючи o1. За словами стартапу, досягнення пов’язані з удосконаленням масштабування обчислень під час тестування, тема, яку досліджували в останні місяці, а також із впровадженням нової парадигми безпеки, яка використовувалася для навчання цих моделей.
У рамках своїх постійних зобов’язань покращити безпеку штучного інтелекту OpenAI поділився новим дослідженням, у якому докладно описано впровадження «обмірковуваного узгодження». Новий метод безпеки спрямований на те, щоб моделі міркувань ШІ узгоджувалися зі значеннями, встановленими їх розробниками. 
Цей підхід, стверджує OpenAI, було використано для покращення приведення у відповідність як моделей o1, так і o3, спрямовуючи їх думати про політики безпеки OpenAI під час етапу інференції. Етап інференції — це період після того, як користувач подає запит до моделі і перед тим, як модель генерує відповідь.
У своїх дослідженнях OpenAI зазначає, що розумна адаптація призвела до зменшення частоти, з якою моделі генерували 'небезпечні' відповіді або відповіді, які компанія вважає порушенням своїх політик безпеки, при цьому покращуючи здатність моделей відповідати на нешкідливі питання більш ефективно.
Як працює розумна адаптація
В основі процесу лежить те, що моделі повторно запитують самих себе під час етапу ланцюга міркувань. Після того, як користувач задає питання ChatGPT, наприклад, моделі розуміння ШІ витрачають від кількох секунд до кількох хвилин, щоб розібрати проблему на менші етапи.
Потім моделі генерують відповідь на основі свого розумового процесу. У випадку розумної адаптації моделі включають політику безпеки OpenAI як частину цього внутрішнього 'обговорення'.
OpenAI навчила свої моделі, включаючи як o1, так і o3, згадувати розділи політики безпеки компанії в рамках цього процесу ланцюга міркувань. Це було зроблено, щоб забезпечити, що при зіткненні з чутливими або небезпечними запитами моделі саморегулювалися і відмовлялися надавати відповіді, які могли б завдати шкоди.
Однак впровадження цієї функції безпеки виявилося складним, оскільки дослідникам OpenAI потрібно було забезпечити, щоб додаткові перевірки безпеки не впливали негативно на швидкість і ефективність моделей.
Приклад, наданий у дослідженнях OpenAI, згаданий TechCrunch, продемонстрував, як моделі використовують розумну адаптацію для безпечного реагування на потенційно небезпечні запити. У прикладі користувач запитує, як створити реалістичний парковочний знак для людини з інвалідністю.
Під час внутрішнього ланцюга міркувань модель згадує політику безпеки OpenAI, визнає, що запит пов'язаний з незаконною діяльністю (підробка парковочного знака), і відмовляється допомагати, вибачаючись за свою відмову.
Такий тип внутрішніх роздумів є ключовою частиною того, як OpenAI працює над приведенням своїх моделей у відповідність до протоколів безпеки. Замість того, щоб просто блокувати будь-який запит, пов'язаний з чутливою темою, такою як 'бомба', що надмірно обмежувало б відповіді моделі, розумна адаптація дозволяє ШІ оцінити конкретний контекст запиту та ухвалити більш тонке рішення про те, відповідати чи ні.
На додаток до досягнень у сфері безпеки, OpenAI також поділилася результатами бенчмаркінгових тестів, які показали ефективність розумної адаптації в покращенні продуктивності моделей. Один з бенчмарків, відомий як Парето, вимірює опірність моделі до загальних jailbreak і спроб обійти захисти ШІ.
У цих випробуваннях модель o1-preview OpenAI перевершила інші популярні моделі, такі як GPT-4o, Gemini 1.5 Flash та Claude 3.5 Sonnet, у запобіганні небезпечним виходам.
Італійська агенція з захисту даних наклала штраф на OpenAI за порушення конфіденційності
У окремому, але пов'язаному розвитку, OpenAI наклали штраф у 15 мільйонів євро (15,58 мільйона доларів) італійською агенцією з захисту даних, Garante, після розслідування щодо обробки компанією особистих даних.
Штраф виник внаслідок висновку агенції про те, що OpenAI обробляла особисті дані користувачів без законних підстав, порушуючи зобов'язання щодо прозорості та інформації для користувачів, вимог яких вимагають закони про конфіденційність ЄС.
Згідно з інформацією Reuters, розслідування, яке розпочалося в 2023 році, також виявило, що OpenAI не мала адекватної системи перевірки віку, що потенційно піддає дітей віком до 13 років неприпустимому контенту, згенерованому ШІ.
Garante, один з найсуворіших регуляторів ШІ в Європейському Союзі, наказав OpenAI запустити шестимісячну публічну кампанію в Італії для підвищення обізнаності щодо практик збору даних ChatGPT, особливо щодо використання особистих даних для навчання алгоритмів.
У відповідь OpenAI описала штраф як 'непропорційний' і вказала на своє намір оскаржити рішення. Компанія також розкритикувала штраф як надмірно великий відносно її доходів в Італії в цей період.
Garante також зазначила, що штраф був розрахований з урахуванням 'кооперативної позиції' OpenAI, що означає, що він міг бути вищим, якби компанію не вважали кооперативною під час розслідування.
Цей останній штраф не є першим випадком, коли OpenAI піддається перевірці в Італії. Минулого року Garante на короткий час заборонила використання ChatGPT в Італії через ймовірні порушення правил конфіденційності ЄС. Сервіс був відновлений після того, як OpenAI вирішила проблеми, включаючи можливість для користувачів відмовитися від згоду на використання своїх особистих даних для навчання алгоритмів.
Отримайте високооплачувану роботу в Web3 за 90 днів: остаточна дорожня карта
OpenAI для вдосконалення моделей ШІ O1 і O3 за допомогою нової парадигми навчання з безпеки

Перегляньте більше від автора

Останні новини