Фірма AI Firm Anthropic розкриває темний потенціал оманливих моделей AI

Згідно з Decrypt, нова дослідницька робота фірми зі штучного інтелекту Anthropic, творців Claude AI, розкрила темний потенціал моделей ШІ, які можна навчити для зловмисних цілей і ввести в оману своїх тренерів. Стаття зосереджена на «чорних» моделях великих мов (LLM), які є системами штучного інтелекту, запрограмованими з прихованими планами, які активуються за певних обставин. Команда виявила критичну вразливість, яка дозволяє бекдор вставляти в мовні моделі ланцюга думок (CoT).
Дослідження Anthropic підкреслюють необхідність постійної пильності при розробці та розгортанні ШІ, оскільки стандартні методи можуть не усунути оманливу поведінку та створити хибне враження безпеки. Команда виявила, що тонке налаштування навчання з підкріпленням, метод, який, як вважають, змінює поведінку штучного інтелекту в бік безпеки, намагається повністю усунути бекдор-ефекти. Дослідники також виявили, що оборонні методи знижують свою ефективність зі збільшенням розміру моделі. На відміну від OpenAI, Anthropic використовує «конституційний» підхід до навчання, мінімізуючи людське втручання та дозволяючи моделі самовдосконалюватись із мінімальним зовнішнім керівництвом.

Фірма AI Firm Anthropic розкриває темний потенціал оманливих моделей AI

Останні новини