OpenAI avança modelos de IA O1 e O3 com novo paradigma de treinamento de segurança

Na sexta-feira, a OpenAI anunciou o lançamento de uma nova família de modelos de IA, apelidada de o3. A empresa alega que os novos produtos são mais avançados do que seus modelos anteriores, incluindo o1. Os avanços, de acordo com a startup, decorrem de melhorias no dimensionamento da computação em tempo de teste, um tópico que foi explorado nos últimos meses, e da introdução de um novo paradigma de segurança que tem sido usado para treinar esses modelos.
Como parte de seu compromisso contínuo de melhorar a segurança da IA, a OpenAI compartilhou uma nova pesquisa detalhando a implementação do “alinhamento deliberativo”. O novo método de segurança visa garantir que os modelos de raciocínio da IA ​​estejam alinhados com os valores definidos por seus desenvolvedores.
Essa abordagem, afirma a OpenAI, foi usada para melhorar o alinhamento dos modelos o1 e o3, orientando-os a pensar sobre as políticas de segurança da OpenAI durante a fase de inferência. A fase de inferência é o período após um usuário submeter uma solicitação ao modelo e antes do modelo gerar uma resposta.
Em sua pesquisa, a OpenAI observa que o alinhamento deliberativo levou a uma redução na taxa em que os modelos produziam respostas 'inseguras' ou respostas que a empresa considera uma violação de suas políticas de segurança, enquanto melhorava a capacidade dos modelos de responder a perguntas benignas de maneira mais eficaz.
Como funciona o alinhamento deliberativo
Em sua essência, o processo funciona fazendo com que os modelos se re-solicitem durante a fase de cadeia de pensamento. Depois que um usuário submete uma pergunta ao ChatGPT, por exemplo, os modelos de raciocínio da IA levam de alguns segundos a vários minutos para decompor o problema em etapas menores.
Os modelos então geram uma resposta com base em seu processo de pensamento. No caso do alinhamento deliberativo, os modelos incorporam a política de segurança da OpenAI como parte dessa 'deliberação' interna.
A OpenAI treinou seus modelos, incluindo o o1 e o o3, para recordar seções da política de segurança da empresa como parte desse processo de cadeia de pensamento. Isso foi feito para garantir que, quando confrontados com consultas sensíveis ou inseguras, os modelos se auto-regulassem e se recusassem a fornecer respostas que poderiam causar dano.
No entanto, implementar esse recurso de segurança provou ser desafiador, já que os pesquisadores da OpenAI tiveram que garantir que as verificações de segurança adicionais não impactassem negativamente a velocidade e a eficiência dos modelos.
Um exemplo fornecido na pesquisa da OpenAI, citado pela TechCrunch, demonstrou como os modelos usam o alinhamento deliberativo para responder com segurança a pedidos potencialmente prejudiciais. No exemplo, um usuário pergunta como criar um cartão de estacionamento realista para pessoas com deficiência.
Durante a cadeia de pensamento interna do modelo, o modelo recorda a política de segurança da OpenAI, reconhece que o pedido envolve atividade ilegal (falsificação de um cartão de estacionamento) e se recusa a ajudar, pedindo desculpas por sua recusa.
Esse tipo de deliberação interna é uma parte fundamental de como a OpenAI está trabalhando para alinhar seus modelos com os protocolos de segurança. Em vez de simplesmente bloquear qualquer solicitação relacionada a um tópico sensível como 'bomba', por exemplo, o alinhamento deliberativo permite que a IA avalie o contexto específico da solicitação e tome uma decisão mais sutil sobre se deve ou não responder.
Além dos avanços em segurança, a OpenAI também compartilhou resultados de testes de benchmarking que mostraram a eficácia do alinhamento deliberativo na melhoria do desempenho do modelo. Um benchmark, conhecido como Pareto, mede a resistência de um modelo a jailbreaks comuns e tentativas de contornar as salvaguardas da IA.
Nestes testes, o modelo o1-preview da OpenAI superou outros modelos populares, como GPT-4o, Gemini 1.5 Flash e Claude 3.5 Sonnet, em termos de evitar saídas inseguras.
A autoridade de proteção de dados da Itália multa a OpenAI por violações de privacidade
Em um desenvolvimento separado, mas relacionado, a OpenAI foi multada em 15 milhões de euros (15,58 milhões de dólares) pela agência de proteção de dados da Itália, Garante, após uma investigação sobre o manuseio de dados pessoais pela empresa.
A multa decorre da constatação da agência de que a OpenAI processou os dados pessoais dos usuários sem uma base legal, violando as obrigações de transparência e informação ao usuário exigidas pelas leis de privacidade da UE.
De acordo com a Reuters, a investigação, que começou em 2023, também revelou que a OpenAI não tinha um sistema adequado de verificação de idade em vigor, expondo potencialmente crianças com menos de 13 anos a conteúdo gerado por IA inadequado.
A Garante, um dos reguladores de IA mais rigorosos da União Europeia, ordenou que a OpenAI lançasse uma campanha pública de seis meses na Itália para aumentar a conscientização sobre as práticas de coleta de dados do ChatGPT, particularmente seu uso de dados pessoais para treinar algoritmos.
Em resposta, a OpenAI descreveu a multa como 'desproporcional' e indicou sua intenção de apelar da decisão. A empresa ainda criticou a multa como excessivamente grande em relação à sua receita na Itália durante o período relevante.
A Garante também observou que a multa foi calculada considerando a 'posição cooperativa' da OpenAI, o que significa que poderia ter sido maior se a empresa não tivesse sido vista como cooperativa durante a investigação.
Essa última multa não é a primeira vez que a OpenAI enfrenta escrutínio na Itália. No ano passado, a Garante baniu brevemente o uso do ChatGPT na Itália devido a supostas violações das regras de privacidade da UE. O serviço foi reinstalado após a OpenAI abordar preocupações, incluindo permitir que os usuários se recusassem a consentir o uso de seus dados pessoais para treinar algoritmos.
Conquiste um Emprego Bem-Pago em Web3 em 90 Dias: O Roteiro Definitivo
OpenAI avança modelos de IA O1 e O3 com novo paradigma de treinamento de segurança

Explore mais do Criador

Últimas Notícias