OpenAI k pokroku modelů O1 a O3 AI s novým bezpečnostním tréninkovým paradigmatem

V pátek OpenAI oznámila vydání nové rodiny modelů AI, nazvané o3. Společnost tvrdí, že nové produkty jsou pokročilejší než její předchozí modely, včetně o1. Vylepšení, podle startupu, pramení z zlepšení v měřítku výpočtů v době testování, což je téma, které bylo zkoumáno v posledních měsících, a z zavedení nového bezpečnostního paradigmatu, které bylo použito k trénování těchto modelů.
Jako součást svého pokračujícího závazku ke zlepšení bezpečnosti AI, OpenAI sdílela nový výzkum, který podrobně popisuje implementaci „zvažování“. Nová metoda bezpečnosti má za cíl zajistit, aby modely pro uvažování AI byly sladěny s hodnotami stanovenými jejich vývojáři.
Tento přístup, jak tvrdí OpenAI, byl použit k vylepšení sladění modelů o1 a o3 tím, že je vedl k přemýšlení o bezpečnostních politikách OpenAI během fáze inferencí. Fáze inferencí je období po podání požadavku uživatelem modelu a předtím, než model vygeneruje odpověď.
Ve svém výzkumu OpenAI uvádí, že zvažování vedlo ke snížení míry, s jakou modely produkovaly „nebezpečné“ odpovědi nebo reakce, které společnost považuje za porušení svých bezpečnostních politik, a zároveň zlepšilo schopnost modelů efektivněji odpovídat na neškodné otázky.
Jak funguje zvažování
V jádru proces funguje tak, že modely si během fáze myšlení znovu kladou otázky. Poté, co uživatel předloží otázku ChatGPT, například, modely pro uvažování AI potřebují několik sekund až několik minut na rozložení problému na menší kroky.
Modely poté generují odpověď na základě svého myšlenkového procesu. V případě zvažování modely zahrnují bezpečnostní politiku OpenAI jako součást tohoto vnitřního „zvažování“.
OpenAI trénovalo své modely, včetně o1 a o3, aby si vzpomněly na části bezpečnostní politiky společnosti jako součást tohoto myšlenkového procesu. To bylo provedeno, aby se zajistilo, že pokud se setkají s citlivými nebo nebezpečnými dotazy, modely se samoregulují a odmítnou poskytnout odpovědi, které by mohly způsobit újmu.
Implementace této bezpečnostní funkce se však ukázala jako náročná, protože vědci OpenAI museli zajistit, aby dodatečné bezpečnostní kontroly negativně neovlivnily rychlost a efektivitu modelů.
Příklad uvedený ve výzkumu OpenAI, citovaný TechCrunch, ukázal, jak modely používají zvažování k bezpečnému reagování na potenciálně škodlivé požadavky. V příkladu se uživatel ptá, jak vytvořit realistické parkovací oprávnění pro osobu se zdravotním postižením.
Během vnitřního myšlenkového procesu model vzpomíná na bezpečnostní politiku OpenAI, uvědomuje si, že požadavek se týká nelegální činnosti (padělání parkovacího oprávnění), a odmítá pomoci, omlouvající se za své odmítnutí.
Tento typ vnitřního zvažování je klíčovou součástí toho, jak OpenAI pracuje na sladění svých modelů s bezpečnostními protokoly. Místo toho, aby jednoduše blokoval jakýkoli požadavek související se citlivým tématem, jako je „bomba“, což by příliš omezilo odpovědi modelu, umožňuje zvažování AI posoudit konkrétní kontext požadavku a učinit nuancovanější rozhodnutí o tom, zda odpovědět, nebo ne.
Kromě pokroku v oblasti bezpečnosti OpenAI také sdílela výsledky z benchmarkových testů, které ukázaly účinnost zvažování při zlepšování výkonu modelů. Jeden benchmark, známý jako Pareto, měří odolnost modelu vůči běžným jailbreakům a pokusům obejít bezpečnostní opatření AI.
V těchto testech model OpenAI o1-preview předčil další populární modely, jako jsou GPT-4o, Gemini 1.5 Flash a Claude 3.5 Sonnet, pokud jde o vyhýbání se nebezpečným výstupům.
Italský úřad pro ochranu dat pokutoval OpenAI za porušení soukromí
V samostatném, ale souvisejícím vývoji byla OpenAI pokutována částkou 15 milionů eur (15,58 milionu dolarů) italským úřadem pro ochranu dat, Garante, po vyšetřování týkajícím se zpracování osobních údajů společností.
Pokuta vyplývá z zjištění agentury, že OpenAI zpracovávala osobní údaje uživatelů bez právního základu, čímž porušila povinnosti týkající se transparentnosti a informování uživatelů, které vyžadují evropské zákony o ochraně soukromí.
Podle Reuters vyšetřování, které začalo v roce 2023, také odhalilo, že OpenAI neměla adekvátní systém věkové verifikace, což potenciálně vystavovalo děti mladší 13 let nevhodnému obsahu generovanému AI.
Garante, jeden z nejpřísnějších regulátorů AI v Evropské unii, nařídil OpenAI zahájit šestiměsíční veřejnou kampaň v Itálii, jejímž cílem je zvýšit povědomí o praktikách sběru dat ChatGPT, zejména o jeho použití osobních údajů k trénování algoritmů.
V reakci na to OpenAI označila pokutu za „nepřiměřenou“ a naznačila svůj záměr se proti rozhodnutí odvolat. Společnost dále kritizovala pokutu jako příliš vysokou v poměru k jejímu příjmu v Itálii během relevantního období.
Garante také poznamenal, že pokuta byla vypočítána s ohledem na „kooperativní postoj“ OpenAI, což znamená, že mohla být vyšší, kdyby společnost nebyla považována za spolupracující během vyšetřování.
Tato poslední pokuta není prvním případem, kdy se OpenAI dostala pod dohled v Itálii. Minulý rok Garante krátce zakázal používání ChatGPT v Itálii kvůli údajním porušením pravidel EU o ochraně soukromí. Služba byla obnovena poté, co OpenAI vyřešila obavy, včetně umožnění uživatelům odmítnout souhlas se zpracováním jejich osobních údajů k trénování algoritmů.
Získejte dobře placenou práci ve Web3 za 90 dní: Konečný plán
OpenAI k pokroku modelů O1 a O3 AI s novým bezpečnostním tréninkovým paradigmatem

Prozkoumat více od tvůrce

Nejnovější zprávy