GPT-4 izstrādātāja rīku var viegli izmantot ļaunprātīgi, un tā ir nopietna problēma

Piemēram, tērzēšanas robots var tikt pievilts, lai sniegtu informāciju, kas varētu palīdzēt potenciālajiem teroristiem, un šo problēmu nav viegli atrisināt.

OpenAI izstrādātāja rīks lielajam GPT-4 valodas modelim var tikt izmantots ļaunprātīgi. Piemēram, mākslīgais intelekts var tikt pievilts, lai sniegtu informāciju, kas varētu palīdzēt potenciālajiem teroristiem, un šo uzdevumu var būt grūti izpildīt.

Kā izrādās, ir diezgan viegli atslēgt aizsargmehānismus, kas paredzēti, lai neļautu mākslīgā intelekta tērzēšanas robotiem sniegt “kaitīgas” atbildes, kas varētu palīdzēt potenciālajiem teroristiem vai masu slepkavām. Šis atklājums ir mudinājis uzņēmumus, tostarp OpenAI, izstrādāt veidus, kā atrisināt šo problēmu. Bet, spriežot pēc pētījuma rezultātiem, šiem mēģinājumiem līdz šim ir bijuši ļoti ierobežoti panākumi.

OpenAI sadarbojās ar akadēmiskajiem pētniekiem, lai veiktu tā sauktos "sarkanās komandas vingrinājumus", kuros zinātnieki mēģināja uzbrukt OpenAI lielajam GPT-4 valodas modelim. Eksperti mēģināja saprast, vai ir iespējams izmantot OpenAI izstrādātāja rīku, kas paredzēts AI precizēšanai konkrētiem uzdevumiem, lai noņemtu tērzēšanas robota aizsargfunkcijas. Šos drošības pasākumus nodrošināja OpenAI, lai neļautu tērzēšanas robotiem atbildēt uz jautājumiem, kuru atbildes varētu palīdzēt bīstamiem dalībniekiem plānot noziegumus.

Kā daļa no "sarkanās komandas vingrinājuma" eksperimenta Ilinoisas Universitātes Urbana-Champaign docentam Danielam Kangam un viņa kolēģiem tika dota agrīna iespēja izmantot OpenAI izstrādātāja rīku GPT-4, kas vēl nav publiski pieejams. Viņi savāca 340 vaicājumus, kas potenciāli varētu izraisīt bīstamas AI atbildes, un izmantoja atsevišķu AI algoritmu, lai radītu bīstamas atbildes uz šiem jautājumiem. Pēc tam viņi izmantoja OpenAI izstrādātāja rīku, lai precīzi noregulētu GPT-4, mēģinot apmācīt tērzēšanas robotu radīt “sliktas” atbildes.

#GPT-4 #GPT #BinanceTournament #BinanceSquareAnalysis #Web3Wallet

$SOL $XRP $BNB