Dažos pēdējos gados morālās un praktiskās problēmas ir vērstas uz AI, jo tā var izmantot gan labvēlīgi, gan kaitīgi. Viens no nozares līderiem OpenAI ir apņēmies ieviest stingras vadlīnijas, lai novērstu AI modeļu ļaunprātīgu izmantošanu.

Šī centība ir īpaši svarīga, lai identificētu un izjauktu slēptās ietekmes operācijas (IO), kas ir centieni ietekmēt sabiedrisko domu vai ietekmēt politiskos rezultātus, neatklājot iesaistīto pušu patieso identitāti vai motivāciju. Pēdējo trīs mēnešu laikā OpenAI ir iejaukusies piecās no šīm darbībām, apliecinot savu apņemšanos samazināt AI tehnoloģijas ļaunprātīgu izmantošanu.

Negaidīti sabrukumi slēptās ietekmes operācijās pēdējā laikā

2024. gada 30. maijā OpenAI iegāja vēsturē, atklājot pasaulei, ka ir veiksmīgi izjaukusi piecas šādas slēptās ietekmes kampaņas, kas nākušas no Irānas, Ķīnas, Krievijas un pat Izraēlas privātā uzņēmuma. Uzņēmums publicēja atklātu ziņojumu, kurā sīki izklāstītas rūpīgās izmeklēšanas, kas atklāja šos ļaunprātīgos centienus, kuru mērķis bija izmantot OpenAI jaunākos valodas modeļus krāpšanai tīmeklī.

OpenAI izpilddirektors Sems Altmans atkārtoti apstiprināja uzņēmuma centību radīt uzticamas un drošas izlūkošanas lietojumprogrammas. Viņš arī norādīja, ka uzņēmums ir apņēmies īstenot noteikumus, kas aptur ļaunprātīgu izmantošanu un uzlabo atklātību ap AI radīto informāciju, īpašu uzmanību pievēršot slēptās ietekmes darbību identificēšanai un ietekmēšanai.

Konkrēta operācija, ko OpenAI analītiķi nodēvēja par “Slikto gramatiku”, nāca no Krievijas. Cenšoties mainīt sabiedrības uzskatus, šīs operācijas veicēji izmantoja Telegram robotprogrammatūras, lai palaistu OpenAI modeļus un sniegtu īsas sociālās piezīmes gan krievu, gan angļu valodā. Pēc tam šie komentāri tika kopīgoti labi zināmajā tērzēšanas lietotnē.

Foto: Publisks telegrammas komentārs, kas atbilst šī tīkla ģenerētam tekstam. Intel ziņojums par draudiem

Cita organizācija ar nosaukumu “Doppelganger” pieņēma starptautiskāku stratēģiju, izmantojot OpenAI AI, lai izveidotu atbildes dažādās ES valodās.

Pētījums arī sniedza ieskatu ķīniešu sistēmā, kas pazīstama kā “Spamouflage”, kurā tika izmantoti OpenAI modeļi dažādām lietojumprogrammām, tostarp daudzvalodu materiāla izveidei tādām vietnēm kā X, Medium un Blogspot, kā arī sabiedrības izmeklēšanai. sociālo mediju darbība. Pētnieki pat izmantoja OpenAI AI, lai atkļūdotu datubāzi un vietņu pārvaldības kodu, jo īpaši iepriekš neatklātu domēnu, kas, iespējams, ir visizteiktākais.

Fotoattēls: tīmekļa vietnes discoverscum[.]com ekrānuzņēmums, kurā redzama lapa ar nosaukumu “汉奸” (“nodevējs”). Intel ziņojums par draudiem

Organizācijas analītiķi atklāja arī "Starptautisko virtuālo mediju savienību" (IUVM), Irānas organizāciju, kas izmantoja OpenAI AI, lai izveidotu un interpretētu garas formas dokumentus, ziņas un tīmekļa tagus.

Foto: Atzīmes rakstam, ko publicējis iuvmpress[.]co. Ņemiet vērā pirmos divus tagus, kas ietver modeļa atbildi. Intel ziņojums par draudiem

Negaidīti OpenAI iejaucās arī Izraēlas uzņēmuma darbībā, ko sauca par "Zero Zeno". Izmantojot OpenAI modeļus, STOIC izveidoja stāstus un atbildes, kas pēc tam tika kopīgotas dažādās platformās, piemēram, Facebook, Instagram, X un korporatīvajās lapās. Iespējams, tas tika darīts, lai ietekmētu sabiedrisko domu vai veicinātu uzņēmējdarbības mērķus.

Foto: šī tīkla ģenerēti komentāri angļu valodā, kas ievietoti Instagram. Gan sākotnējā ziņa, gan atbildes tika ģenerētas šīs kampaņas ietvaros. Intel ziņojums par draudiem

Pētījumā uzsvērts, ka šo dažādo organizāciju izplatītā informācija aptvēra plašu tēmu loku. Šis plašais priekšmetu klāsts parāda, cik pielāgojami bija šie draudu dalībnieki, cenšoties izmantot OpenAI valodas modeļus saviem ļaunajiem mērķiem.

Tomēr OpenAI apgalvo, ka, neskatoties uz viņu centieniem, šīs slepenās ietekmes kampaņas nav ieguvušas daudz no tā pakalpojumu izmantošanas popularitātes vai sasniedzamības palielināšanai. Novērtējot IO ietekmi, tika izmantota Brūkingsas institūcijas “Izlaušanās skala”. Neviena no piecām iniciatīvām nesaņēma augstāku punktu skaitu par 2, kas nozīmē, ka to darbība aprobežojās ar dažām platformām un būtiski neiekļuva likumīgās tiešsaistes grupās.

Fotoattēls: pētnieki identificēja ar šo kampaņu saistīto domēnu. Intel ziņojums par draudiem

Uzbrucēju stratēģiju pārbaude

OpenAI dokumentā ir norādīti arī vairāki nozīmīgi modeļi, kā šie draudu dalībnieki mēģināja ļaunprātīgi izmantot AI modeļus. Lai radītu līdzdalības iespaidu sociālajos medijos, viņi visi izmantoja mākslīgā intelekta ģenerētu materiālu papildus tradicionālākiem formātiem, piemēram, ar roku rakstītām vēstulēm vai pārveidotām mēmām. Turklāt daži dalībnieki demonstrēja šo tehnoloģiju pielāgošanās spēju, izmantojot AI, lai palielinātu savu produktivitāti, analizējot sociālo mediju ierakstus vai problēmu novēršanas kodu.

Interesanti, ka bizness izceļ priekšrocības, ko AI sniedz aizsardzībai pret šāda veida uzbrukumiem. OpenAI drošības pasākumi, kuros prioritāte tika piešķirta ētiskai AI ieviešanai, pastāvīgi ir radījuši neērtības apdraudējuma dalībniekiem, atsakoties nodrošināt paredzēto iznīcinošo materiālu. Pētījumā, piemēram, ir sīki aprakstītas situācijas, kurās uzņēmuma modeļi atteicās ģenerēt vēlamo tekstu vai grafiku, kavējot operatoru mēģinājumus izplatīt dezinformāciju vai propagandu.

Turklāt, lai uzlabotu atpazīšanas un novērtēšanas prasmes un paātrinātu izmeklēšanu, kas varētu ilgt nedēļas vai mēnešus, OpenAI ir izveidojis savus ar AI darbināmus rīkus. Uzņēmums ir parādījis, kā AI var stiprināt aizsardzības pasākumus pret savu ļaunprātīgu izmantošanu, izmantojot precīzu tehnoloģiju, kuras mērķis ir aizsargāt.

OpenAI uzsver, cik būtiska ir biznesa sadarbība un atklātā pirmkoda informācijas apmaiņa, lai kavētu šīs slepenās darbības. Plašākas pētnieku kopienas vairāku gadu ilgā atvērtā pirmkoda pētījuma rezultātā korporācija ar nozares vienaudžiem kopīgoja precīzus bīstamības rādītājus un nostiprināja domu, ka dezinformācijas un tiešsaistes manipulāciju apkarošana ir komandas darbs, kam nepieciešama sadarbība starp nozarēm.

OpenAI nākotnes drošības kurss

Izmantojot šo stratēģiju, OpenAI cenšas pastiprināt savu traucējumu ietekmi uz šiem sliktajiem dalībniekiem, ierobežojot viņu spēju izmantot AI tehnoloģiju nelikumīgām darbībām. Saskaņā ar dokumentu "Izplatīšana ir svarīga: tāpat kā tradicionālie satura veidi, AI radītais materiāls ir jāizplata, lai tas sasniegtu auditoriju."

Rezumējot, OpenAI pētījums uzsver, ka šīs slepenās ietekmes darbības joprojām ierobežoja cilvēka mainīgie lielumi, piemēram, operatora kļūdas un lēmumu pieņemšanas defekti, pat ja tiek atzīti iespējamie draudi, ko rada AI tehnoloģijas ļaunprātīga izmantošana. Rakstā ir iekļauti piemēri, kā operatori savās vietnēs un sociālajos medijos kļūdas dēļ ievieto noraidīšanas signālus no OpenAI modeļiem, atklājot trūkumus un ierobežojumus pat vismodernākajos dezinformācijas centienos.

Šobrīd OpenAI veiktā šo piecu slepenās ietekmes kampaņu likvidēšana liecina par uzņēmuma centību un apņemšanos saglabāt mākslīgā intelekta sistēmu integritāti. Tomēr cīņa pret dezinformāciju un tiešsaistes manipulācijām ne tuvu nav beigusies, un, attīstoties AI tehnoloģijām, būs daudz vairāk vajadzība pēc sadarbības, radošuma un ētikas apsvērumiem.

Ziņa OpenAI atklāj un aptur 5 ļaunprātīgas ietekmes operācijas, izmantojot AI tehnoloģiju, vispirms parādījās Metaverse Post.