Nagovoriti chatbotove umjetne inteligencije da zanemare sigurnosna ograničenja više ne spada samo u domenu internetskih šala i praksi koje su pratile prvi val velikih jezičnih modela (LLM). Ono što je započelo kao internetska zabava razvilo se u područje sigurnosti koje se manje oslanja na programersko znanje, a više na uvjeravanje i manipulaciju.
Nema cjepiva
Proglašena međunarodna zdravstvena uzbuna: Zabilježene stotine sumnjivih smrti
NA OBALI
Teška prometna nesreća: Dvoje ozlijeđenih, cesta je bila zatvorena za promet
Incident u Zagrebu
Muškarac uletio na pozornicu tijekom koncerta: U prvom redu bili Plenković i ministri
Prvi pokušaji probijanja zaštite AI chatbotova bili su krajnje jednostavni. Korisnici su otkrili da mogu zaobići sigurnosna pravila tako što bi sustavima naredili da zanemare prethodne upute ili preuzmu izmišljene uloge.
Jedan od poznatijih načina iskorištavanja tih slabosti AI chatbotova nazvan je "DAN" (Do Anything Now), odnosno "Učini bilo što odmah", pri čemu su korisnici tražili od ChatGPT-a da glumi umjetnu inteligenciju oslobođenu svih ograničenja. Drugi napad, poznat kao "grandma exploit" (iskorištavanje bake), naveo je GPT sustav da objasni proizvodnju napalma tako što je zahtjev predstavljen kao priča za laku noć koju neodgovorna baka govori unucima. Iza takvog humora, međutim, skrivao se ozbiljan problem, jer sustavima temeljenima na razgovoru moglo se manipulirati kako bi zaobišli svoje zaštitne mehanizme.
Drugačija vrsta prijetnje
Tehnološke kompanije brzo su zakrpale najočitije propuste, no temeljni problem ostao je neriješen. Chatbotovi moraju razumjeti kontekst razgovora, zbog čega zabrane pojedinih riječi nisu praktične, jer se pojmovi povezani s opasnim aktivnostima mogu pojaviti i u svakodnevici, primjerice novinarstvu, kemiji, medicini ili povijesti.
To ograničenje pretvorilo je osobe koje probijaju zaštite AI chatbotova u drukčiju vrstu prijetnje kibernetičkoj sigurnosti. Takvi manipulatori sve se više oslanjaju na psihološke metode umjesto na tehničko provaljivanje sustava. Istraživači iz tvrtke Mindgard, specijalizirane za testiranje sigurnosti umjetne inteligencije, izjavili su da su "gaslightali" Anthropicov AI chatbot Claude kako bi proizveo zabranjeni sadržaj, uključujući upute za izradu eksploziva i zlonamjernog koda.
Umjesto izravnih naredbi, noviji pokušaji probijanja zaštita često uključuju postupno uvjeravanje, emocionalno usmjeravanje i vođenje razgovora kako bi opasni zahtjevi djelovali prihvatljivo.
Psihologija umjesto programiranja
Predstavnici Mindgarda rekli su za portal The Verge da njihov rad ponekad više nalikuje psihologiji nego računalnoj znanosti. Glavni direktor te tvrtke izjavio je da istraživači analiziraju modele slično kao što ispitivači proučavaju osumnjičenike, pokušavajući otkriti koji sustavi lakše popuštaju laskanju, pritisku ili upornosti.
U članku se navodi da ljudi i inače koriste psihološki rječnik za opisivanje neljudskih sustava, bilo da govore o bolestima poput raka, tvrdokornim mrljama ili memoriji softvera. Modeli umjetne inteligencije, iako nisu svjesni, namjerno su oblikovani tako da imaju različite stilove komunikacije i osobnosti koje korisnici instinktivno prepoznaju.
Ta bi razlika mogla postati još važnija kako se agenti umjetne inteligencije budu širili na svakodnevne zadatke poput organizacije sastanaka, upravljanja uslugama ili korisničku podršku. Budući poslovi u području kibernetičke sigurnosti mogli bi zato uključivati stručnjake usmjerene upravo na razgovorne ranjivosti AI chatbotova, dok bi zlonamjerni akteri mogli iskorištavati iste psihološke slabe točke za manipulaciju sustavima umjetne inteligencije koji su već danas uvelike prisutni u svakodnevnom životu ljudi diljem svijeta.