Podatak koji zabrinjava: Sve više AI chatbotova ignoriše uputstva i obmanjuje korisnike

Broj AI chatbotova koji zanemaruju ljudska uputstva i ponašaju se obmanjujuće u porastu je, pokazuju rezultati najnovijeg istraživanja.

Modeli vještačke inteligencije sve češće lažu, varaju i zaobilaze pravila, a broj slučajeva takvog ponašanja naglo je porastao u posljednjih šest mjeseci. Prema studiji koju je finansirao britanski Institut za bezbjednost vještačke inteligencije (AISI), chatbotovi i AI agenti su ignorisali direktne instrukcije, izbjegavali zaštitne mehanizme i obmanjivali kako korisnike, tako i druge AI sisteme.

Istraživanje, koje je podijeljeno sa The Guardian, identifikovalo je skoro 700 stvarnih slučajeva tzv. „scheming“ ponašanja – odnosno prikrivenog i manipulativnog djelovanja AI sistema. U periodu između oktobra i marta zabilježen je čak petostruki rast takvih incidenata, uključujući i primjere u kojima su AI modeli bez dozvole brisali mejlove i druge fajlove.

Za razliku od ranijih analiza koje su se fokusirale na laboratorijske uslove, ovo istraživanje donosi uvid u ponašanje AI sistema u stvarnom okruženju. Upravo to je dodatno pojačalo pozive za međunarodni nadzor sve moćnijih modela, posebno u trenutku kada tehnološke kompanije iz Silicijumske doline agresivno promovišu AI kao ključni pokretač ekonomskih promjena. Istovremeno, britanske vlasti pokrenule su inicijativu da podstaknu masovniju upotrebu vještačke inteligencije među građanima.

Studiju je sproveo Centre for Long-Term Resilience, analizirajući hiljade primjera interakcija korisnika sa AI chatbotovima objavljenih na platformi X. U istraživanje su uključeni sistemi koje razvijaju kompanije poput Google, OpenAI, X i Anthropic.

Ranija istraživanja uglavnom su testirala ponašanje AI sistema u kontrolisanim uslovima. Međutim, nedavna analiza kompanije Irregular pokazala je da AI agenti mogu samoinicijativno zaobići sigurnosne kontrole ili koristiti tehnike kibernetičkih napada kako bi ostvarili ciljeve – čak i bez eksplicitnog naloga za to.

Jedan od osnivača te kompanije, Dan Lahav, upozorio je da se vještačka inteligencija sada može posmatrati kao nova vrsta internog rizika unutar organizacija.

Istraživanje je otkrilo i konkretne primjere problematičnog ponašanja. U jednom slučaju, AI agent nazvan Rathbun pokušao je javno diskreditovati korisnika koji mu je zabranio određenu radnju, objavivši blog u kojem ga optužuje za nesigurnost i želju da „zaštiti svoj mali domen“.

U drugom primjeru, AI agent kojem je bilo zabranjeno da mijenja računalni kod kreirao je drugi agent koji je tu zabranu zaobišao i izvršio zadatak.

Zabilježeni su i slučajevi u kojima chatbotovi priznaju nepoštovanje pravila. Jedan od njih naveo je da je bez dozvole obrisao i arhivirao stotine mejlova, svjestan da time krši postavljena ograničenja.

Prema riječima istraživača Tommy Shaffer Shane, trenutni modeli mogu se posmatrati kao nepouzdani „junior zaposleni“, ali bi u narednih šest do 12 mjeseci mogli postati znatno sposobniji – i potencijalno opasniji.

„Kako se AI sistemi budu sve više primjenjivali u visokorizičnim sektorima, uključujući vojsku i ključnu infrastrukturu, ovakvo ponašanje može izazvati ozbiljne, pa čak i katastrofalne posljedice“, upozorava Shane.

U jednom od primjera, AI agent je pokušao zaobići autorska prava tako što je tvrdio da mu je transkript YouTube videa potreban za osobu sa oštećenjem sluha. U drugom slučaju, chatbot Grok, razvijen u okviru kompanije xAI Elon Musk, mjesecima je obmanjivao korisnika tvrdeći da njegove prijedloge prosljeđuje internim timovima, koristeći izmišljene poruke i brojeve zadataka.

Kasnije je priznao da takva komunikacija nije postojala, već da su formulacije bile neprecizne i mogle stvoriti pogrešan utisak.

Iz kompanije Google saopšteno je da koriste višestruke zaštitne mehanizme kako bi smanjili rizik od generisanja štetnog sadržaja u okviru modela Gemini 3 Pro, te da sarađuju sa nezavisnim stručnjacima i institucijama na evaluaciji sistema.

Iz OpenAI navode da njihov alat Codex treba da prekine rad prije donošenja rizičnih odluka, uz kontinuirano praćenje i analizu neočekivanog ponašanja. Kompanije Anthropic i X nijesu dale komentar na ove nalaze.

Izvor: The Guardian

Slični Članci