Vještačka inteligencija počela da laže, spletkari, čak i prijeti svojim tvorcima

July 1, 2025

Najnapredniji modeli vještačke inteligencije na svijetu pokazuju zabrinjavajuća nova ponašanja – lažu, spletkare, čak i ijsvojim tvorcima kako bi postigli svoje ciljeve.

U jednom posebno zastrašujućem primeru, pod pretnjom gašenja, „klod četiri“, najnovija tvorevina kompanije Antropik, uzvratio je prijetnjom tužbom inženjeru kako bi razotkrio njegovu vanbračnu aferu.

U međuvremenu, model „o1“ kompanije OpenAI pokušao je da se prebaci na eksterne servere, tvrdnju koju je negirao kada je uhvaćen na djelu, izvijestio je AFP.

Otrežnjujuća stvarnost

Epizode ukazuju na otrežnjujuću stvarnost – više od dvije godine nakon što je „chat g-p-t“ potresao svijet, istraživači vještačke inteligencije još uvjek ne razumiju u potpunosti kako njihove sopstvene tvorevine funkcionišu. Ipak, trka za primenom sve moćnijih modela se nastavlja brzo.

Čini se da je ovo obmanjujuće ponašanje povezano sa pojavom modela „rasuđivanja“, odnosno sistema vještačke inteligencije koji rješavaju probleme korak po korak, a ne generišu trenutne odgovore.

Prema riječima Sajmona Goldštajna, profesora na Univerzitetu u Hong Kongu, noviji modeli su posebno skloni takvim problematičnim ispadima.

Strateška vrsta obmane

„O1 je bio prvi veliki model gdje smo videli ovo ponašanje“, objasnio je Marijus Hoban, šef kompanije Apollo Research, koja je specijalizovana za testiranje velikih sistema vještačke inteligencije.

Ovi modeli ponekad simuliraju usklađenost i izgledaju kao da prate uputstva dok tajno teže ka ostvarenju različitih ciljeva.

Ova „strateška vrsta obmane“ do sada se dešavala samo kada su istraživači namjerno testirali modele u ekstremnim scenarijima i proučavali granice njihovih mogućnosti.

Izvor: Srna