OpenAI otkriva uzrok AI halucinacija: nikad 100 % točnost!
OpenAI je upravo objavio studiju koja objašnjava temeljni uzrok fenomena “halucinacija” u AI chatbotovima – jednog od najvećih izazova kod velikih jezičnih modela. Prema istraživačima, halucinacije se javljaju kada model generira informacije koje nisu točne, ali ih predstavlja kao činjenice. Ovaj problem utječe na sve najpopularnije LLM-ove, od OpenAI-jeva GPT-5 do Anthropicovog Claudea.
Što uzrokuje AI halucinacije?
Studija objavljena u četvrtak pokazuje da su veliki jezični modeli skloni halucinacijama jer trenutna obuka nagrađuje “pogađanje” odgovora više nego priznavanje nesigurnosti. Drugim riječima, modeli se potiču da “pretvaraju dok ne uspije”. Istraživači pojašnjavaju da halucinacije nastaju zbog načina na koji se modeli evaluiraju. Jezični modeli optimizirani su da budu “dobri učenici” na testovima: nagađanje odgovora kada nisu sigurni poboljšava ukupnu izvedbu. LLM-ovi zapravo uvijek rade u “načinu polaganja testa”, tretirajući svijet kao binaran – istina ili laž, crno ili bijelo. U stvarnom životu, međutim, neizvjesnost je češća od apsolutne sigurnosti. Autori studije uspoređuju to s ljudima koji uče kako izraziti nesigurnost izvan školskog okruženja, dok su jezični obrasci tijekom treninga primarno ocjenjivani prema rezultatima ispita koji kažnjavaju nesigurnost. LLM-ovi u osnovi rade sa sustavom bodovanja u kojem dobivaju bod za svaki odgovor i nisu nagrađeni za iskreno priznanje “Ne znam”. To je slično studentima koji pogađaju na testovima s višestrukim izborom – slanje odgovora donosi više bodova nego ostavljanje praznog mjesta.
Moguće rješenje
Dobra vijest je da postoji način za smanjenje halucinacija. OpenAI predlaže redizajniranje evaluacijskih kriterija kako bi se spriječilo kažnjavanje kada model ne zna odgovor. Konkretno, potrebno je prilagoditi ključne evaluacije i obeshrabriti nagađanje, što bi potaknulo modele da budu iskreniji u nesigurnim situacijama. Studija naglašava da će, dok sustavi bodovanja nastave nagrađivati “sretna predviđanja”, modeli i dalje učiti pogađati. Stoga je ažuriranje ovih evaluacija ključno za povećanje pouzdanosti AI sustava.
Zašto AI nikada neće biti 100% točan
Iako GPT-5 smanjuje dezinformacije za 46% u odnosu na prethodnika GPT-4o, OpenAI ističe da modeli nikada neće biti potpuno točni. Prema istraživačima, “neka pitanja iz stvarnog svijeta sama po sebi nemaju jasan odgovor”. Primjerice, AI može bez problema klasificirati slike prema oznakama poput “mačka ili pas”. Međutim, kod složenijih zadataka, poput identifikacije rođendana kućnog ljubimca na fotografiji, model će često pogriješiti. Ovo pokazuje da određeni tipovi zadataka uvijek mogu generirati pogreške, bez obzira na napredak algoritama.
Što korisnici mogu učiniti
Kako bi ograničili halucinacije, korisnici mogu uputiti modele da odgovore “Ne znam” kada nisu sigurni. Također, prilagodba sustava bodovanja može pomoći u smanjenju nepotrebnog nagađanja i povećanju pouzdanosti odgovora.
Ova studija predstavlja važan korak u razumijevanju jednog od najvećih izazova moderne umjetne inteligencije. OpenAI pruža konkretne smjernice za poboljšanje pouzdanosti LLM-ova i naglašava da, iako AI nikada neće biti 100% točan, moguće je značajno smanjiti halucinacije i učiniti modele korisnijima u svakodnevnim zadacima.
