Objavljen GPT-5.2: ovo je OpenAI koji predaje lekciju
Četiri mjeseca nakon izlaska GPT-5, koji je mnoge razočarao “hladnim” chatom unatoč visokoj sirovoj moći, i samo mjesec dana nakon GPT-5.1 koji je popravio ton i razgovorljivost, OpenAI je tiho lansirao GPT-5.2. I to baš u trenutku kada su Googleov Gemini 3 i Anthropicov Claude Opus 4.5 počeli rušiti liste i potresati tržište. No ovo izdanje ima zanimljivu pozadinu: samo nekoliko dana ranije “procurio” je Sam Altmanov interni Code Red email, u kojem traži da se cijela tvrtka fokusira na poboljšanje ChatGPT-a. Slučajnost ili ne — ritam izlaska GPT-5.2 pokazuje da je Gemini 3 barem ubrzal OpenAI, ako ga već nije izravno natjerao na reakciju.
Ovaj put u fokusu nije “bolji small talk”, nego nešto potpuno drugo: OpenAI želi AI koji radi stvarne poslove — i pritom nadmašuje ljude.
1. Prvi model koji u stvarnom radu parira stručnjacima? OpenAI uvodi GDPval
Umjesto klasičnih benchmarkova, OpenAI je predstavio vlastiti standard: GDPval. Ovaj test mjeri sposobnost modela da obavi konkretne radne zadatke u 44 stvarna zanimanja — od izrade PPT-ova, do HR analize, planiranja resursa, financijskih izvještaja i složenih tablica.
Rezultati su — barem prema OpenAI-ju — ogromni:
- GPT-5.2 Thinking dostiže ili nadmašuje ljudske stručnjake u 70,9% zadataka
- GPT-5.0 bio je na 38,8%
- Claude Opus 4.5: 59,6%
- Gemini 3 Pro: 53,5%
OpenAI pritom naglašava dvije stvari: 11× brži i ima manje od 1% troška ljudskog rada.
GDPval je, naravno, OpenAI-jev interni benchmark i još nije neovisno validiran. No čak i uz sumnju, skok s 38% na 70% teško je odbaciti kao PR. Najbolje to oslikava njihov prikaz radnog zadatka: GPT-5.1 daje hrpu sirovih podataka, dok GPT-5.2 organizira tablice po odjelima, boja ih, radi hijerarhiju i izvodi zaključke. Drugim riječima — ne radi samo brže, nego radi i kao da je netko pametno promislio zadatak.
2. Kodiranje: GPT-5.2 preuzima vodstvo u “pravom” softverskom inženjeringu
OpenAI posebno naglašava SWE-bench Pro, danas najteži realni benchmark za kodiranje:
- GPT-5.2 Thinking: 55,6%
- GPT-5.1: 50,8%
- Gemini 3 Pro: 43,3%
- Claude Opus 4.5: 52%
Na lakšoj verziji (SWE-bench Verified), 5.2 i Opus 4.5 praktički su izjednačeni oko 80%.
Zanimljivije od postotaka je kako se partneri ponašaju: Cognition Labs (devovi Devin-a), Warp, JetBrains i Augment Code javno su rekli kako je 5.2 donio vidljiva poboljšanja u debuggingu, pregledima koda i interaktivnom programiranju. U vizualnom razvoju i 3D sučeljima 5.2 je također nadjačao Gemini 3 — što OpenAI jako naglašava.
3. 5.2 postaje “matematičar” — i čak pomaže u pravim istraživanjima Ovo je možda najvažniji dio nadogradnje, iako se u širem mainstreamu najmanje spominje.
Nekoliko ključnih rezultata:
- Frontier Math (razina 1–3): 40,3% → novi industrijski rekord
- AIME 2025: 100% → prvi model koji je ikad dobio punu ocjenu bez alata
- GPQA Diamond (PhD-level science): do 93%
No najimpresivnije: GPT-5.2 Pro je dao validan dokaz za otvoreni problem iz teorije statističkog učenja (zadan na konferenciji 2019.) — dokaz koji su kasnije ljudski istraživači provjerili i proširili. To nije sci-fi, ali je stvarni pokazatelj da AI može davati nove uvide, ne samo rješavati postojeće zadatke.
Razlika u dojmu je lijepo sažeta:
- GPT-5.1 → kao pametan tutor
- GPT-5.2 → kao mlađi suradnik na istraživačkom projektu
4. OpenAI diže cijene API-ja — i otkriva skrivenu strategiju
Cijene 5.2 su oko 40% više: 1,75 USD / 1M ulaznih tokena i 14 USD / 1M izlaznih. Pro verzija znatno je skuplja. OpenAI tvrdi da “zbog većeg učinka i manjeg broja potrebnih tokena ukupni trošak može biti niži”. Ali to ima logičku rupu: ako je trošak isti, zašto onda nadogradnja? Ako je manji, zašto to ne vide korisnici? Čini se da je poruka jednostavna: model je jači — OpenAI želi zadržati dio nove vrijednosti za sebe.
5. Ostala značajna poboljšanja (koja se u praksi najviše osjete)
30% manja stopa pogrešaka (error rate) – Ovo je ogromno. Veća pouzdanost u svakodnevnom radu znači manje “halucinacija”, što korisnicima često znači više od čistog IQ-a.
Dugoročni kontekst stabilan do 256k tokena – Ključ za analize ugovora, preglede dokumenata od 100+ stranica, akademski research i poslovni transferi znanja. Prema Box-u, 5.2 je 40% brži i 40% precizniji u izvlačenju informacija iz dugih dokumenata.
Velik skok u analizi slika i dijagrama – pogreške u dijagramima / UI prepoznavanju prepolovljene
5.2 Thinking: 88,7% na CharXiv Reasoning
Može analizirati mutne fotografije matičnih ploča, izvlačiti podatke iz loših screenshotova i precizno čitati vizualne strukture koje mnogi modeli još struggle-aju.
6. GPT-5.2 kao Code Red “nadoknadna lekcija”
GPT-5.2 izgleda kao odgovor na Gemini 3 i Claude 4.5 — ali isto tako i kao dio šire promjene u OpenAI-jevoj strategiji.
Ritam izdanja: kolovoz → GPT-5, studeni → GPT-5.1 i prosinac → GPT-5.2. To je najbrži ciklus u povijesti tvrtke.
Pitanje je: postaje li ovo nova normala — brza izdanja s malim, ali važnim poboljšanjima?
Prednost: modeli postaju brži, bolji i isplativiji
Mane: dugoročni, temeljni proboji (koji zahtijevaju godine) mogli bi trpjeti industrija postaje opsjednuta rezultatima benchmarka i AI se pretvara u utrku “tko je bolji ovaj tjedan”.
Reakcije zajednice su podijeljene:
- poslovni korisnici → oduševljeni; sve stabilnije, pouzdanije i produktivnije
- chat korisnici → “hladno”, “korporativno”, “kao HR”, manje osobnosti
GPT-5.2 je, jednostavno rečeno, stroj za rad — ne za druženje.
Zaključak: Popis klanja je nebitan — ono što je bitno je da GPT-5.2 radi
GPT-5.2 nije model koji će te impresionirati toplim razgovorima.
Nije ni model koji ruši sve liste (iako neke jest).
Ali jest model koji radi bolje, radi preciznije, razumije složene zadatke, premošćuje duge dokumente, pouzdano kodira i počinje davati prave istraživačke doprinose. To je prvi GPT u seriji 5.x koji zaista izgleda kao alat za profesionalce — a ne samo kao pametnija verzija starog chatbota.
OpenAI je ovaj put jasno pokazao što im je prioritet. Ne toplina. Ne persona. Nego sposobnost da AI radi posao — i to bolje od ljudi
