Anthropicov Claude sada može upravljati računalima kao ljudi

·

claude

Anthropicov već impresivni Claude 3.5 Sonnet dobiva značajan poticaj u performansama, dok startup za generativnu umjetnu inteligenciju lansira poboljšanu i ažuriranu verziju modela uz novi, lagani Claude 3.5 Haiku. Ažuriranje Sonnet modela uključuje značajku javne beta verzije koja omogućuje AI-u osnovnu kontrolu nad računalom na kojem se pokreće. Claude 3.5 Sonnet već je bio lider u performansama kada su u pitanju zadaci kodiranja, ali nova verzija pokazuje značajna poboljšanja u svim područjima u odnosu na svog prethodnika te sustavno nadmašuje i Gemini 1.5 i GPT-4o na raznim industrijskim testovima. Gemini 1.5 Pro bio je jedini model koji je pobijedio novi 3.5 Sonnet na bilo kojem testu, i to na MATH testu. Novi 3.5 Haiku također nije za podcijeniti, unatoč svojoj maloj veličini. Planirano je da bude objavljen kasnije ovog mjeseca, a 3.5 Haiku nadmašuje Claude 3.0 Opus, najveći model prošle generacije tvrtke. Kao i njegova veća verzija, novi Haiku iznimno je sposoban za zadatke kodiranja, postižući 40,6% na SWE-bench Verified,  što je bolje od GPT-40 i originalnog 3.5 Sonnet.

Još impresivnije, novi Claude 3.5 Sonnet sada može komunicirati s aplikacijama za radnu površinu putem API-ja “Korištenje računala”. AI može generirati potrebne pritiske tipki, klikove miša i pokrete potrebne za oponašanje ljudskog korisnika. Tvrtka brzo naglašava da je sustav trenutačno prilično eksperimentalan i sklon pogreškama. Temeljna svrha javne beta verzije je dobiti povratne informacije od programera kako bi se brzo poboljšala izvedba API-ja.

claude_3.5

“Naučili smo Claudea da vidi što se događa na ekranu i zatim koristi dostupne softverske alate za obavljanje zadataka”, napisao je Anthropic u blogu. “Kada programer zatraži Claudea da koristi dio računalnog softvera i pruži mu potreban pristup, Claude gleda snimke zaslona onoga što je vidljivo korisniku, a zatim broji koliko piksela okomito ili vodoravno mora pomaknuti pokazivač kako bi kliknuo na pravo mjesto.” To je AI agent, odnosno, AI koji može automatizirati druge softverske procese, bilo da generira i ocjenjuje marketinške potencijalne kupce, otkriva obrasce i trendove u medicinskim podacima ili jednostavno navigira na određenu web stranicu i popunjava obrazac koji vam treba.

Tvrtka navodi Asanu, Canvu, Cognition, DoorDash, Replit i The Browser Company kao prve korisnike nove značajke. Na primjer, Replit koristi Kontrolu računala za “razvijanje ključne značajke koja procjenjuje aplikacije dok se izrađuju za njihov Replit Agent proizvod”, prema najavi. Ne treba se brinuti da će AI postati Skynet, kako objašnjava Anthropic. “Ljudi ostaju u kontroli dajući specifične upute koje usmjeravaju Claudeove radnje, poput ‘koristi podatke s mog računala i interneta za popunjavanje ovog obrasca’”, rekao je glasnogovornik Anthropica za TechCrunch. “Ljudi omogućuju pristup i ograničavaju ga prema potrebi. Claude razbija korisničke upute u računalne naredbe (npr. pomicanje pokazivača, klikanje, tipkanje) kako bi izvršio taj specifični zadatak.” Anthropic također priznaje da bi se Kontrola računala mogla zloupotrijebiti za generiranje neželjene pošte, širenje dezinformacija ili počinjenje prijevara. Kao odgovor, tvrtka je razvila nove klasifikatore koji identificiraju kada se API koristi i je li ta upotreba “štetna”.