ChatGPT ima veliku nadogradnju: može vidjeti, čuti i govoriti
OpenAI najavljuje pokretanje glasovnih razgovora s chatbotom za iOS i Android sustave ili dijeljenje slika/fotografija na svim platformama kako bi se izrazile misli, umjesto samog oslanjanja isključivo na upisivanje upita. Ove nove opcije bit će dostupne Plus i Enterprise korisnicima u sljedeća dva tjedna. Ali Open AI planira ubrzo proširenje usluga na besplatne verzije aplikacija.
Glasovni unos upita
Funkcija glasovnog unosa slična je glasovnom asistentu na mobilnom telefonu. Korisnici samo trebaju pritisnuti gumb i izgovoriti svoje pitanje, a ChatGPT će ga pretvoriti u tekst, poslati veliki jezični model, potom generirati odgovor i pretvoriti ga u govor te reproducirati korisniku. Za glasovnu značajku, OpenAI koristi Whisper, svoj sustav za prepoznavanje govora, transkripciju izgovorenih riječi korisnika u tekst i novi model teksta u govor koji može generirati zvuk sličan ljudskom sa samo nekoliko sekundi govora. Ujedno je tvrtka surađivala s profesionalnim glumcima kako bi stvorila pet glasova ChatGPT-a. OpenAI dijeli ovaj model pretvaranja teksta u govor s nekolicinom drugih tvrtki, uključujući Spotify koji ga koristi za prevođenje podcasta slavnih osoba.
Prema OpenAI-ju, ova nova tehnologija govora može proizvesti realističan sintetički govor iz nekoliko sekundi pravog govora, otvarajući vrata mnogim kreativnim i pristupačnim aplikacijama. Međutim, ove mogućnosti također stvaraju nove rizike, kao što je mogućnost da se zlonamjerni akteri lažno predstavljaju kao javne osobe ili počine prijevaru. Zato će biti biti strogo kontroliran i ipak ograničen.
OpenAI želi izgraditi epsku LLM trgovinu aplikacija otvarajući sve ChatGPT modele
ChatGPT ubrzava “slijetanje” na mobitele
ChatGPT i pitanje autorskih prava AI-a sve više zabrinjava
Razgovor o slikama/fotografijama
Funkcija unosa slike je nešto poput Google Lens. Korisnici mogu fotografirati stvari koje ih zanimaju i prenijeti ih na ChatGPT. AI će ih analizirati i na temelju analize pokušati identificirati što korisnik želi pitati te ponuditi odgovor. Korisnici također mogu koristiti alate za crtanje u aplikaciji kako bi lakše izrazili svoja pitanja ili vodili pomoćnika, ali moguće je koristiti i govor ili upisivati pitanja koja idu uz učitanu sliku.
Sposobnost ChatGPT-a za prepoznavanje slika već je isprobana od strane tvrtke pod nazivom Be My Eyes, koja izrađuje aplikaciju za osobe s oštećenim vidom. Vrijedno je spomenuti da je OpenAI također poduzeo tehničke mjere kako bi značajno ograničio sposobnost ChatGPT-a da analizira i izravno predstavlja druge, jer ChatGPT nije uvijek točan i ti bi sustavi trebali poštovati osobnu privatnost.


