Prije nekoliko tjedana jedan me moj rođak (Razmetni rođak™) ponosno ugostio pri demo-vožnji u svojem novom diktatorskom automobilu kojim se počastio pred koji mjesec. Ne namjeravam reklamirati proizvođača, ali uglavnom, radi se o katedrali na kotačima koja je opremljena svim zamislivim čudima: masažnim i grijanim sjedalima, trima klimama, televizorom, računalnim centralnim sustavom koji bi pribio moj kućni PC na stup srama, LCD ekranima posvuda, UMTS pristupom na Internet koji se distribuira u kabini putem Wi-Fija, dvama hladionicima... da smo se vozili još deset minuta duže, vjerojatno bih pod sjedalom našao poštanski ured ili crkvene orgulje.

Kako god bilo, proizvođaču je dovitljivo palo na pamet da tipičan vozač neće u vožnji imati vremena prolaziti kroz 5 izbornika, 8 pod-izbornika i 3 pop-upa da bi iskoristio neku od tih dvanaest tisuća opskurnih mogućnosti, pa je tu mobilnu kuću velikodušno opremio i sustavom za prepoznavanje glasa koji mi je moj Razmetni Rođak odlučio promptno demonstrirati.

"Sve osim gasa, kočnice i upravljača može se kontrolirati glasom" - on će ponosno, vijugajući obrvama. I, pročistivši glas poput Placida Dominga, pažljivo u mikrofončić reče "set kebin tempričr tuenti digris". I - praktički istog trena - glasnoća ugrađenih osamdeset i sedam zvučnika skočila je na 20, oglušenjem prijeteći nama, Zagrebu i okolici.

Kad smo se sabrali, na brzinu ručno utišali pobješnjeli audio i provjerili je li od buke pukao koji prozor, rođo se nije dao smesti, već reče: "Nevigejt tu ViEjArEjZiDiAjEn" (Varaždin). Računalo se mučilo nekoliko trenutaka, potom javilo kako nije našlo točno to mjesto i pitalo želimo li ići na ono koje tome najbliže zvuči. Nakon gordog "Konfrm", uočismo da nas, umjesto na sjever, automobil vodi na istok - u Vardarac pored Bilja, u Slavoniji. Probao sam i ja, koji imam mrvicu bolji engleski izgovor, i jednako se frustrirao automobilovom kombinacijom gluhoće i glupoće algoritama.

Zaintrigiran evidentnim užasom situacije, raspitao sam se uokolo kako funkcioniraju razni drugi moderni hi-tec automobili (ali i drugi tehnološki proizvodi) koji se pri radu oslanjaju na Voice Recognition. I situacija je uvijek bila jednaka. To jest, jednako katastrofalna - bez obzira na spol, kvalitetu izgovora ili boju glasa korisnika. Tužna je istina da su kod primjene Voice Recognition sustava u praksi greške još uvijek toliko česte da se gotovo nikome ne da koristiti ga, već radije posegne za dobro smještenom tipkom. Stvari još stoje kako-tako s pažljivim izgovorom i idealnim uvjetima snimanja (bez pozadinskog šuma ili, još gore, žamora), ali u praksi se takvi uvjeti ne nalaze praktički nikad.

Na nedavno posjećenom kongresu profesionalne akustike u Beču pitao sam nekoliko eksperata kako stoje stvari s razvojem ove vječno očekivane tehnologije. Odgovor je u pravilu bio: "U studijskim uvjetima, s poznatim govornikom i neograničenom količinom vremena za analizu, radi podnošljivo. A još imamo pred sobom mnogo truda to natjerati da radi i u praksi". Takva situacija nije rezultat nesposobnosti kadra koji na njemu radi (štoviše, ovim problemom zabavljaju se neki od najgenijalnijih inženjerskih umova), već ogromnim zaprekama i koracima koji se moraju savladati: inteligentnoj redukciji šuma, prilagođavanju specifičnoj artikulaciji govornika i kompenzaciji njegovog naglaska, logičko-heurističkoj podjeli riječi (je li rečeno "samo obrana" ili "samoobrana"), fleksibilnosti prema slobodi izgovora i jezičkoj formi, itd. No sve u svemu, stanje nije baš sukladno marketinškim izjavama i najavama, kao niti pseudotehnološkim TV-emisijama u kojima se bombastično najavljuju nevjerojatne "tehnologije pred vratima", zar ne?

Dakle, konstatirasmo da prepoznavanje glasa općenito u praksi radi otužno (molim, ne šaljite mi vaše pojedinačne rijetke primjere u kojima to nije tako) i neće se, figurativno, do sutra poboljšati. Ali, glavnina razmetne poante ovaj put nije u toj činjenici, već u jednom popratnom pitanju.

Koliko nam to, zapravo, uopće treba?

Kroz razne SF-serije, komične idealizacije računala u filmovima (što zaslužuje posebnu kolumnu) i tehnološke podlistke u nekim tiskovinama (koji također zaslužuju još jednu kolumnu), čini se da je među općenitom, računalno neobrazovanom populacijom stvorena percepcija da je potpuno funkcionalno prepoznavanje glasa sljedeći veliki korak u korištenju računala, koji će tipkovnice i miševe otjerati u muzej. No, kakva zabluda!

Bez obzira koliko efektno izgledalo na kino-platnu kad nekakav Captain Meteor ili General Falcon koriste svoje računalo razgovarajući s njime, vjerujem da ćete se složiti da bi nam, prije svega, u praksi bio pomalo glup osjećaj, kad pogledom prelijećemo preko nekog dokumenta i mijenjamo ga, umjesto brzih manevara na tipkovnici i mišu konstantno blebetati "Dolje, dolje, dolje, dolje, malo gore... dolje... dolje, postavi kursor tu gore, ne tu, red ispod. Ne na tu riječ, nego na sljedeću... tu. Umjesto nje stavi 'Možda'. Dolje, dolje, dolje...". Svi koji su do sad barem jednom preko telefona nekom računalnom antitalentu objašnjavali kako flashati BIOS na njegovoj matičnoj ploči znaju koliko je glas prokleto nezgrapan za neke operacije koje inače izvodimo brže lijevim malim prstom na tipkovnici. Unatoč bezbrojnim senzacionalističkim naslovima "Tipkovnicama je odzvonilo", "Miš odlazi u penziju" kakve viđamo po medijima neupitne nekompetencije, ova je periferija puno prespecijalizirana i prepraktična da bi se baš uvijek zamijenila glasom.

Za bolji primjer, vratimo se na cestu; automobili su uređaji čije upravljanje također traži preciznost i brzinu da bi bilo efikasno. Možete li zamisliti automobil kojem se smjer vožnje, umjesto volanom, zadaje opisno, govorom? Osim u luna-parku, vožnja u njemu bi završila u jarku, baš i da ste hibridna kombinacija Goethea i Fernanda Alonsa.

Nakon toga, možete li zamisliti veliku firmu prepunu ljudi koji skučeno rade za računalima (dobar dan, Dilbert) i pritom svi s njima razgovaraju? Jednako kaotično, jednako iritantno.

Zaključimo - glas je izvrstan za komunikaciju među ljudima, zbog redundancije, mogućnosti subjektivnog izražavanja i brojnih drugih razloga. Ali struktura informacija koje obično (s nekim izuzecima) dajemo računalima je sasvim drukčija te time traži i druge, specijalizirane metode komunikacije - za koje vam uređaji već stoje na stolu ispred monitora.

I pojava super-pouzdanog prepoznavanja glasa - ako se uopće dogodi u doglednoj budućnosti - im neće nimalo zaprijetiti. Ekipa u Logitechu zasad može mirno spavati.