U ne tako dalekoj budućnosti ljude bi u određenim aspektima svakodnevice mogli vrlo uvjerljivo zamijeniti sofisticirani strojevi i tehnologija, a Microsoftovi su znanstvenici, čini se, malo ubrzali približavanje takve budućnosti.
Pročitajte i ovo
Iz usta visokog dužnosnika Pentagona
Američka vojska pomoću Muskova Groka ispalila je 2000 projektila i uništila 2000 ciljeva u Iranu
Ima novu strategiju
Meta će koristiti umjetnu inteligenciju za otkrivanje maloljetnih korisnika analizom njihove visine i strukture kostiju
SVJEDOČILA BIVŠA SUPRUGA
Pronađeni dokazi u domu osumnjičenog za Sarajevo safari! "Imao je noćne more jer je ubijao..."
KONAČNI IZVJEŠTAJ
Trup se raspadao pri svakoj misiji, a sustav za uzbunu bio je lažan: Svi tehnički propusti koji su osudili posadu Titana
jedna od najtežih pomorskih nesreća
Uhićen prvi časnik katamarana: Poznato za što ga se sumnjiči i koja mu kazna zatvora prijeti
U njihovu nedavnom istraživanju, koje je kreativno opskurno nazvano "Jezični modeli neuralnih kodeka su sintetizatori teksta bez uvježbavanja", predstavlja se jezični model neuralnog kodeka nazvan VALL-E.
S jedne strane nameće se pitanje postoji li novi, brži način da računalo zapiše vaše izgovorene riječi, a s druge strane tehnologija nosi naziv sličan slatkom malom robotu iz popularnog filma.
Pročitajte i ovo
Budućnost IT tržišta
Microsoft planira uložiti veliki novac u tehnologiju za koju kažu da predstavlja sljedeći val računalstva
In medias res
Istraživanje, međutim, koristi riječi, fraze i akronime koji nisu poznati mnogim laičkim modelima ljudskog jezika. No dijelovi tog istraživanja daju naslutiti koje su mogućnosti te tehnologije i tu stvari poprimaju i pomalo jeziv ton.
VALL-E ističe kontekstualne mogućnosti učenja i može se koristiti za sintetiziranje visokokvalitetnog personaliziranog govora, sa samo tri sekunde učitane snimke neviđenog govornika, kao akustične upute, pojašnjeno je u navedenom Microsoftovu istraživanju.
Drugim riječima, Microsoftu sad trebaju svega tri sekunde nečijeg govora kako bi njihova tehnologija VALL-E odglumila duže rečenice i možda velike govore koji zvuče prilično slično govoru izvornog govornika.
Pomoć iz Mete
Kako im to uspijeva? Pa, tako što VALL-E koristi audioknjižnicu koju je sastavljala Meta. Riječ je o audioknjižnici LibriLight, koja je zapravo spremište ukupno 60.000 sati razgovora 7000 ljudi.
Dojam? Zastrašujuće!
Novinar ZDNeta Chris Matyszczyk poslušao je što VALL-E može napraviti. Slušao je muškarca kako govori tri sekunde. Zatim je poslušao osam sekundi kako je njegova VALL-E verzija bila ponukana da kaže: Potom su se oprezno kretali oko kolibe pipajući prije i oko njih kako bi pronašli nešto što bi pokazalo da je Warrenton ispunio svoju misiju. Na koncu je zapanjen zaključio da je razliku nemoguće primijetiti, uz opasku da je većina tih govora zvučala kao vrlo loši isječci književnosti 18. stoljeća.
Neke su verzije govora VALL-E-ja bile mrvicu sumnjivije od drugih. Dikcija nije bila dobra. Zvučalo je pokrpano. Ukupni je učinak, međutim, izrazito zastrašujući, piše novinar ZDNeta.
Pročitajte i ovo
ChatGPT
Popularni AI alat koji je sve oduševio sada je zainteresirao i hakersko podzemlje
Nedostaci, rizici i nonšalantnost rješavanja (samokreiranih) problema
Ipak, Microsoftovi su znanstvenici, čini se, i sami svjesni potencijalnih velikih nedostataka i rizika koji se javljaju uz takvu tehnologiju.
Budući da VALL-E može sintetizirati govor koji održava identitet govornika, može nositi potencijalne rizike u zlouporabi modela, kao što je lažiranje identifikacije glasa ili oponašanje određenog govornika, kažu autori navedenog istraživanja.
Ipak, nude i rješenje - izgradnju sustava detekcije. No, pravo pitanje na koncu zapravo glasi: zašto onda uopće i istraživati tu tehnologiju?
Odgovor je jednostavniji nego što biste mogli pomisliti, a često glasi - zato što mogu.
Izvor: ZDNet