Postignuti značajni rezultati u oblasti konverzije govora i promene stila govora
AlfaNumov tim tokom prošle i ove godine intenzivno radi na inovaciji koja se odnosi na mogućnost sinteze govora drugačijih karakteristika ukoliko je na raspolaganju:
- kvalitetan akustički model, odnosno, sinteza govora polaznih karakteristika;
- mali uzorak govora (od nekoliko sekundi do nekoliko minuta) drugačijih karakteristika.
Rezultati se mogu poslušati:
Uzorak originalnog govora Donalda Trampa:
Sintetizovani Trampov glas izgovara tekst:
Sintetizovani Obamin glas izgovara Trampov tekst:
Promena karakteristika govora odnosi se na:
- Promenu identiteta govornika (početni akustički model odgovara glasu jednog govornika, a nakon konverzije dobija se glas nekog drugog govornika).
- Promenu stila govora (početni akustički model odnosi se na neutralni stil govora, a nakon konverzije dobija se, primera radi, ekspresivan stil koji izražava neku od emocija – radost, ljutnja i sl.)
Primeri promene stila govora:
Mogućnosti primene ovih inovacija su ogromne. Pre svega, one omogućuju generisanje novih TTS glasova. Naime, cena proizvodnje jednog TTS glasa veoma je velika, što se vidi i po tome što čak i najveće kompanije iz ove oblasti nemaju više od nekoliko glasova po jeziku, a za "manje" jezike najčešće samo po jedan glas. Sa druge strane, potreba za različitim TTS glasovima definitivno postoji – u interaktivnim govornim sistemima, video-igrama, aplikacijama za čitanje knjiga, audio-udžbenicima... Pored toga, postoji potreba i za adaptacijom sinteze na glas samog korisnika (za čitanje poruka sa društvenih mreža, IM i e-mail poruka, kao i pri korišćenju aplikacija za prevođenje govora) ili na glas neke druge osobe (u sinhronizaciji filmova korišćenjem glasova originalnih glumaca)
Objavljeno 15.06.2017.