Citaj mi

Postignuti značajni rezultati u oblasti konverzije govora i promene stila govora

 

AlfaNumov tim tokom prošle i ove godine intenzivno radi na inovaciji koja se odnosi na mogućnost sinteze govora drugačijih karakteristika ukoliko je na raspolaganju:

  1. kvalitetan akustički model, odnosno, sinteza govora polaznih karakteristika;
  2. mali uzorak govora (od nekoliko sekundi do nekoliko minuta) drugačijih karakteristika.

Rezultati se mogu poslušati:

Uzorak originalnog govora Donalda Trampa:

Sintetizovani Trampov glas izgovara tekst:

Sintetizovani Obamin glas izgovara Trampov tekst:

 

Promena karakteristika govora odnosi se na:

  • Promenu identiteta govornika (početni akustički model odgovara glasu jednog govornika, a nakon konverzije dobija se glas nekog drugog govornika).
  • Promenu stila govora (početni akustički model odnosi se na neutralni stil govora, a nakon konverzije dobija se, primera radi, ekspresivan stil koji izražava neku od emocija – radost, ljutnja i sl.)

Primeri promene stila govora:

 

Mogućnosti primene ovih inovacija su ogromne. Pre svega, one omogućuju generisanje novih TTS glasova. Naime, cena proizvodnje jednog TTS glasa veoma je velika, što se vidi i po tome što čak i najveće kompanije iz ove oblasti nemaju više od nekoliko glasova po jeziku, a za "manje" jezike najčešće samo po jedan glas. Sa druge strane, potreba za različitim TTS glasovima definitivno postoji – u interaktivnim govornim sistemima, video-igrama, aplikacijama za čitanje knjiga, audio-udžbenicima... Pored toga, postoji potreba i za adaptacijom sinteze na glas samog korisnika (za čitanje poruka sa društvenih mreža, IM i e-mail poruka, kao i pri korišćenju aplikacija za prevođenje govora) ili na glas neke druge osobe (u sinhronizaciji filmova korišćenjem glasova originalnih glumaca)

Objavljeno 15.06.2017.

TTS Demonstracija

TTS demonstracija

ASR Demonstracija

ASR demonstracija


AlfaNum d.o.o.

Bulevar Vojvode Stepe 40 / 7

21000 Novi Sad

Tel: +381 21 475 0204