AlfaNum je inovativno preduzeće koje okuplja tim eksperata koji od 2003. godine nastoji da približi svet savremenih govornih tehnologija širokom krugu korisnika.

U dosadašnjem periodu realizovane su softverske komponente za visoko kvalitetno prepoznavanje i sintezu govora na srpskom, hrvatskom i crnogorskom jeziku. U razvoju ovih govornih tehnologija, koje su inicijalno bile namenjene slepima i slabovidima, AlfaNum je prvi u regionu. Više informacija o našim komponentama možete naći na stranama o proizvodima i uslugama, a kako one rade, možete videti kroz demonstracije.

Pored govornih tehnologija, AlfaNum se bavi razvojem i implementacijom proizvoda za osobe sa invaliditetom (OSI), kao i pozivnih centara, informacionih centara i baza podataka. Ako razmišljate o unapređenju svog sistema korišćenjem savremenih govornih tehnologija ili vam je potrebna neka druga stručna usluga, slobodno nam se obratite. Poverenje koje nam ukažete ispoštovaćemo u potpunosti.

Napredak računarske tehnologije u poslednjih desetak godina omogućio je da i obični PC računari dostignu potrebnu efikasnost za uspešno prepoznavanje i sintezu govora. Pored toga, njihova relativno niska cena učinila je prednosti govornih tehnologija dostupnim sve većem broju korisnika. Specifičnosti južnoslovenskih jezika su velike, te je razvoj govornih tehnologija za svaki od njih vrlo izazovan zadatak. Pored toga, potencijalna tržišta nisu velika, što je dodatni razlog iz kog se nijedna svetska kompanija donedavno nije odlučila da krene u razvoj prepoznavanja i sintezu govora na srpskom i njemu srodnim jezicima. AlfaNum je na vreme prepoznao ovu stratešku prednost, krenuo u sopstveni razvoj i ostvarivanje sledećih osnovnih ciljeva i aktivnosti:

  • Razvoj visoko kvalitetnog fleksibilnog  sintetizatora govora na osnovu teksta (TTS)
  • Razvoj automatskog prepoznavanja govora (ASR) na velikim rečnicima
  • Istraživanje i razvoj prepoznavanja emocija u govoru
  • Razvoj sistema za konverziju govora
  • Razvoj modula za obradu prirodnog jezika uključujući i upravljanje dijalogom
  • Primene razvijenih govornih tehnologija u zemljama zapadnog Balkana:
    • u multimodalnim sistemima za dijalog čovek-mašina (interaktivni govorni sistemi, pametni telefoni, pametne kuće,...)
    • u aplikacijama kao što su: čitanje teksta, diktiranje teksta, transkripcija govora
    • kao asistivne tehnologije: pomagala za osobe sa oštećenjem vida, govora ili sluha.

Naučno-istraživačkim radom u okviru AlfaNum tima bavi se grupa nastavnika i saradnika Katedre za telekomunikacije i obradu signala Fakulteta tehničkih nauka u Novom Sadu. Više detalja o tome možete naći na stranama projekta AlfaNum.

 

 

Najvažniji inovativni rezultati:

AlfaNum je razvio ASR za male i srednje rečnike (AlfaNumASR), kao i veoma kvalitetan TTS za srpski, hrvatski i crnogorski jezik (AlfaNumTTS).


Vredni govorni i jezički resursi za srpski i srodne južnoslovenske jezike su kreirani u okviru nekoliko projekata u poslednjoj deceniji. Pored tih resursa, određeni ekspertski sistemi i sistemi za mašinsko učenje, kao i odgovarajući matematički modeli, razvijeni su i primenjeni u prvim proizvodima na bazi govornih tehnologija u Srbiji, Hrvatskoj, Bosni i Hercegovini, Crnoj Gori i Severnoj Makedoniji - to su države u kojima se dominantno govore srodni južnoslovenski jezici. Na primer, mnogi web sajtovi pomoću AlfaNum TTS sintetizatora govora na osnovu teksta omogućuju posetiocima da preko računara ili pametnog telefona preslušavaju napisane vesti (nekoliko javnih medijskih servisa RTS, RTV), eUprava RS, Vlada RS, PIO Fond RS, Ministarstvo finansija RS i td. AlfaNumov TTS sintetizator koristi i Rea digitalni asistent Raiffeisen banke a.d. Beograd kao i prvi glasovni asistent na srpskom jeziku grčke kompanije MLS Innovation Inc. Na stotine licenci TTS-a podižu funkcionalnost u mnogim kontakt centrima od kojih je najveći u Talekomu a.d.


Više od deset godina slepi i slabovidi korisnici računara mogu da čuju bilo koji tekst prikazan na ekranu pomoću softvera anReader, zasnovanog na AlfaNumTTS-u, a sada im je dostupna i aplikacija koja koristi TTS na Android OS.


AlfaNumASR i AlfaNumTTS komponente omogućile su korišćenje osnovnih funkcionalnosti sintetizovanja (generisanja) govora i prepoznavanja (razumevanja) govora na srpskom. Veoma važan je i projekat koji je obuhvatio razvoj sistema za automatsko prepoznavanje govora ASR za diktiranje medicinskih nalaza za potrebe PIO Fonda, u cilju unapređenja rada lekara veštaka koji je završen 2020. godine.


Dalji razvoj prepoznavanja kontinualnog govora iz velikih rečnika, kao i naprednijeg i fleksibilnijeg sintetizatora govora, bazira se na pomenutim govornim i jezičkim resursima. Unapređene govorne tehnologije omogućiće znatno širu primenu kao i očuvanje srpskog i srodnih jezika u novom domenu govorne komunikacije – između čoveka i mašina.

 

Govor predstavlja osnovni način komunikacije među ljudima. Govorom čovek prenosi svoje misli i osećanja drugim ljudima na daleko složeniji način nego što to čini ijedna druga životinjska vrsta, pa je zato i njegov vokalni aparat najsloženiji i obuhvata mnoge organe, počev od pluća, preko dušnika, grkljana i glasnih žica, do usne šupljine sa jezikom, zubima i usnama, i nosne šupljine. Govor, posmatran kao zvučni signal, nosi u sebi mnoštvo informacija. Osim onoga što je rečeno, u njemu su sadržane i informacije o govorniku, njegovom polu, starosti, poreklu, a neretko i zdravstvenom i emocionalnom stanju.

Pri razumevanju onoga što je rečeno čovek koristi svoje poznavanje jezika i razumevanje konteksta. Percepcija govora nije stoga čisto auditorni proces, odnosno, leksička segmentacija nije urođena već naučena sposobnost. Pri svemu tome, čovek je u stanju da se usredsredi na jednog u mnoštvu govornika, da oceni odakle glas dolazi, a često i da razume ono što nije rečeno ali se podrazumeva.

Registrovanje dobijenih zvukova je prvi korak u percepciji govora. Mozak mora da odredi da li se zaista radi o zvukovima koji pripadaju govoru, jer se govor u mozgu obrađuje na drugačiji način nego što je to slučaj sa muzikom ili ambijentalnim šumom.

Mozak takođe mora da odredi da li je u pitanju jezik koji slušalac razume. Potom se vrši fonetska analiza sadržaja, i to u realnom vremenu, odnosno, ne čeka se da govornik završi da bi se dobila informacija o tome koji su glasovi izgovoreni. Pri ovome treba odbaciti negovorne elemente kao što su uzdasi, nakašljavanje i slično.

Rekonstrukcija sadržaja govorne celine vrši se na osnovu niza dobijenih glasova, ali vodeći računa i o semantičkom kontekstu, tako da će govorna celina najverovatnije biti ispravno rekonstruisana po značenju čak i ako određeni glasovi u njoj nedostaju ili su manje ili više oštećeni prilikom artikulacije, što je u spontanom govoru čest slučaj.

 

 

 

Lupa uveličava slova ključne reči

Programski paket Word Spotter namenjen je brzoj i efikasnoj pretrazi velike količine audio-materijala u potrazi za određenim ključnim rečima. Bazira se na tehnologiji prepoznavanja govora (ASR), ali je optimizovan za traženje željenih reči ili fraza, uz zanemarivanje ostalog govora, muzike i sl.

Uz naš proizvod Word Spotter, više nije potrebno "ručno" preslušavanje svih snimaka u potrazi za ključnom reči. Unese se proizvoljna reč ili fraza za pretragu, zatim se importuju zvučni fajlovi i softver će sam pronaći sve pojave tražene reči. Korisniku ostaje samo da prođe kroz listu rezultata i izabere ono što je tražio.

Program poseduje sledeće karakteristike:

  • Traženje proizvoljnog broja reči ili fraza
  • Reči i fraze se traže u svim željenim oblicima, bez potrebe da se oni zasebno unose (na primer, ako je uneseno "stranka", sistem će tražiti i "stranku", "stranci", itd.)
  • Rad sa različitim formatima zvučnih fajlova
  • Mogućnost pretrage neograničenog broja zvučnih fajlova
  • Mogućnost pokretanja više različitih pretraga u paraleli, u offline režimu (korisnik može da radi nešto drugo do završetka pretrage)
  • Preslušavanje i verifikovanje rezultata
  • Sistem radi brzo i pouzdano, podržava moderne multicore i multiprocesorske platforme
  • Podržava distribuciju na više računara i load balancing, što omogućava primenu u veoma zahtevnim okruženjima
  • Softver je moguće nabaviti u više oblika: sa sopstvenim GUI okruženjem, kao API ili biblioteku, integrisan sa nekim od naših proizvoda (Audiomemo registrofon)
  • U toku je integrisanje sa modulom za detekciju nivoa emocija, što će dodatno povećati mogućnosti pretrage i primenljivost softvera

     

 

Vlado Delić
Vlado Delić

Dr Vlado Delić (1964) je redovni profesor na Fakultetu tehničkih nauka Univerziteta u Novom Sadu i rukovodilac je na nekoliko razvojno-istraživačkih projekata na ovom fakultetu. Uža oblast rada profesora Delića je akustika, audio inženjerstvo i obrada signala, kao i razvoj govornih tehnologija. Šef je Katedre za telekomunikacije i obradu signala na FTN.

Rukovodilac je najvećih projekata u oblasti govornih tehnologija u Srbiji, uključujući i najveći regionalni naučno-razvojni projekat “Razvoj dijaloških sistema za srpski i druge južnoslovenske jezike”. Okupio je tim izuzetnih mladih stručnjaka i sa njima izgradio poziciju regionalnog lidera u razvoju i primeni govornih tehnologija.

Autor je i koautor više knjiga, 4 patenta i 10 tehničkih rešenja, kao i više od 250 naučnih radova objavljenih u naučnim časopisima i na konferencijama.



Darko Pekar
Darko Pekar

Dr Darko Pekar (1972), diplomirao je na Fakultetu tehničkih nauka Univerziteta u Novom Sadu. Jedan je od vodećih eksperata uspešnog razvojnog tima iz oblasti govornih tehnologija na FTN, u kojem je stekao bogato iskustvo u razvoju aplikacija, kao i u menadžmentu naučno-tehnoloških projekata.

Od 2003. godine je na poziciji direktora AlfaNuma, i u saradnji sa timom sa FTN upravlja zajedničkim radom i razvojem aplikacija iz oblasti govornih tehnologija. Autor je nekoliko uspešnih proizvoda i usluga zasnovanih na govornim tehnologijama. Iako je fokusiran na praktičan razvoj i izlazak na tržište ASR i TTS proizvoda, ima i bogatu naučnu produkciju - objavio je preko 70 radova na konferencijama i u naučnim časopisima, preko 20 tehničkih rešenja i 5 patenata.




Milan Sečujski
Milan Sečujski

Dr Milan Sečujski (1975) je vanredni profesor i istraživač na Fakultetu tehničkih nauka u Novom Sadu. Bavi se razvojem govornih tehnologija, posebno sa lingvističkog aspekta. Već više od 15 godina predvodi istraživačko-razvojni tim na FTN i u AlfaNumu u oblasti sinteze govora, a radi i na razvoju govorno-jezičkih resursa na koje se oslanjaju brojna razvijena rešenja u oblasti govornih tehnologija.

Njegovo poznavanje fonetike, morfologije, sintakse i prozodije južnoslovenskih jezika predstavlja važan oslonac tima sa FTN. Autor je i koautor preko 100 radova objavljenih u naučnim časopisima i na konferencijama, uključujući i 10 realizovanih tehničkih rešenja. Dobitnik je prestižne Pupinove nagrade Matice srpske za svoj magistarski rad u oblasti sinteze govora na srpskom jeziku.




Goran Đaković
Goran Đaković

Goran Đaković (1961) je po završetku američke srednje škole u Hagu (Holandija) upisao Elektrotehnički fakultet Univerziteta u Beogradu. Kompaniju Saga osnovao je 1989. godine, koja je pod njegovim vođstvom već skoro čitavu deceniju sistem integrator broj jedan u Srbiji (prema zvaničnim finansijskim izveštajima).

Gospodin Đaković poseduje dugogodišnje iskustvo u poslovanju sa istaknutim multinacionalnim kompanijama i sarađuje sa rukovodiocima najvišeg nivoa, kao i sa vladinim i političkim zvaničnicima. Član je Srpske asocijacije menadžera, predsednik je Upravnog odbora Udruženja informatičke delatnosti Privredne komore Beograda, član je Upravnog odbora Privredne komore Beograda i Privredne komore Srbije, kao i mnogih drugih poslovnih i stručnih udruženja.




Fathy Yassa
Fathy Yassa

Dr. Fathy Yassa (1950) ima preko 30 godina iskustva u istraživanju i razvoju ali i upravljanju malim, srednjim i velikim softverskim preduzećima, i njegov životni poziv je pretvaranje novih ideja u proizvode i njihov plasman na tržište.

Pre osnivanja SMI, strateškog partnera preduzeća AlfaNum, bio je direktor preduzeća Yvent Networks, koje je osnovao 2002. Prethodno je bio šef tehničkog razvoja u preduzećima Neomagic Corporation iPulsent Corporation, šef tehničkog i poslovnog razvoja u preduzeću Synopsys, šef razvoja proizvoda u preduzeću Motorola, kao i šef odeljenja za kodovanje i obradu slike. Autor je ili koautor preko 40 američkih i 2 evropska patenta.

Doktor je tehničkih nauka u oblasti elektrotehnike, a master i bečelor u oblastima matematike, kao i elektrotehnike i elektronike.

TTS Demonstracija

TTS demonstracija

ASR Demonstracija

ASR demonstracija


AlfaNum d.o.o.

Bulevar Vojvode Stepe 40 / 7

21000 Novi Sad

Tel: +381 21 475 0204