TRANSCRIPTA je sistem za automatsku transkripciju govora, odnosno, automatsko sastavljanje tekstualnih dokumenata na osnovu govora snimljenog mikrofonom (audio ili video snimaka). Može se koristiti za sastavljanje bilo kakvih transkripata – od televizijskih emisija, sastanaka, konferencija do sudskih ročišta.
Mogućnosti
TRANSCRIPTA sistem za transkripciju snimljenog audio materijala:
- prepoznaje prirodan govor više govornika na neograničenom rečniku sa tačnošću od preko 90% na nivou reči, a preko 95% na nivou karaktera (primera radi, ako je umesto "komunikacija sa korisnicima" prepoznato "komunikacija sa korisnicama", to predstavlja tačnost od 67% na nivou reči ali 96% na nivou karaktera);
- automatski postavlja znakove interpunkcije u prepoznati tekst (primera radi, rezultat prepoznavanja može biti "Stao je. Čuo je nešto, ali nije bio siguran šta." umesto "stao je čuo je nešto ali nije bio siguran šta");
- podržava srpski jezik (ekavski i ijekavski izgovor), hrvatski i srodne jezike, kao i engleski, ruski i mnoge druge (poslati upit);
- namenjena je za rad u offline režimu, odnosno za transkripciju ranije snimljenog audio materijala i do 20 puta brže od realnog vremena (transkript snimka od 1h dobija se za manje od 1min);
- postoji i online verzija namenjena za transkripciju u realnom vremenu (npr. glasovne komande i upiti za pametna okruženja)
- podržava mogućnost razdvajanja transkripcije po govorniku, odnosno nudi tekstualni izlaz u kom se tačno zna koji govornik je izgovorio koji niz reči;
- uz pamćenje vremenskih odrednica uz transkript, omogućava brzu i jednostavnu pretragu audio i video materijala i arhiva, kao i lako i brzo ispravljanje transkripata u namenski kreiranom editoru.
TRANSCRIPTA se zasniva na klijent-server arhitekturi, što znači da prepoznavanje vrši centralizovani server, koji se može nalaziti ili u cloud-u (što je rešenje koje se preporučuje pojedinačnim korisnicima) ili biti fizički lociran u prostorijama institucije. Ovaj server prima snimke govora od klijentskih računara krajnjih korisnika i vraća im prepoznat tekst. Ovaj pristup ima dve važne prednosti:
- snimci ne izlaze na javnu mrežu, čime je njihova privatnost apsolutno garantovana;
- nije potrebna nabavka novih i jačih računara za krajnje korisnike, što značajno snižava cenu sistema u odnosu na slučaj kada se prepoznavanje vrši na njihovim računarima.
Potrebne hardverske karakteristike servera najviše zavise od broja maksimalnih istovremenih pristupa, odnosno željene brzine transkripcije (koliko puta je ona kraća u odnosu na trajanje samog materijala).
Demonstraciju transkripcije govora možete pogledati u sledećem videu:
Glavne razlike u odnosu na domenska rešenja za diktiranje (MEDICTA i IURISDICTA):
- MEDICTA i IURISDICTA su optimizovane za specijalizovane rečnike (medicinski ili pravni) i tačnija su u okviru tih domena (npr. latinski izrazi, specifični akronimi). TRANSCRIPTA je tačnija u svim ostalim slučajevima, čak i kad je neko vrlo specifično narečje u pitanju.
- MEDICTA i IURISDICTA očekuju da se interpunkcija diktira ("tačka", "navodnik"), ali zato obezbeđuju visok nivo kontrole izgleda diktiranog teksta. TRANSCRIPTA ne zahteva diktiranje interpunkcije, ali zato automatski ubacuje samo tačku, zarez i upitnik.
- MEDICA i IURISDICTA koriste se pomoću sofisticiranog grafičkog interfejsa koji omogućava promenu rečnika, formatiranje ispisa, korišćenje šablona i slično. TRANSCRIPTA se koristi iz relativno jednostavne aplikacije ili preko obezbeđenih API-ja.