Transkripcija snimaka

TRANSCRIPTA je sistem za automatsku transkripciju govora, odnosno, automatsko sastavljanje tekstualnih dokumenata na osnovu govora snimljenog mikrofonom (audio ili video snimaka). Može se koristiti za sastavljanje bilo kakvih transkripata – od televizijskih emisija, sastanaka, konferencija do sudskih ročišta.

Mogućnosti

TRANSCRIPTA sistem za transkripciju snimljenog audio materijala:

prepoznaje prirodan govor više govornika na neograničenom rečniku sa tačnošću od preko 90% na nivou reči, a preko 95% na nivou karaktera (primera radi, ako je umesto "komunikacija sa korisnicima" prepoznato "komunikacija sa korisnicama", to predstavlja tačnost od 67% na nivou reči ali 96% na nivou karaktera);
automatski postavlja znakove interpunkcije u prepoznati tekst (primera radi, rezultat prepoznavanja može biti "Stao je. Čuo je nešto, ali nije bio siguran šta." umesto "stao je čuo je nešto ali nije bio siguran šta");
podržava srpski jezik (ekavski i ijekavski izgovor), hrvatski i srodne jezike, kao i engleski, ruski i mnoge druge (poslati upit);
namenjena je za rad u offline režimu, odnosno za transkripciju ranije snimljenog audio materijala i do 20 puta brže od realnog vremena (transkript snimka od 1h dobija se za manje od 1min);
postoji i online verzija namenjena za transkripciju u realnom vremenu (npr. glasovne komande i upiti za pametna okruženja)
podržava mogućnost razdvajanja transkripcije po govorniku, odnosno nudi tekstualni izlaz u kom se tačno zna koji govornik je izgovorio koji niz reči;
uz pamćenje vremenskih odrednica uz transkript, omogućava brzu i jednostavnu pretragu audio i video materijala i arhiva, kao i lako i brzo ispravljanje transkripata u namenski kreiranom editoru.

TRANSCRIPTA se zasniva na klijent-server arhitekturi, što znači da prepoznavanje vrši centralizovani server, koji se može nalaziti ili u cloud-u (što je rešenje koje se preporučuje pojedinačnim korisnicima) ili biti fizički lociran u prostorijama institucije. Ovaj server prima snimke govora od klijentskih računara krajnjih korisnika i vraća im prepoznat tekst. Ovaj pristup ima dve važne prednosti:

snimci ne izlaze na javnu mrežu, čime je njihova privatnost apsolutno garantovana;
nije potrebna nabavka novih i jačih računara za krajnje korisnike, što značajno snižava cenu sistema u odnosu na slučaj kada se prepoznavanje vrši na njihovim računarima.

Potrebne hardverske karakteristike servera najviše zavise od broja maksimalnih istovremenih pristupa, odnosno željene brzine transkripcije (koliko puta je ona kraća u odnosu na trajanje samog materijala).

Demonstraciju transkripcije govora možete pogledati u sledećem videu:

Glavne razlike u odnosu na domenska rešenja za diktiranje (MEDICTA i IURISDICTA):

MEDICTA i IURISDICTA su optimizovane za specijalizovane rečnike (medicinski ili pravni) i tačnija su u okviru tih domena (npr. latinski izrazi, specifični akronimi). TRANSCRIPTA je tačnija u svim ostalim slučajevima, čak i kad je neko vrlo specifično narečje u pitanju.
MEDICTA i IURISDICTA očekuju da se interpunkcija diktira ("tačka", "navodnik"), ali zato obezbeđuju visok nivo kontrole izgleda diktiranog teksta. TRANSCRIPTA ne zahteva diktiranje interpunkcije, ali zato automatski ubacuje samo tačku, zarez i upitnik.
MEDICA i IURISDICTA koriste se pomoću sofisticiranog grafičkog interfejsa koji omogućava promenu rečnika, formatiranje ispisa, korišćenje šablona i slično. TRANSCRIPTA se koristi iz relativno jednostavne aplikacije ili preko obezbeđenih API-ja.

Transcripta - Sistem za automatsku transkripciju govora

TTS Demonstracija

ASR Demonstracija

Najnovije vesti