pervoice

PROGETTI

PerVoice mette in campo quanto di meglio c'è nel settore del riconoscimento vocale. Innanzitutto il controllo sulla tecnologia di riconoscimento vocale Transcribe permette ampie possibilità di manovra per ottimizzare la raccolta del segnale vocale, la cancellazione del rumore e i modelli di linguaggio da utilizzare. Il risultato è una performance ai massimi livelli dello stato dell'arte tecnologico per il riconoscimento vocale per la lingua italiana.

PROGETTI REALIZZATI

SISTEMA DI RICERCA FONETICA DA AUDIO RADIOTELEVISIVO

PerVoice ha realizzato per Rai - Radiotelevisione Italiana, lo sviluppo di un sistema prototipale di trascrizione fonetica del parlato in lingua italiana. L'applicazione, che si basa su tecnologia di riconoscimento vocale Transcribe di FBK/RST*, consente a PerVoice di rivolgersi al settore dei media, attraverso un sistema per l'estrazione automatica di informazioni dal parlato contenuto in trasmissioni radiotelevisive.

PROGETTI DI R&S IN FASE DI ANALISI

Progetto "Ascolto" per il monitoraggio automatico delle trasmissioni radiotelevisive.

L'obiettivo del progetto è quello di realizzare un sistema che permetta di monitorare automaticamente tutto il parlato giornaliero in lingua italiana relativo alla programmazione radiotelevisiva nazionale. Possibili applicazioni sono le seguenti:
  • ricerca e statistica (ad es. classificazione dei tipi di trasmissione, verifica dei nomi di personaggio più ricorrenti, ricerche varie, ecc.). Attraverso un classificatore ad ontologie e ad un motore di ricerca evoluto è possibile richiedere varie informazioni desumibili da testo trascritto a partire dal parlato.
  • controllo (ad es. ricerca di parole che identificano contenuti violenti o volgari, verifica del rispetto dei tempi pubblicitari, verifica di violazioni delle norme regolamentari deducibili da testo parlato, ecc.). Si prevede l'individuazione e la segnalazione dei casi ritenuti sospetti in base alle regole di controllo sul testo trascritto a partire dal parlato. E' opportuno sottolineare che il sistema può essere addestrato ad identificare eventi acustici di vario tipo (ad es. spari, grida, oppure jingle pubblicitari).
  • archiviazione indicizzata, per tutti i programmi con un contenuto di parlato rilevante e riutilizzabile.

Il sistema, qualora venisse integrato con software per l'analisi semantica dell'immagine, sarebbe in grado di identificare non solo i contenuti vocali ma anche quelli desumibili dalla componente video della trasmissione. In questo modo, garantirebbe il monitoraggio completo ed automatico delle trasmissioni televisive.


Progetto "Comprendo" per l'accesso e la fruizione delle trasmissioni televisive da parte di tutti.

Una televisione senza barriere all'accesso deve consentire la fruizione del mezzo anche a quella parte della popolazione che ha impedimenti nel capire il parlato televisivo. Tra questi, le persone con problemi di udito, ma anche anziani e stranieri. L'obiettivo del progetto è quello di realizzare un sistema di riconoscimento del parlato televisivo di alta qualità, funzionante in tempo reale e che necessiti di un'attività minima di correzione (da svolgersi entro pochi secondi da parte di un solo operatore). In termini pratici, si tratta di applicare strumenti di ottimizzazione nell'interpretazione del parlato e strategie di correzione efficienti. Sarebbe in questo modo possibile predisporre un canale televisivo che, a distanza di alcuni secondi dall'originale, sia in grado di dare le medesime informazioni opportunamente sottotitolate.

(*) Fondazione "Bruno Kessler" di Trento, sezione Ricerca Scientifica e Tecnologica, già ITC/IRST.