Torniamo ad occuparci dell’intelligenza artificiale, dando uno sguardo oggi ai risultati di uno studio molto interessante, che sottolinea come l’AI potrà diventare una risorsa per la lettura del labiale, addirittura arrivando a superare quanto è in grado di fare l’essere umano: ma prima di raggiungere questo traguardo, bisognerà lavorare ancora parecchio sullo sviluppo di queste AI.
In effetti, secondo questo studio, in media gli esseri umani riconoscono correttamente circa una parole ogni dieci durante l’osservazione del labiale: il deep learning, in effetti, potrebbe fare meglio se si prende come riferimento quanto ottenuto dagli ingegneri, ad oggi, con lo sviluppo di intelligenze artificiali in grado di offrire un riconoscimento delle parole di livello accurato.
A sostenere questa tesi sono i ricercatori del laboratorio di intelligenza artificiale presso l’Università di Oxford, i quali hanno proprio realizzato a questo proposito un software – LipNet – il quale è stato in grado di far registrare risultati notevoli nel riconoscimento del labiale, con un livello di accuratezza che ha raggiunto il 93.4% contro solo il 52.3% ottenuto dalle persone.
Il software, nonostante si trovi agli stadi iniziali del suo sviluppo, è anche molto veloce nella trascrizione quasi in tempo reale del labiale mostrato su video dei quali è stato silenziato l’audio, ma al di là di questi risultati davvero notevoli, l’esperimento dei tecnici di Oxford presenta comunque dei limiti, a partire dal fatto che questa AI è stata addestrata e testata su uno specifico dataset.
Si tratta di GRID, una collezione di alcune decine di migliaia di brevi clip, ognuno dei quali dura circa 3 secondi, e nei quali viene sempre seguita una sequenza precisa nella pronuncia delle frasi: “comando”, “colore”, “preposizione”, “lettera”, “cifra” e “avverbio”, che di per sé potrebbero limitare la complessità del compito svolto dall’AI.
Quali risultati si potranno ottenere in futuro? I ricercatori di Oxford riusciranno ad ampliare le capacità dell’AI affinché riesca ad interfacciarsi con un labiale un po’ più esteso nella varietà dei costrutti e dei termini usati?
Per farvi un’idea del potenziale di LipNet, date un’occhiata al video qui di seguito: buona visione a tutti!