È il perenne “problema del cocktail party”: stare in una stanza piena di gente, con un drink in mano, cercando di sentire cosa dice il tuo altro ospite.
In effetti, gli esseri umani sono straordinariamente abili nel sostenere una conversazione con una persona filtrando le voci contrastanti.
Tuttavia, forse sorprendentemente, si tratta di un’abilità che la tecnologia fino a poco tempo fa non era in grado di replicare.
E questo è importante quando si tratta di utilizzare prove audio nei casi giudiziari. Le voci in sottofondo possono rendere difficile essere certi di chi sta parlando e cosa viene detto, rendendo potenzialmente inutili le registrazioni.
L’ingegnere elettrico Keith McElveen, fondatore e responsabile tecnologico di Wave Sciences, si interessò al problema mentre lavorava per il governo degli Stati Uniti su un caso di crimini di guerra.
“Quello che stavamo cercando di capire era chi aveva ordinato il massacro di civili. Alcune delle prove includevano registrazioni con un gruppo di voci che parlavano tutte insieme – e fu allora che seppi quale fosse il “problema del cocktail party”,” dice.
“Ero riuscito a eliminare dal parlato il rumore come i rumori delle automobili, i condizionatori d’aria o i ventilatori, ma quando ho iniziato a provare a rimuovere il parlato dal parlato, si è rivelato non solo un problema molto difficile, ma uno dei classici problemi difficili nell’acustica.
“I suoni rimbalzano in una stanza ed è matematicamente orribile da risolvere.”
La risposta, dice, è stata quella di utilizzare l’intelligenza artificiale per cercare di individuare ed eliminare tutti i suoni concorrenti in base alla loro provenienza originaria in una stanza.
Ciò non significa solo altre persone che potrebbero parlare: c’è anche una notevole quantità di interferenze derivanti dal modo in cui i suoni vengono riflessi in una stanza, con la voce dell’oratore target che viene ascoltata sia direttamente che indirettamente.
In perfetta anecoica camera – totalmente esente da echi – basterebbe un microfono per altoparlante per captare quello che dicono tutti; ma in una stanza reale, il problema richiede anche un microfono per ogni suono riflesso.
McElveen ha fondato Wave Sciences nel 2009, sperando di sviluppare una tecnologia in grado di separare le voci sovrapposte. Inizialmente l’azienda utilizzava un gran numero di microfoni nel cosiddetto array beamforming.
Tuttavia, il feedback dei potenziali partner commerciali è stato che il sistema richiedeva troppi microfoni rispetto al costo in questione per fornire buoni risultati in molte situazioni e non avrebbe funzionato affatto in molte altre.
“Il ritornello comune era che se fossimo riusciti a trovare una soluzione che affrontasse queste preoccupazioni, sarebbero stati molto interessati”, afferma McElveen.
E aggiunge: “Sapevamo che doveva esserci una soluzione, perché puoi farlo anche con solo due orecchie”.
L’azienda ha finalmente risolto il problema dopo 10 anni di ricerca finanziata internamente e ha depositato una domanda di brevetto nel settembre 2019.
Ciò che avevano ideato era un’intelligenza artificiale in grado di analizzare il modo in cui il suono rimbalza in una stanza prima di raggiungere il microfono o l’orecchio.
“Catturiamo il suono non appena arriva a ciascun microfono, torniamo indietro per capire da dove proviene e poi, in sostanza, sopprimiamo qualsiasi suono che non potrebbe provenire dal punto in cui è seduta la persona”, afferma McElveen.
L’effetto è per certi aspetti paragonabile a quando una fotocamera mette a fuoco un soggetto e sfoca il primo piano e lo sfondo.
“I risultati non sembrano cristallini quando puoi usare solo una registrazione molto rumorosa da cui imparare, ma sono comunque sorprendenti.”
La tecnologia ha avuto il suo primo utilizzo forense nel mondo reale in un caso di omicidio negli Stati Uniti, dove le prove che è stata in grado di fornire si sono rivelate fondamentali per le condanne.
Dopo che due sicari furono arrestati per aver ucciso un uomo, l’FBI volle dimostrare che erano stati assunti da una famiglia alle prese con una disputa sulla custodia dei figli. L’FBI fece in modo di ingannare la famiglia facendogli credere di essere stata ricattata per il loro coinvolgimento, e poi si sedette per vedere la reazione.
Mentre per l’FBI era ragionevolmente facile accedere a messaggi e telefonate, di persona gli incontri in due ristoranti erano una questione diversa. Ma il tribunale ha autorizzato l’uso dell’algoritmo di Wave Sciences, il che significa che l’audio è passato dall’essere inammissibile a una prova cruciale.
Da allora, altri laboratori governativi, anche nel Regno Unito, lo hanno sottoposto a una serie di test. L’azienda sta ora commercializzando la tecnologia all’esercito americano, che l’ha utilizzata per analizzare i segnali sonar.
Potrebbe anche avere applicazioni nelle trattative con ostaggi e negli scenari di suicidio, afferma McElveen, per garantire che entrambe le parti di una conversazione possano essere ascoltate, non solo il negoziatore con un megafono.
Alla fine dello scorso anno, la società ha rilasciato un’applicazione software che utilizza il suo algoritmo di apprendimento per l’utilizzo da parte dei laboratori governativi che eseguono analisi forensi e acustiche audio.
Alla fine mira a introdurre versioni su misura del suo prodotto da utilizzare in kit di registrazione audio, interfacce vocali per auto, altoparlanti intelligenti, realtà aumentata e virtuale, sonar e dispositivi per apparecchi acustici.
Quindi, ad esempio, se parli con la tua macchina o con l’altoparlante intelligente, non importerebbe se ci fosse molto rumore intorno a te, il dispositivo sarebbe comunque in grado di capire cosa stavi dicendo.
Secondo l’educatrice forense Terri Armenta dell’Accademia di scienze forensi, l’intelligenza artificiale viene già utilizzata anche in altri settori della medicina legale.
“ML [machine learning] i modelli analizzano i modelli vocali per determinare l’identità di chi parla, un processo particolarmente utile nelle indagini penali in cui le prove vocali devono essere autenticate”, afferma.
“Inoltre, gli strumenti di intelligenza artificiale possono rilevare manipolazioni o alterazioni nelle registrazioni audio, garantendo l’integrità delle prove presentate in tribunale.”
E l’intelligenza artificiale si è fatta strada anche in altri aspetti dell’analisi audio.
Bosch dispone di una tecnologia chiamata SoundSee, che utilizza algoritmi di elaborazione del segnale audio per analizzare, ad esempio, il suono di un motore per prevedere un malfunzionamento prima che si verifichi.
“Le tradizionali capacità di elaborazione del segnale audio non hanno la capacità di comprendere il suono nel modo in cui lo facciamo noi esseri umani”, afferma il dottor Samarjit Das, direttore della ricerca e della tecnologia presso Bosch USA.
“L’intelligenza artificiale audio consente una comprensione più profonda e un’interpretazione semantica del suono delle cose intorno a noi meglio che mai, ad esempio i suoni ambientali o i segnali sonori emanati dalle macchine.”
Test più recenti dell’algoritmo di Wave Sciences hanno dimostrato che, anche con solo due microfoni, la tecnologia può funzionare bene quanto l’orecchio umano – meglio se si aggiungono più microfoni.
E hanno rivelato anche altro.
“I calcoli di tutti i nostri test mostrano notevoli somiglianze con l’udito umano. Ci sono piccole stranezze su ciò che il nostro algoritmo può fare e sulla precisione con cui può farlo, che sono sorprendentemente simili ad alcune delle stranezze che esistono nell’udito umano”, afferma McElveen .
“Sospettiamo che il cervello umano possa utilizzare la stessa matematica: che nel risolvere il problema del cocktail party, potremmo esserci imbattuti in ciò che sta realmente accadendo nel cervello.”