Un nuovo algoritmo sviluppato dal Massachusetts Institute of Technology è in grado di comprendere cosa sta facendo una persona in una sequenza video.
Il riconoscimento delle attività umane in un video è uno dei sogni dei motori di ricerca come quello che fa capo a YouTube. Grazie all’algoritmo sviluppato dal Mit, un giorno forse sarà infatti possibile cercare una determinata azione in miliardi di video senza che ci sia bisogno che questi vengano taggati tramite un intervento umano.
Ad esempio, potrebbe essere possibile cercare video di danza classica senza che nella descrizione degli stessi video ci sia alcun accenno all’argomento.
Potrebbe sembrare poca cosa, ma un contesto del genere rivoluzionerebbe il metodo con cui oggi si effettuano ricerche nei video non solo per quanto riguarda YouTube ma anche per tutti quei software di analisi automatica come quelli governativi o investigativi riguardanti i video ripresi da telecamere di sorveglianza.
I due ricercatori del Mit, Hamed Pirsiavash e Deva Ramanan, avrebbero quindi sviluppato un nuovo algoritmo informatico in grado di comprendere cosa stanno facendo gli esseri umani in una sequenza video.
Se per gli essere umani, anche quelli in tenera età, capire il tipo di azione che sta effettuando una persona è cosa semplice e finanche naturale, per un software comprendere il tipo di azione svolta da una persona in un video risulta essere di una complessità immane e, nonostante gli sforzi passati e i notevoli passi avanti nei software utilizzati per il riconoscimento facciale, poche novità sono state annunciate in questo particolare settore di ricerca.
Secondo i due ricercatori, una delle principali particolarità dell’algoritmo è il fatto che riesce ad essere scalare rispetto alle dimensioni dei file video. Precedentemente, infatti, se per esempio un video era 10 volte la dimensione di un altro, i più evoluti algoritmi per una ricerca impiegavano un tempo 1.000 volte più lungo. Con l’attuale algoritmo, invece, se un file è 10 volte le dimensioni di un altro, il tempo trascorso risulta essere solo 10 volte più lungo.
Altra caratteristica interessante risulta essere le previsioni che l’algoritmo riesce a fare riguardanti azioni parzialmente completate. Quest’ultima caratteristica potrebbe essere molto utile per gestire video in streaming.
Attraverso l’analisi parziale di una determinata azione non conclusa, l’algoritmo riesce ad effettuare una previsione calcolando le varie probabilità senza aspettare la fine della stessa azione.
Altro vantaggio di cui disporrebbe questo algoritmo è il bisogno ridotto di memoria, che risulterebbe fisso ed indipendente dal numero di fotogrammi che compongono il video. In questo modo, l’algoritmo sarà in grado di gestire flussi video di qualsiasi lunghezza o di qualsiasi dimensione.
Commenta