Un team internazionale di scienziati informatici presenterà, alla prossima IEEE Conference on Computer Vision and Pattern Recognition che si terrà questo mese, un nuovo algoritmo in grado, secondo i creatori, di comprendere se un video sta girando in avanti o all’indietro, con una precisione dell’80%.
Secondo William Freeman, professore di informatica e ingegneria al Massachusetts Institute of Technology (MIT), sarebbe abbastanza semplice comprendere e far comprendere ad un software se un video sta girando normalmente in avanti oppure sta andando all’indietro se si osservano, per esempio, le lancette di un orologio. L’obiettivo del progetto era però comprendere la freccia del tempo di una sequenza video considerando solo segnali di basso livello, ossia osservando solo il comportamento dell’ambiente. Se una cosa del genere risulta abbastanza facile per un essere umano, per un software è tutto un altro discorso e c’è bisogno di un algoritmo abbastanza complicato.
L’intelligenza artificiale dietro al software deve essere in grado di identificare tutte quelle sottili caratteristiche delle esperienze visive umane che ci fanno rendere conto della direzione della freccia del tempo. L’obiettivo a lungo termine della ricerca, secondo Freeman, è quello di capire la natura stessa del segnale temporale.
Per arrivare ad un algoritmo efficiente, Freeman i suoi colleghi hanno inizialmente affrontato la questione con tre diversi algoritmi. Questi sono stati testati su tre brevi video la cui freccia del tempo era stata già identificata prima dell’inizio dei test. Gli algoritmi dividevano ogni fotogramma in una griglia di centinaia di migliaia di quadrati e ognuno di questi veniva a sua volta diviso in una griglia più piccola, composta da 4×4 quadratini. Per ciascun quadratino di questa griglia più piccola, l’algoritmo determinava la direzione e la distanza dei gruppi di pixel che passavano da un fotogramma all’altro. Tramite questo processo, il software era in grado di generare una sorta di dizionario di circa 4.000 griglie 4×4, dove ogni quadrato in una griglia rappresentava particolari direzioni e gradi di movimento.
Attraverso questo dizionario, il software era in grado di comprendere se particolari combinazioni di “parole” potevano indicare un’azione che andava avanti oppure indietro nel tempo. La percentuale di successo era, in media, dell’80%.
Purtroppo, l’algoritmo funziona solo se il moto dell’oggetto può essere descritto da un’equazione lineare. Questi casi raramente coincidono con movimenti che vedono un intervento umano. L’algoritmo è tuttavia in grado di determinare se l’azione può essere descritta o meno da un’equazione lineare e, se la risposta è positiva, i suoi tentativi di previsione risultano nettamente migliori.
Approfondimenti
- Can we see the arrow of time? | MIT News Office (in inglese)
Commenta