automi e il mondo
adv

I robot finalmente guardano il mondo in tre dimensioni

Camminavano come noi, mele e robot

È stato pubblicato il 15 giugno su Science il risultato del lavoro del DeepMind di Google. Il Team, diretto da Mohammad A. Eslani, ha implementato una nuova tecnica, la GQN (Genererative Query Network) che dimostra la capacità di apprendimento dei robots utilizzando autonomamente i propri sensori.

Per un organismo biologico è apparentemente banale percepire l’ambiente circostante e contestualizzare la propria posizione relativa: vedo una mela, allungo il braccio e la prendo nella mano. Questa semplice operazione è in realtà estremamente complessa per un computer.

Il robot deve digitalizzare l’immagine, estrarre i contorni della mela, dedurre che è un oggetto separato dallo sfondo, paragonarlo a tutti gli oggetti conosciuti e individuare(in base a forma e colore) che i pixel dell’immagine corrispondono ad una mela. A questo punto, occorre calcolare la posizione reciproca della mano robotica e della mela e muovere il braccio per afferrarla.

Dulcis in fundo, la mente del computer deve conoscere la densità della mela e calcolare con quanta forza stringere le dita sintetiche per non stritolarla o, al contrario, farsela sfuggire di mano. Alla fine riuscire nell’impresa è quasi un miracolo!

Parafrasando un famoso romanzo di fantascienza scritto da Clifford D. Simak, “Camminavano come noi”, gli automi stanno realmente apprendendo a muoversi autonomamente nel mondo a tre dimensioni.

Modelli matematici, reti neurali e automi autonomi

Gli algoritmi che consentono questa impresa esistono da tempo, ma è solo ora che la velocità dei processori permette di effettuare calcoli complessi necessari in pochi millisecondi, ottenendo un movimento fluido ed apparentemente “naturale”.

La modellazione matematica della realtà esterna al robot era infatti presente, ma in modalità precalcolata, i robot erano già capaci di muoversi autonomamente in un ambiente virtuale standard, “da laboratorio” per così dire. Oggi, al contrario, i robot, umanoidi o in forma di auto a guida autonoma, sono in grado di creare mappe tridimensionali dei dintorni in cui muoversi in tempo reale.

Il progresso nelle reti neurali, che siano realizzate in modalità hardware o via software, consente di simulare in parte i processi della visione umana. In pratica, le reti stesse vengono euristicamente addestrate a riconoscere gli oggetti, distinguendoli da sfondi anche poco contrastati o a calcolare le distanze e, soprattutto, identificare confini od ostacoli.

Visione in 2D o in 3D. Siamo davvero certi di come osserviamo il mondo?

Uno dei trucchi utilizzati deriva da una constatazione banale ma apparentemente inconsueta: gli uomini vedono le tre dimensioni in due sole dimensioni!

Il mondo esterno è ovviamente esteso in tre dimensioni, a cui si aggiunge la quarta, ovvero il tempo, per formare il continuum tetradimensionale, tuttavia, il modo in cui lo percepiamo è attraverso due superfici bidimensionali: le retine dei nostri occhi. In pratica, le distanze, ed i rapporti spaziali tra le cose sono proiettati come una semplice foto sulla matrice di sensori di una fotocamera, solo che, nel caso della visione umana, i sensori CCD(Charge-Coupled Device) sono sostituiti da cellule deputate alla visione.

Come riusciamo a creare nel nostro cervello un mondo a tre dimensioni partendo sostanzialmente da due istantanee catturate dalle nostre retine? In realtà la retina ha già al suo interno una serie di strati che organizzano le informazioni “row” catturate dagli strati superficiali e iniziano a processarle. La raffinata elaborazione è però localizzata nella corteccia visiva del nostro cervello, che associa elementi di immagine, ne crea associazioni e “dipinge” la scena del mondo attraverso i nostri occhi.

Robot furbi che imitano l’uomo

La visione sintetica, cioè il modo in cui i robot riescono a vedere il mondo, sfrutta il medesimo trucco inventato dall’evoluzione in milioni di anni. Le telecamere scattano milioni di istantanee digitali da angolazioni differenti e le inferiscono per creare modelli tridimensionali. In pratica, se vedo una mela non posso sapere se la mela è intera oppure è divisa a metà e girandole attorno troverei solo il nulla, tuttavia, il mio cervello la immagina intera e “suppone” che spostandomi di 90° potrò trovare la parte nascosta.Il computer effettua la medesima operazione e quindi utilizza scatti differenti per costruire un modello di oggetto nelle tre dimensioni. In questo modo l’inferenza di numerosissime slide a due dimensioni viene interpolata, cioè le parti mancanti vengono “costruite” a partire dalle parti conosciute. Un po’ come accade con le ecografie in 3D. Le reti neurali sono costruite ad immagine e somiglianza di quanto conosciamo del funzionamento dei neuroni umani e delle loro connessioni.

Hardware in silicio e hardware biologico

Le reti neurali specializzate in visione artificiale quindi adottano differenti algoritmi di clustering per estrarre i contorni di oggetti ripresi da angolazioni impreviste, massimizzando la probabilità di somiglianza. Il cervello umano funziona praticamente nel medesimo modo, solo che il nostro hardware e le connessioni neuronali umane sono cablate per svolgere un unico compito e, quindi, sono più veloci. Da tempo, infatti, si ritiene che esistano circuiti neuronali nel cervello umano specializzati per le differenti funzioni cosiddette superiori: linguaggio, visione, udito, collocazione spaziale, empatia e ciascuna delle caratteristiche che rendono la razza umana peculiare.

Einstein, Asimov e spazio-tempo

In realtà, noi percepiamo gli oggetti in movimento con grande precisione, tanto che siamo in grado di afferrare al volo la mela che ci viene lanciata senza lasciarla cadere: abbiamo calcolato distanze e movimento nelle quattro dimensioni. In questo il cervello sintetico è molto più bravo di noi, semplicemente perché infinitamente più rapido. Il computer di cui è equipaggiato un robot è in grado letteralmente di prevedere le traiettorie di molti oggetti contemporaneamente. I meccanismi fisiologici dell’intelligenza umana e quelli artificiali dell’intelligenza robotica, in tutte le sue forme, si intrecciano sempre più spesso, come file parallele di impronte sulla sabbia, tanto che ciascuna disciplina apprende sempre più dall’altra. La domanda che cominciamo a porci è quindi: se le impronte all’improvviso da due diventeranno una, è l’uomo che ha sollevato in braccio il robot o, invece, è accaduto il contrario? Asimov, forse, come per “i robot dell’alba” avrebbe profetizzato la seconda ipotesi.

Avatar
Nata a Napoli nel 1993, Federica Amodio è laureata magistrale in Scienze e Tecnologie Genetiche presso il centro di ricerche genetiche BIOGEM 110 con lode. La sua tesi di laurea, verte sui meccanismi di regolazione del gene Zscan4 da parte dell’acido retinoico nelle cellule staminali embrionali murine. L’espressione di questi geni regolano le prime fasi per lo sviluppo degli embrioni. Per lungo tempo ha collaborato con il centro per una pubblicazione scientifica inerente al suo progetto di tesi.