Prima parte: fondamenti teorici

Download Report

Transcript Prima parte: fondamenti teorici

Devis Pantano DRAFT Gennaio 2016
Proposta di alcuni nuovi strumenti per comprendere
la logica dei processi cognitivi e per superare alcuni
limiti dell’attuale approccio al deep-learning
Devis Pantano
Draft
Presentazione
Le attuali tecniche per gestire l’apprendimento di agenti intelligenti, composti
da reti neurali profonde, hanno mostrato una sorprendente efficacia se applicate
ad ambienti di complessità limitata (V. Mnih, D. Hassabis & alt. Nature 2015). Ma
esse non sembrano direttamente applicabili per costruire un vero sistema
cognitivo che sia in grado di operare in una ambiente complesso come il mondo
che ci circonda. In questo lavoro propongo un nuovo approccio alla cognizione
che, partendo da un’analisi dei suoi fondamenti, ricava importanti indicazioni
per comprendere alcuni aspetti particolarmente importanti della logica generale
dei processi cognitivi naturali. Queste idee forniscono degli strumenti che
consentono di proporre un modello generale della cognizione e di stendere il
progetto per la realizzazione di sistemi cognitivi artificiali potenzialmente
capaci di forme di intelligenza avanzata. Grazie a questi strumenti appare
possibile scomporre il problema complessivo della realizzazione di un sistema
cognitivo in un insieme di sotto-problemi. Questi ultimi appaiono
sostanzialmente già affrontabili con le tecniche sviluppate recentemente nel
campo del deep-learning.
1
Devis Pantano DRAFT Gennaio 2016
Sommario
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
1.11
1.12
1.1
Cosa manca al deep-learning? ................................................................... 2
E’ possibile identificare dei principi generali per la cognizione? .............. 5
Alcune prime anticipazioni sulla presente proposta per i principi
fondamentali della cognizione .................................................................... 7
Primo principio: i limiti fondamentali del conoscibile e il concetto di
struttura..................................................................................................... 10
Secondo principio: cosa sono le regole .................................................... 16
Terzo principio: criterio di emergenza ..................................................... 21
Regole operazionali e regole associative .................................................. 28
Le regole utili vincolano, ma non troppo, e sono emergenti..................... 31
Servono rappresentazioni strutturali di buona qualità ............................. 34
Il ruolo centrale del riconoscimento ......................................................... 36
Il problema del confronto tra strutture ..................................................... 38
Alcuni accenni su come è fatto, come funziona e come si può costruire un
sistema cognitivo ....................................................................................... 46
Cosa manca al deep-learning?
Recentemente, grazie all’approccio deep-learning, sono stati ottenuti importanti
e sorprendenti risultati nel campo delle reti neurali e degli agenti intelligenti.
Sono state sviluppate reti neurali in grado di riconoscere, con buona efficienza,
la presenza di specifici oggetti entro immagini fotografiche. Sono stati realizzati
agenti intelligenti capaci di apprendere autonomamente ad “osservare” i
movimenti delle figure entro alcune tipologie di videogiochi e a gestire le
azioni di gioco con efficacia paragonabile, e in certi casi superiore, rispetto
quanto sa fare un essere umano. Sono state realizzare reti neurali profonde,
connesse con robot semi-antropomorfi, in grado di apprendere ad osservare
degli oggetti reali e “capire” quali movimenti usare per afferrarli.
Chi ha seguito gli sviluppi dell’intelligenza artificiale comprende che si tratta di
risultati davvero notevoli che aprono la strada a moltissime applicazioni. I
risultati ottenuti sono in parte dovuti al miglioramento delle tecniche di
composizione e addestramento di reti neurali nonché alla disponibilità di
potenza di calcolo a basso costo fornita da calcolatori ad architettura parallela.
Ma uno degli aspetti più importante è costituito dalla struttura gerarchica che
queste reti presentano e dalla loro capacità di astrarre. Tuttavia diversi
ricercatori hanno segnalato che permangono importanti lacune teoriche su
questi punti. In effetti a tuttora manca una teoria soddisfacente dell’astrazione,
2
Devis Pantano DRAFT Gennaio 2016
come manca una teoria soddisfacente del funzionamento complessivo della
cognizione e dei suoi principi fondamentali. Vi è una certa evidenza che le
tecniche che hanno permesso di raggiungere i risultati menzionati forniscono in
realtà solo una parte degli strumenti teorici necessari per capire cosa stanno
realmente facendo queste reti neurali profonde. Forniscono gli strumenti
matematici per capire alcuni degli aspetti del loro funzionamento e forniscono
delle tecniche efficaci per gestire il loro apprendimento. Esse però non
sembrano fornire tutti gli strumenti necessari per capirne il funzionamento
complessivo. Cosa sta succedendo globalmente al loro interno? Perché queste
reti devono essere profonde? Può essere che entro di esse stia avvenendo
qualcosa di importante che non riusciamo ancora a cogliere?
Altro punto importante è che gli strumenti teorici fino ad ora disponibili per il
deep-learning non ci dicono molto su come “andare altre”, nel senso che non ci
spiegano come si fa a mettere assieme più reti neurali per realizzare un sistema
intelligente completo. In effetti, almeno per ora, essi non ci dicono come si fa
ad utilizzare i riconoscimenti visivi per costruire rappresentazioni intelligenti
dell’ambiente circostante comparabili con quelle che si realizzano nella nostra
mente. Inoltre esse non mostrano come passare dalle abilità motorie più basilari
e rudimentali all’acquisizione di capacità di pianificazione di comportamenti
complessi utili per affrontare e risolvere problemi espressi in maniera astratta.
Perché ancora non capiamo queste cose? Perché sono estremamente complesse?
Perché la ricerca nel campo del deep-learning è appena iniziata? O per altri
motivi?
Posso ben argomentare che i motivi per i quali ancora abbiamo difficolta su
questi punti, e per i quali non capiamo come funziona globalmente la
cognizione, non dipendono dall’eccessiva complessità dei fenomeni coinvolti,
ma dal fatto che sono mancati gli strumenti concettuali e metodologici corretti
per affrontare il problema. È un po’ come se si cercasse di edificare la fisica
senza gli strumenti matematici essenziali, o se si cercasse di comprendere
l’origine delle specie senza aver compreso il meccanismo di selezione naturale.
Credo che alcuni dei concetti che sono utilizzati nella fondazione di discipline
quali la logica e l’informatica teorica non siano del tutto corretti, ma siano anzi
in parte fuorvianti poiché inducono a sviluppare dei modelli mentali che, se pur
funzionali per molti compiti, impediscono di cogliere nella corretta prospettiva
alcuni aspetti essenziali dei fenomeni cognitivi.
Sono riuscito a formulare alcuni strumenti che si sono dimostrati
particolarmente efficaci. Grazie ad essi mi è stato possibile identificare alcuni
principi generali che appaiono governare la totalità dei processi cognitivi.
Sfruttando le implicazioni di questi principi sono riuscito a descrivere un
modello potenzialmente completo di sistema cognitivo. Combinando questi
modelli e i recenti risultati ottenuti nel campo dell’apprendimento automatico
su reti neurali profonde mi è stato possibile stendere un progetto di ricerca
3
Devis Pantano DRAFT Gennaio 2016
particolarmente promettente per superare gli attuali limiti degli agenti
intelligenti.
In questo documento intendo illustrare, in modo riassuntivo e conciso, una parte
dei risultati che ho ottenuto. Il suo scopo principale è mostrare che le idee che
ho sviluppato possiedono delle interessanti potenzialità per lo sviluppo di una
teoria per la cognizione ma soprattutto per lo sviluppo di sistemi di intelligenza
artificiale.
Nella prima parte di questo documento espongo, in maniera semplificata, la
proposta per alcuni strumenti che permettono di precisare, ben definire, e
trattare in modo innovativo, alcuni concetti chiave per i quali solitamente ci
limitiamo ad usare delle concezioni intuitive inadeguate. Tra gli altri, sono
particolarmente importanti i concetti di struttura, di regola, di regolarità e di
fenomeno emergente.
Con l’ausilio di questi strumenti posso proporre l’ipotesi che all’interno di una
parte importante delle reti neurali profonde avvengano dei processi di analisi
strutturale, ben descrivibili, che hanno come scopo l’esplicitazione di quelle
informazioni (strutturali) che permettono di rendere palese la presenza di
regolarità altrimenti nascoste, nonché di scoprire, codificare ed implementare
regole emergenti che altrimenti non sarebbero identificabili. Si può
argomentare che queste regole sono fondamentali in quanto costituiscono il
“motore” della nostra attività cognitiva e quindi una delle componenti
essenziali della nostra conoscenza del mondo.
Gli strumenti che permettono di precisare il concetto di struttura consentono di
definire delle operazioni di derivazione strutturale. Grazie a queste si possono
distinguere strutture di base e strutture derivate da queste. Si può ben
argomentare che la grande maggioranza delle informazioni che un sistema
cognitivo riceve dall’ambiente (diverse dal linguaggio) sono strutturali e non
simboliche, e che si tratta inoltre di strutture di base. L’importanza di questi
punti si manifesta nelle operazioni di confronto. In effetti nell’attività cognitiva
si devono continuamente confrontare informazioni strutturali. Ad esempio si
devono confrontare le nuove informazioni ricevute dai sensi con altre acquisite
in precedenza e opportunamente memorizzate nelle nostre reti nervose. Le
operazioni di confronto permeano ogni processo cognitivo, sono onnipresenti, e
costituiscono un meccanismo cruciale. Ebbene si può mostrare che nella
pratica non confrontiamo quasi mai strutture di base, bensì strutture derivate. Si
può mostrare che solo eseguendo il passaggio alle strutture derivate è possibile
eseguire operazioni di confronto efficienti e con queste scoprire la presenza di
regolarità importanti che altrimenti non sarebbero rilevabili.
Ho raccolto alcune delle idee principali in una monografia (D. Pantano 2015).
Si tratta di un documento in continuo aggiornamento e che per alcuni aspetti è
un po’ difficile da seguire: sia per la natura dei temi trattati, sia per i miei limiti
4
Devis Pantano DRAFT Gennaio 2016
personali nella capacità di esporre. In questo lavoro ne propongo una sintesi
focalizzando l’attenzione su alcuni aspetti salienti. Il lettore interessato ad
alcuni approfondimenti può consultarla.
1.2
E’ possibile identificare dei principi generali per la cognizione?
Certamente non sono mancate in passato varie proposte tese ad individuare dei
possibili principi che regolano e determinano i fenomeni cognitivi. Molte di
queste sono state accompagnate da teorie e modelli. Particolarmente
interessante è la sintesi proposta recentemente da K. Friston, dell’università di
Londra [Friston 2006-2010]. Egli individua un principio generale,
formalizzabile matematicamente, per spiegare aspetti importanti del
funzionamento del cervello. Secondo la proposta di Friston il cervello tende a
minimizzare una particolare grandezza, esprimibile analiticamente, chiamata
“energia libera” (variazionale) in virtù delle sue analogie formali con
l’omonima grandezza usata in fisica.
La teoria di Friston è sicuramente elegante. Indubbiamente merita di essere
approfondita e sviluppata (su di essa tornerò più avanti). Tuttavia credo che la
sua reale capacità esplicativa presenti alcuni limiti e non metta a disposizione
un quadro concettuale e metodologico completo. Il problema, ancora una volta,
è strumentale. Il principio proposto da Friston appare applicabile ai sistemi
biologici ed è, in certo senso, un principio che cerca di inquadrare, entro una
unica formulazione matematica, “le finalità”, “gli obbiettivi”, dei processi
cognitivi che avvengono nel cervello.
Nelle prossime pagine propongo altri principi che riguardano aspetti più
fondazionali e disincarnati, essi riguardano la natura delle entità che usiamo per
costruire le rappresentazioni del mondo, nonché la natura delle inferenze
basilari e dei fenomeni che le rendono possibili.
Attualmente per descrivere le rappresentazioni interne alla mente si usano vari
concetti e vari strumenti sviluppati in discipline quali: la logica, la matematica,
la linguistica, l’informatica teorica. Si usano concetti come quelli di:
rappresentazioni pittoriche, analogiche, subsimboliche, oppure si parla in
termini di simboli e di proposizioni. Molti autori usano il concetto generico di
“variabili interne”. Altri autori parlano in termini di pattern di attivazione di reti
neurali, di feature, o anche di simboli percettivi. Ritengo che nessuno di questi
concetti, e di questi strumenti, sia idoneo a descrivere in modo completo la
natura delle rappresentazioni cognitive e la loro logica fondamentale. Servono
strumenti diversi.
Posso ben argomentare che per comprendere la logica profonda dei processi
cognitivi è necessario mettere a punto gli strumenti che consentano di precisare,
e trattare in maniera adeguata, alcuni altri concetti per i quali solitamente ci
accontentiamo di una comprensione solo intuitiva. I punti salienti della
5
Devis Pantano DRAFT Gennaio 2016
formulazione che propongo derivano, per buona parte, dal tentativo di trovare
gli strumenti per precisare, con sufficiente rigore e generalità, i concetti di
struttura, di regola, e di fenomeno emergente.
Ritengo sia importante analizzare il concetto di struttura e andare oltre la sua
concezione intuitiva perché questa, da sola, non permette di comprendere alcuni
punti fondamentali. Per fare un parallelo, la situazione è simile alla differenza
che c’è tra avere un concetto intuitivo di quantità, come potevano averlo gli
uomini prima della scoperta dei rudimenti sui numeri, e essere invece in grado
di usare la nozione di numero in modo appropriato. Il concetto di struttura è
usato in modo intuitivo pressoché da tutti, ma ben pochi si sono presi la briga di
analizzarlo e di cercare di precisarlo, eccetto alcuni matematici e alcuni filosofi.
Un punto delicato della faccenda è che non è sufficiente trovare semplicemente
“un metodo”, tra i vari possibili, che consenta di formalizzare questo concetto,
ma è importante trovarne uno adeguato. Serve un metodo che sia in grado di
cogliere in modo efficace, ed anche astuto, i meccanismi cruciali del “fenomeno
delle corrispondenze strutturali”, vale a dire di quelle corrispondenze che
possono esistere tra le strutture di entità e di fenomeni fisicamente distinti.
Questo perché sono proprio queste corrispondenze a permettere di costruire
rappresentazioni interne degli oggetti e dei fenomeni del mondo esterno.
A mio avviso le formalizzazioni che sono state proposte fino ad ora non
consentono di cogliere pienamente questi meccanismi e per questo motivo
tendono a portare fuori strada.
Ho sviluppato una metodologia per descrivere le strutture che consente di
lavorare con sufficiente precisione, che funziona bene per gli oggetti e i
fenomeni della nostra percezione quotidiana, e che è in grado di cogliere alcuni
aspetti essenziali che ritengo non siano stati analizzati nel modo opportuno. Si
tratta di quegli aspetti che consentono di eseguire delle operazioni che credo sia
utile chiamare di derivazione strutturale. Ritengo che queste operazioni siano
importanti perché consentono di passare, in modo naturale, da rappresentazioni
più basilari ad altre più flessibili e astratte.
Sappiamo che le rappresentazioni che si formano a ridosso dei sensi sembrano
di tipo “pittorico” (da alcuni autori sono chiamate subsimboliche o anche
analogiche). Ebbene, credo di poter mostrare che tali rappresentazioni
“pittoriche” sono in realtà di tipo strutturale.
Partendo da delle rappresentazioni strutturali di buona qualità, tramite le citate
operazioni derivazione, è possibile ricavarne delle altre che costituiscono delle
astrazioni strutturali delle prime. Si può mostrare che le operazioni di
derivazione strutturale possono essere ripetute più volte generando così una
stratificazione gerarchica di altre rappresentazioni che sono gradualmente più
astratte. Queste operazioni contribuiscono a evidenziare alcune proprietà
contenute implicitamente nelle rappresentazioni di partenza. Esse aiutano
quindi di “rendere esplicite” tali proprietà. Si può mostrare che nel far questo
6
Devis Pantano DRAFT Gennaio 2016
si ottengono dei nuovi oggetti che sono comunque sempre delle
rappresentazioni strutturali e non di altro tipo. È probabile che queste
operazioni siano molto simili (forse identiche) a una parte di quelle utilizzate
dalla nostra mente, dalle nostre reti nervose, per analizzare e organizzare le
informazioni ricevute dai sensi, nonché per costruire gradualmente le
concettualizzazioni astratte.
1.3
Alcune prime anticipazioni sulla presente proposta per i principi
fondamentali della cognizione
Credo si possano individuare almeno tre principi generali che, combinati con
gli strumenti che propongo, portano a identificare la maggior parte degli altri.
Penso possa essere utile, per questo capitolo introduttivo, anticiparli in “forma
compatta” in modo che il lettore possa costruirsene una prima idea. Si tenga
però presente che per esprimerli ed illustrarli in modo corretto e completo sono
necessari i concetti e i metodi illustrati nei prossimi capitoli.
Questi tre principi possono essere così riassunti:
1. Il conoscibile del mondo esterno si limita alle strutture degli oggetti (e
dei fenomeni), e alle operazioni computazionali possibili su queste
strutture. Al di là di tali strutture, e di tali operazioni, non c’è alcuna
realtà esterna conoscibile.
2. Ogni regolarità (e ogni regola) è sempre riconducibile a coincidenze
tra strutture.
Ogni regola (e ogni legge) consiste in una prescrizione strutturale, o
delle operazioni che si possono (o si devono) eseguire, o dei risultati
che si devono ottenere.
3. Le strutture emergenti consistono in strutture derivate che manifestano
qualche fenomeno di dipendenza funzionale (fisica) con altre. Sono
regole emergenti quelle che si applicano a strutture emergenti.
Si può ben argomentare che sono proprio tali regole emergenti quelle che il
nostro cervello usa per costruire la cognizione del mondo esterno. Esse
costituiscono la spina dorsale della nostra conoscenza della realtà. Queste
regole non compaiono a livello di rappresentazioni delle strutture che possiamo
chiamare “di base”. Per poterle identificare è essenziale passare ad altre
rappresentazioni che sono estratte dalle prime. Per questo motivo le operazioni
di esplicitazione e di derivazione strutturale sono essenziali, senza di esse
sarebbe impossibile identificare le regole emergenti. Si può mostrare che è
7
Devis Pantano DRAFT Gennaio 2016
essenzialmente questo il motivo per il quale le rappresentazioni interne del
mondo esterno devono essere gerarchizzate. Si può ben argomentare che è per
questo motivo che le reti neurali devono essere profonde.
Possiamo quindi proporre anche il seguente:
4. La cognizione è resa possibile dal fatto che dal substrato di leggi fisiche
e matematiche fondamentali, che governano il mondo fisico a livello
microscopico, sono estraibili una grande quantità di regole emergenti.
Il “trucco” fondamentale della cognizione consiste nello sfruttare
questa tipologia di regole.
Si può mostrare che queste regole sono, per la maggior parte, regole associative
e probabilistiche. Per questo motivo esse danno origine a delle strutture
inferenziali simili alle reti di credenze (reti bayesiane).
Forse, a un primo impatto, potrebbe sembrare che alcuni dei principi sopra
enunciati non dicano granché. Essi potrebbero sembrare troppo generici e non
sufficientemente ben definibili per poter ricavarne indicazioni sul
funzionamento dei processi cognitivi. Mi permetto di far notare che anche i
principi della dinamica se espressi solo verbalmente non comunicano molta
informazione a chi non è provvisto degli strumenti matematici per tradurli in
equazioni, numeri calcoli ecc… Per una persona che non conosce i metodi della
matematica, l’affermazione che: “quando agisce una forza, si ha
un’accelerazione inversamente proporzionale alla massa”, non dice molto. Se
non avessimo gli strumenti per associare dei numeri ai concetti di forza, massa,
e accelerazione e per tradurre il tutto in equazioni, la sola descrizione “verbale”
del secondo principio della dinamica sarebbe assai poco utile! Ebbene ritengo
che la stessa cosa avvenga anche per i principi sopra enunciati. Ad un primo
impatto essi non comunicano molte informazioni finché non si hanno gli
strumenti concettuali e metodologici che consentono di tradurli nelle
rappresentazioni e nelle procedure opportune. Con gli strumenti opportuni si
può capire come questi principi possono essere precisati e come da essi si
possano inferire molte informazioni importanti sul funzionamento della
cognizione.
Illustrerò i punti salienti di tali strumenti, anche se in modo semplificato, nei
prossimi paragrafi. Per una trattazione più estesa si vedano i prossimi capitoli.
I principi appena introdotti, possono essere confrontati con le idee proposte da Friston
e con altre elaborate da vari autori, anche se in modo meno formale e più intuitivo.
Sono, ad esempio, particolarmente interessanti le idee espresse, già alcuni anni fa, da
Valentino Brainterberg come illustrato in un recente lavoro di G. Bocciglione [G.
Boccignone 2013]. Su alcune di queste tornerò più avanti.
Il principio secondo cui il cervello cerca di minimizzare l’energia libera variazionale, è
stato formalizzato da Karl Friston e alcuni colleghi dell’università di Londra [Friston,
8
Devis Pantano DRAFT Gennaio 2016
Kilner, Harrison 2006], sviluppando idee proposte da Geoffrey Hinton e Douglas
Hosftater, in ricerche nel campo delle reti neurali e dell’intelligenza artificiale
[Sengupta, Steimmler, Friston 2013]. A suo tempo il concetto di energia libera
variazionale è stata usato da R. Feynman nel 1972 come metodo per semplificare
alcuni problemi complessi di calcolo delle probabilità [Feynman 1998]. Hinton e
colleghi, hanno notato che, in alcune tipologie di reti neurali (di Hopfiled), alcuni dei
passaggi chiave dei processi di apprendimento sono quantificabili con una funzione
costo, matematicamente equivalente all’energia libera variazionale usata da Feynman.
Questa osservazione è stata combinata da K. Friston con i risultati di sue precedenti
ricerche di neuroscienze computazionali e ha indotto questo autore a proporre l’idea
che tale principio possa costituire una generalizzazione universale. Il formalismo usato
da Friston e colleghi è un po’ difficile da seguire. Utilizza metodi che provengono
dall’inferenza statistica. Con questi metodi è possibile esprimere, in modo euristico e
in termini probabilistici, alcune delle dipendenze che dovrebbero sussistere tra le
variabili che descrivono l’ambiente esterno (e i suoi effetti sui nostri sensi), e le loro
codifiche presenti all’interno del cervello. Queste dipendenze possono essere espresse
e legate opportunamente in modo da esprimere una grandezza numerica. Tale
grandezza quantifica, in termini di informazione (alla Shanon), le discrepanze tra le
previsioni, o le aspettative, generate con i modelli interni, e quanto effettivamente si
produce nei sensi. Questa discrepanza è espressa tramite al divergenza di KullbackLeibler. Per una spiegazione più dettagliata devo rimandare ai lavori di Friston e
colleghi.
Secondo il principio proposto da Friston, un sistema come il cervello tende ad agire
per minimizzare queste discrepanze o meglio, per minimizzare proprio la funzione
scalare chiamata energia libera (variazionale).
La formulazione di questo principio è indubbiamente molto elegante ed ha una certa
plausibilità biologica. L’idea sottostante (secondo la mia interpretazione), è che esso
possa risultare un sorta di vincolo evolutivo emergente. In altre parole, si propone che
le pressioni selettive abbiano forzato i sistemi cognitivi biologici a evolversi in modo
da soddisfare proprio a tale principio di minimizzazione dell’energia libera
variazionale. Al presente è presto per esprime un giudizio sulla validità di questa idea.
Essa è indubbiamente attraente. Non possiamo però escludere che tale principio riesca
a vincolare solo un’approssimazione di come la natura riesce a sfruttare la possibilità
di costruire rappresentazioni interne del mondo esterno per favorire la sopravvivenza e
il successo riproduttivo delle specie.
Nella sostanza non possiamo escludere che sia possibile sostituire tale principio con
delle formulazioni alternative, più vicine alla realtà dei fenomeni in oggetto, o anche,
semplicemente, più semplici da comprendere e da trattare.
Come accennato penso sia utile notare che il principio di minimizzazione dell’energia
libera può essere usato per descrivere le “finalità” dei processi cognitivi che si sono
evoluti nei sistemi biologici. Ma esso non appare idoneo per chiarire tutti gli aspetti
più fondamentali dei meccanismi profondi che rendono possibili tali processi. Nelle
prossime pagine mostrerò che questi meccanismi possono essere espressi con metodi
diversi da quelli usati da Friston. Metodi che ritengo siano ben formalizzabili.
Come accennato la
formulazione matematica del principio di minimizzazione dell’energia libera è
difficile. Soprattutto per questo motivo può essere di una certa utilità descrivere alcuni
principi “finalisti”, usando una formulazione più intuitiva e semplice da comprendere.
Per il momento posso anticipare alcuni concetti in modo intuitivo come segue:
9
Devis Pantano DRAFT Gennaio 2016
1.4

L’attività cognitiva consiste, per una parte essenziale, nel costruire dei
modelli interni che presentano, per gerarchie, delle corrispondenze
strutturali con il mondo esterno, e che sono soggetti alle stesse regole
emergenti.

I sistemi cognitivi tendono a costruire al proprio interno, una mappa parziale
del complesso delle regole emergenti del mondo esterno: Usano queste per
generare inferenze, fare previsioni e pianificare in modo utile i propri
comportamenti.

Un sistema cognitivo tende a minimizzare le differenze tra le strutture del
mondo esterno (presente o futuro) e quelle delle proprie rappresentazioni
interne, relative al presente, alla proprie previsioni e alle proprie
pianificazioni. Un sistema cognitivo tende a minimizzare gli imprevisti, gli
errori di previsione e di pianificazione.
Primo principio: i limiti fondamentali del conoscibile e il concetto di
struttura
Ho scoperto recentemente, grazie ad un lavoro di Boccignone [2013] che
alcune delle idee che cerco di precisare sul concetto di struttura sono state
espresse anche da Valentino Braiinteberg, pur se in maniera più intuitiva:
Secondo Braiinteberg (2008): “si può parlare di informazione contenuta in
una struttura quando l’azione di questa su altre strutture è determinata in
maniera essenziale non dalla mera quantità̀ dei suoi elementi, ma dalla loro
disposizione”.
Penso che queste idea sia corretta, ma servono gli strumenti per poterla
precisare.
Nel 1902 Henri Poincaré pubblicò un trattato di epistemologia: “La scienza e
l’ipotesi”. In questo lavoro egli giunse a una conclusione che ritengo
particolarmente importante. Secondo Poincaré “la scienza può solo farci
conoscere i rapporti tra le cose; al di là di questi rapporti non c’è alcuna realtà
conoscibile!”
Oggi questa conclusione di Poincaré può apparire sicuramente interessante ma
allo stesso tempo può sembrare abbastanza innocua. Essa sembra informarci su
qualcosa che riguarda i limiti della scienza, e sembra dare sostegno
all’approccio formalista che si è imposto come epistemologia dominante in
alcune fondamentali discipline scientifiche.
In realtà credo di poter mostrare che, reinterpretando questa conclusione in
maniera leggermente diversa, estendendone il significato oltre il solo ambito
della scienza, e munendosi di opportuni strumenti, è possibile estrarre da essa
uno dei principi fondamentali che stanno a fondamento della cognizione.
10
Devis Pantano DRAFT Gennaio 2016
Credo che questo pensiero di Poincaré contenga una verità molto importante
che non riguarda solo i limiti della scienza, ma che investe in realtà i nostri
limiti fondamentali di poter conoscere il mondo che ci circonda.
Come anticipato credo che la conclusione di Poincaré possa essere riformulata
in questo modo:
Della realtà esterna è possibile conoscere solo la struttura delle cose e
le operazioni computazionali possibili su queste strutture. Al di là di
questa struttura e di queste operazioni non c’è alcuna realtà esterna
conoscibile.
Ritengo che questo sia uno dei principi fondamentali della cognizione. Non
appare possibile dimostrare con metodi rigorosi la sua validità universale, ma è
possibile ben argomentarla. Posso quindi proporlo come una congettura. Una
congettura che, per la sua importanza, indico come “prima congettura di
riferimento”.
Ammettendo valida questa congettura e la metodologia che propongo per
descrivere il concetto di struttura, si possono trarre molte importanti inferenze.
Si può argomentare che la cognizione si basa pressoché totalmente sullo
sfruttamento del fenomeno delle corrispondenze strutturali: le rappresentazioni
che si realizzano all’interno di un sistema cognitivo devono avere parte delle
proprie strutture coincidenti con quelle degli oggetti e dei fenomeni
rappresentati.
Se studiamo con attenzione come funzionano i simboli si può comprendere che
in realtà questi necessitano di un artificio che non è invece necessario per le
rappresentazioni strutturali. I simboli, infatti, richiedono che sia costruita
un’associazione “artificiale” tra l’oggetto che fa da simbolo e ciò che questo
rappresenta. Ad esempio, è necessario che la percezione del simbolo sia
collegata con l’attivazione delle memorie dell’entità a esso associata.
Quest’associazione artificiale non è necessaria con le rappresentazioni
strutturali. Esse, infatti, possiedono delle corrispondenze naturali con ciò che
rappresentano. Queste corrispondenze consistono proprio nel fatto che le
rappresentazioni e gli oggetti rappresentati hanno parte delle rispettive strutture
in comune. Quest’osservazione ci spinge a pensare che siano le
rappresentazioni strutturali a costituire la “prima base naturale” per
l’informazione contenuta all’interno di un sistema cognitivo. Ci spinge inoltre a
pensare che il concetto di struttura sia centrale, e che per comprendere come
funziona la cognizione sia necessario riuscire a descriverlo con precisione.
Invito a riflettere sul pensiero di Poincarè riportato sopra. Se ammettiamo vera
l’idea che della realtà esterna possiamo conoscere solo i rapporti tra le cose, ne
consegue che possiamo conoscere solo le entità che sono composte di una
molteplicità di parti; in caso contrario non avremmo “dei rapporti” da poter
conoscere.
11
Devis Pantano DRAFT Gennaio 2016
Come possiamo precisare cosa sono questi “rapporti”? Quali strumenti abbiamo
per generalizzare questa idea?
Uno dei concetti intuitivi che più sembra cogliere queste cose è proprio quello
di struttura. Se vogliamo capirne la logica profonda dobbiamo trovare il modo
di passare dalla concezione intuitiva a qualcosa di più preciso, a qualcosa di
matematizzabile. È lecito quindi chiedersi se esiste qualche branca della
matematica che si occupa di precisare questo concetto. Purtroppo le
formalizzazioni già disponibili possono funzionare per oggetti matematici
astratti, ma non vanno bene per trattare le strutture degli oggetti e dei fenomeni
della nostra quotidianità. Serve una formulazione che sia, nello stesso tempo,
precisa e sufficientemente duttile. Deve anche essere “naturale” nel senso di
corrispondere ai metodi adottati dalla nostra mente. La mia proposta per questa
metodologia è presentata in modo esteso nel capitolo 3 della monografia. Di
seguito, per brevità, mi limito a illustrarne alcuni dei punti salienti.
L’idea generale è che ogni struttura “statica” (capiremo tra non molto il perché
di questa precisazione) può essere descritta specificando, con gli strumenti
opportuni (che derivano, almeno primariamente, dalla matematica e
dall’informatica), tre gruppi di informazioni:
1. Le informazioni che individuano l’insieme delle “parti componenti”;
queste parti sono, per le strutture, l’equivalente degli elementi nella
teoria degli insiemi.
2. Le informazioni che specificano e descrivono le “proprietà interne”
delle parti componenti e che consento quindi di distinguerle, le une
dalle altre, dal punto di vista interno.
3. Le informazioni che specificano e descrivono le loro “relazioni
esterne”. Si può mostrare che queste relazioni sono ciò che permette di
distinguere le parti componenti, le une dalle altre, dal punto di vista
esterno. Ad esempio, per un insieme di punti, che sono entità, per
definizione, prive di qualunque struttura e proprietà interna; sono
unicamente le relazioni esterne ciò che consente di distinguere i punti
stessi gli uni dagli altri.
La strategia di tenere separate le informazioni sulle proprietà interne da quelle
sulle relazioni esterne è particolarmente importante perché permette di definire
con facilità alcune operazioni che chiamo di derivazione strutturale e che
ritengo siano alla base della possibilità di astrarre.
Altro concetto importate, legato a questa possibilità, è che si possono
distinguere strutture di base e, appunto, strutture derivate da queste.
Si può definire con precisione quando due strutture sono uguali tramite la
nozione di isomorfismo. Due strutture sono isomorfe se si può costruire una
12
Devis Pantano DRAFT Gennaio 2016
corrispondenza biunivoca tra i rispettivi insiemi delle parti componenti, se le
distinguibilità interne corrispondono e se corrispondono anche le relazioni
esterne (si veda il capitolo 3 della monografia).
Due strutture isomorfe sono coincidenti.
Come detto, fondamentale in questa metodologia è che da alcune strutture se ne
possano derivare delle altre. Questa possibilità impone un ordinamento
gerarchico naturale tra le rappresentazioni strutturali.
Tra le principali operazioni di derivazioni strutturali ci sono quelle di
porzione, di quoziente e di morfismo.
Le operazioni di porzione sono molto semplici, consistono semplicemente nel
considerare solo una porzione della struttura di partenza. Esse sono importanti
sia perché possono essere usate in altre operazioni di derivazione, sia perché,
come vedremo, ci possono essere delle porzioni di una struttura che sono delle
“entità emergenti”.
Le operazioni di quoziente consistono in una sorta di “cambio di scala”. Si
ottengono considerando una nuova rappresentazione strutturale che ha per
nuove parti-componenti delle intere porzioni della struttura di base.
Un concetto sotteso è che passando a considerare la struttura quoziente in un
certo senso ci si “dimentica”, parzialmente, che le sue parti sono a loro volta
composte da più parti della struttura primaria. La nuova struttura della quale ci
si occupa è qualcosa che è “emergente” rispetto a quella di base. Questa nuova
entità ha una propria struttura che può essere descritta in modo indipendente.
Per essa usiamo un diverso insieme di parti, un diverso insieme di proprietà
interne, e un diverso insiemi di relazioni tra le parti componenti! Nonostante
queste informazioni siano comunque legate con quelle che definiscono la
struttura di partenza.
È da notare che l’operazione di quoziente è possibile grazie all'accorgimento di
trattare in maniera separata le proprietà interne e le relazioni esterne tra le parti
che compongono una struttura.
Le operazioni di morfismo si ottengono invece “inibendo” in una struttura ciò
che rende le sue parti distinguibili le une dalle altre. Ciò si ottiene
“semplificando” le distinguibilità interne (vale a dire delle proprietà interne)
oppure il complesso delle relazioni esterne. Un esempio di operazione di
morfismo che agisce sulle distinguibilità interne è quello che elimina i colori in
una figura. Una caratteristica delle operazioni di morfismo è di far perdere
informazione.
È molto probabile che queste operazioni costituiscano la base per l’astrazione.
Si può mostrare che, operando opportunamente con esse, è possibile passare da
rappresentazioni più basilari (per intenderci, molto vicine a quelle pittoriche che
si formano nei sensi) ad altre gradualmente più astratte.
13
Devis Pantano DRAFT Gennaio 2016
Queste operazioni di derivazione strutturale sono particolarmente importanti
perché spesso le operazioni di confronto non sono eseguite su strutture di base,
ma bensì su strutture derivate. Le operazioni di confronto strutturale
costituiscono un passaggio essenziale nella maggior parte dei processi
cognitivi!
Entro la cornice generale di queste tre tipologie di operazioni di derivazione
strutturale, che sono applicabili ad una classe molto ampia di strutture, è
possibile definire varie operazioni più specifiche, ma comunque importanti, per
analizzare le informazioni strutturali e per rendere esplicite le loro principali
proprietà e caratteristiche “potenzialmente emergenti”. Il senso di queste
operazioni sarà più chiaro fra qualche pagina.
Un punto molto importante è che si può mostrare che il paradigma naturale per
l’implementazione di queste operazioni è costituito da un insieme di reti
stratificate di funzioni, delle quali le reti neurali profonde ne sono un esempio.
Anzi si può mostrare che è proprio la necessità di eseguire queste operazioni a
imporre delle reti stratificate.
Poco sopra ho affermato che una struttura è sempre definibile specificando tre
gruppi di informazioni che descrivono rispettivamente: un certo insieme di parti
componenti, le proprietà interne di queste, le lo relazioni esterne. Ho anche
accennato che si può distinguere tra strutture di base e strutture derivate.
Una generica struttura di base “A” si può descrivere matematicamente
specificando:
 L’insieme delle sue parti componenti: I_dp(A) : {a1, a2,.... ai,....an}
 L’insieme delle loro possibili proprietà interne: I_Pr(A). Questo è un
sottoinsieme di I_tp = {tipo_1, tipo_2,..., tipo_N…} : insieme dei tipi
possibili delle parti.
 Un applicazione che assegna per ogni elemento di I_dp(A) almeno un
elemento di I_tp Quindi una applicazione di I_dp(A) -> I_tp
Con ciò stiamo specificando le proprietà interne delle parti che compongono la
struttura A.
Per specificare invece le relazioni esterne dobbiamo, nel caso più semplice (se
la struttura è discreta e finita), specificare almeno il grafo delle adiacenze:
 Grafo-Adiacenze(A): specifica quali copie di parti sono “connesse
direttamente”.
Diversamente se le parti della nostra struttura appartengono ad una generica
varietà topologica allora per specificarne le relazioni esterne si devono usare i
metodi della topologia e, in molti casi di interesse pratico, quelli della
geometria.
14
Devis Pantano DRAFT Gennaio 2016
Può anche utile notare, per avere dei riferimenti “famigliari”, che generalmente
in fisica teorica si studiano varietà che possono essere pensate come strutture le
cui parti non hanno distinguibilità interne (per le quali quindi I_Pr(A) ha, al più,
un solo elemento: per questo motivo non serve specificarlo). Queste varietà
possono essere pensare come delle strutture costituite da entità “puntuali”. Si
noti che queste ultime possono essere distinte le une dalle altre solo sulla base
delle loro relazioni esterne.
Ad ogni modo non è difficile argomentare che le strutture di base coinvolte nei
processi cognitivi sono sempre discrete e finite. Inoltre, nella maggior parte
dei casi di interesse pratico, le loro relazioni esterne possono essere descritte
specificando semplicemente il grafo delle adiacenze.
È interessante notare che ogni pattern ricevuto in input da una rete neurale può
essere descritto proprio in questo modo, vale a dire come una struttura di base,
discreta, finita, con associato un grafo delle adiacenze. Non è difficile verificare
che nella pratica appartengono a questa categoria entità quali: le immagini
visive, la registrazione dei valori di ampiezza (ma anche di spettro
discretizzato) di un’onda sonora, una rappresentazioni tridimensionale di un
oggetto geometrico o dell’ambiente circostante ecc..
È importante anche notare che il metodo presentato può essere applicato a molti
oggetti matematici standard. In particolare possiamo considerare i vettori come
una particolare classe di strutture di base: sono strutture nelle quali I_tp
coincide (potenzialmente) con l’insieme R dei numeri reali, ma soprattutto il
cui grafo delle adiacenze è un semplice grafo a catena.
Si tenga comunque presente che non tutte le strutture sono dei semplici vettori.
Un punto cruciale è che nei processi cognitivi (e nelle reti neurali) confrontiamo
strutture e non semplici vettori. Inoltre, molto spesso, i confronti sono fatti su
strutture derivate e non su strutture di base!
Abbiamo visto velocemente che per le strutture di base esistono gli strumenti
matematici che permettono di trattare con precisione le tre tipologie di
informazioni che le definiscono (insieme delle parti, le loro proprietà interne e
le loro relazioni esterne). Ha senso chiedersi se ciò continua ad essere vero
anche per quanto riguarda le strutture derivate?
Credo che la risposta a questa domanda sia positiva. In effetti appare possibile
rendere esplicite, con metodi computazionali, le informazioni sulle proprietà
interne e le relazioni esterne di queste nuove strutture. Il problema è che quando
si passa da una struttura di base ad altre, che sono derivate da questa, in genere
le nuove parti componenti sono a loro volta degli oggetti complessi e, in quanto
tali, possono esibire proprietà interne e relazioni esterne altrettanto complesse.
Possiamo chiederci: esiste un metodo per dedurre quali sono le informazioni
che descrivono le strutture derivate partendo da quelle usate per le strutture di
base?
15
Devis Pantano DRAFT Gennaio 2016
Qui le cose sono complicate. Un problema è che non tutte le strutture
potenzialmente derivabili sono anche entità cognitivamente significative.
Affronteremo, in modo introduttivo, questo problema tra qualche paragrafo.
Ora posso anticipare che, in linea teorica, si possono utilizzare le “regolarità
interne”, eventualmente presenti entro una struttura di base, per procedere a
pre-selezionare quelle operazioni di derivazione strutturale che hanno buone
probabilità di essere utili. Sempre in linea teorica, si possono quindi usare
queste regolarità interne per rendere esplicite delle informazioni
“potenzialmente significative” che descrivono le nuove proprietà interne e le
nuove relazioni esterne. Il punto è che, all’atto pratico, il problema di provare
tutte le operazioni possibili è spesso troppo complesso: tende a divergere
rapidamente. Inoltre non tutto ciò che si ricava con questo approccio costituisce
necessariamente dell’informazione utile. Si può mostrare che in realtà serve
sempre un “feedback” che proviene “dall’uso pratico” di queste informazioni.
Si può mostrare che queste informazioni, sulle proprietà interne e sulle relazioni
esterne delle nuove parti componenti, sono realmente utili se possono
contribuire direttamente, o per passaggi interposti, a codificare delle regole
(emergenti) utili!
Muniti degli strumenti fin qui illustrati è ora possibile proporre una definizione
precisa per i concetti di regolarità e di regola.
1.5
Secondo principio: cosa sono le regole
Le regole (in senso generalizzato) sono fondamentali. Pressoché ogni processo
cognitivo si basa sull’utilizzo di regole. In un certo senso possiamo dire che le
regole sono il motore dell’attività cognitiva. Il nostro cervello applica regole in
continuazione e ne usa contemporaneamente moltissime. Con buona
probabilità, in ogni secondo, al suo interno sono vagliate, in parallelo, milioni
di regole (e forse molte di più). È probabile che una parte importante della
neocorteccia sia dedicata all’implementazione di regole emergenti associative.
Trovare una definizione precisa, che sia in grado di cogliere la vera natura,
profonda e universale di ogni regola, quindi del fenomeno che sta alla base di
quasi tutti i processi cognitivi, può consentire di capire come questi funzionano.
Se riusciamo a capire cosa sono le regole, come si possono presentare, come si
possono identificare e usare, abbiamo capito davvero molto sulla natura e la
logica profonda della cognizione.
Prima di proporre una definizione per il concetto (esteso) di regola devo
presentare brevemente alcuni altri punti che riguardano le operazioni di
computo possibili su strutture.
16
Devis Pantano DRAFT Gennaio 2016
Il primo punto consiste nell’osservazione che probabilmente non è possibile
rappresentare le operazioni di computo basilari usando solo strutture di prima
specie. Sebbene ho proposto che l’attività di costruire rappresentazioni riguarda
la struttura degli oggetti e che esiste un approccio universale potenzialmente
usabile per descrivere ogni “struttura statica”, devo anche proporre l’idea che
non esiste la possibilità di descrivere, senza ambiguità, le operazioni basilari
usando solo questi strumenti. Anche in questo caso non è possibile dimostrare
in maniera rigorosa la validità di questo punto e devo proporlo come una
congettura (che comunque si può ben argomentare).
Ma se ammettiamo che ciò sia vero: quindi che non ci sia modo di
rappresentare senza ambiguità, usando solo “strutture statiche”, le operazioni di
computo basilari, come possiamo costruire delle rappresentazioni per queste
ultime e per le operazioni più complesse? In fondo esistono entità quali gli
algoritmi che sono, come minimo, delle rappresentazioni di sequenze di
operazioni eseguibili da qualche macchina computazionale. Deve quindi pur
esserci qualche possibilità per costruire delle rappresentazioni per le sequenze
di operazioni di computo.
A questo fine ci vengono incontro due fenomeni. Il primo è costituito dalla
possibilità di usare dei simboli; l’altro consiste nel fatto che le operazioni di
computo fondamentali sono davvero poche e molto semplici. Si può
argomentare (tesi di Church Turing) che componendo opportune sequenze di
queste operazioni elementari si può riprodurre ogni operazione complessa.
È noto che le operazioni di computo basilari sono poche e molto semplici. Sono
quelle che deve poter eseguire una macchina computazionale universale (una
generalizzazione di quella di Turing). È anche noto, e semplice da
comprendere, come si possano associare dei simboli a queste singole operazioni
di base. Sappiamo inoltre che le operazioni complesse possono essere realizzate
tramite delle sequenze di quelle di base. Possiamo quindi costruire delle
rappresentazioni di “sequenze di operazioni di base” componendo delle stringhe
dei relativi simboli. È in fondo ciò che si fa comunemente quando si scrive un
programma per calcolatore. Facciamo però attenzione poiché qui si manifesta
un fenomeno molto importante. Possiamo infatti osservare che tali sequenze di
simboli sono delle entità complesse. Si può mostrare che esse costituiscono, a
loro volta, a tutti gli effetti, proprio delle strutture. Sono, infatti, oggetti
composti di una pluralità di parti (i singoli simboli). Queste parti hanno le loro
proprietà interne (ciò che permette di dire se due di questi simboli sono uguali o
differenti: i simboli appartengono ad un “alfabeto” che assume il ruolo
dell’insieme I_tp). Esse devono inoltre stare in precise relazioni reciproche (le
posizioni che assumono lungo la stringa che rappresenta l’algoritmo).
Si può mostrare che queste “strutture statiche”, utilizzate per rappresentare gli
algoritmi, hanno sempre delle corrsispondenze strutturali con le strutture
delle operazioni complesse che rappresentano. Questo è un punto molto
importante.
17
Devis Pantano DRAFT Gennaio 2016
Possiamo quindi pervenire a un’estensione del concetto di struttura illustrato
nel paragrafo precedente. L’idea è di mettere assieme la funzione di simbolo e
le strutture statiche illustrate nel paragrafo precedente (che indico anche come
strutture di prima specie). Ciò che si ottiene è un’entità ibrida che propongo di
chiamare: “strutture di seconda specie”. Un algoritmo è un oggetto che
corrisponde a questa definizione, quindi è, a tutti gli effetti, una struttura di
seconda specie.
Si può argomentare che è possibile rappresentare, usando gerarchie (di
astrazioni) di strutture di seconda specie, non solo le operazioni di computo
basilare, ma anche le azioni concrete, i comportamenti complessi, e le loro
astrazioni più spinte.
Introdotti questi punti, è possibile proporre una definizione per il concetto di
regola nel modo seguente:

Ogni regola (ogni legge) consiste in una prescrizione strutturale che
vincola o le operazioni che si possono (o si devono) eseguire, o i
risultati che si devono ottenere.
Provando su molti esempi si può mostrare che queste prescrizioni sono sempre
descrivibili in termini strutturali e in particolare sono sempre riconducibili a
degli isomorfismi strutturali.
Questo ultimo punto è particolarmente importante. Si può mostrare che le
regole costituiscono dei vincoli che devono essere rispettati. Propongo la
seguente congettura:
 la verifica della soddisfazione di questi vincoli consiste sempre
nell’identificazione di qualche isomorfismo strutturale.
Questi isomorfismi si manifestano: o nella descrizione delle strutture delle
operazioni che si compiono, mentre esse sono ripetute; o nei risultati che si
ottengono, quanto questi sono osservati più di una volta. Questa presenza di
ripetizioni (d’isomorfismi) è una delle caratteristiche salienti delle regole e delle
regolarità.
Si può anche proporre come “seconda congettura di riferimento” la seguente:
 Ogni regolarità è sempre riconducibile a qualche coincidenza tra
strutture.
Tale congettura è particolarmente importante perché ci dice cosa dobbiamo
andare a cercare per identificare una regola: la presenza di isomorfismi
strutturali. Alla fine dei conti è la presenza di isomorfismi che ci permette di
accorgerci che esiste una regola o una regolarità!
18
Devis Pantano DRAFT Gennaio 2016
Raccomando di tenere bene a mente questo passaggio. Esso comporta che uno
dei “trucchi” fondamentali dei processi cognitivi consiste, come primo passo,
nell’analizzare strutturalmente (e funzionalmente) le informazioni disponibili,
in genere utilizzando opportune reti di funzioni (che sono spesso, a tutti gli
effetti, delle reti neurali). Con queste reti si possono rendere esplicite quelle
caratteristiche della “struttura di partenza”, o meglio, di sue strutture derivate,
che permettono di identificare la presenza di regolarità e di regole che altrimenti
risulterebbero nascoste.
Ancora una volta non sono in grado di dimostrare con metodi rigorosi la
validità delle congetture appena illustrate, ma posso ben argomentarle,
purtroppo ciò richiede molto spazio. In questa sede mi devo limitare ad
accennare ad alcuni dei passaggi chiave. Devo rimandare alla monografia per
ulteriori approfondimenti (capitoli 4,7,9).
Una regolarità, presente entro una sequenza di strutture, può essere interna o
esterna. Se è interna può essere: o subito palese, o nascosta.
Quando è subito palese significa che essa si presenta come coincidenza (o forte
similarità) di almeno due o più porzioni identificabili nella serie di strutture in
oggetto. Talvolta le strutture da confrontare non sono del tutto identiche, ma
sono simili, nel senso che ciò che non coincide è una piccola porzione del
complesso delle informazioni che le descrivono. Ma ciò che ci permette di
cogliere la corrispondenza, quindi la regolarità, è la parte dell’informazione che
coincide, quindi che mostra isomorfismo strutturale (In questi casi la similarità
tra le due strutture può essere valutata con metodi standard di confronto di
vettori, ad esempio tramite la loro distanza euclidea).
Se la regolarità è interna, ma nascosta, significa che esistono delle operazioni
di derivazione strutturale (e di esplicitazione delle informazioni che le
definiscono), che non aggiungono informazione e che permettono di passare
dalle strutture di partenza ad altre dove la regolarità si manifesta in modo
palese.
Le cose sono un po’ più complicate quando la regolarità è esterna. In questo
caso non sono le strutture che costituiscono la nostra serie a contenere, al loro
interno, degli isomorfismi, per quanto nascosti e/o parziali, che ci permettono di
identificare la regolarità. In questi casi, a coincidere, quindi a manifestare
isomorfismi, sono le ripetizioni delle operazioni che servono a generare la serie
stessa di rappresentazioni strutturali (o alcune sue porzioni). Si può mostrare
che queste ripetizioni si manifestano proprio come degli isomorfismi nelle
rappresentazioni (strutturali) delle operazioni ripetute.
In taluni casi le cose sono ancora più complicate perché ciò che viene ripetuto,
e che genera isomorfismi strutturali, può essere l’astrazione di un
comportamento complesso, talvolta può consistere in un “comportamento
mentale”, vale a dire qualcosa che non vediamo perché si attua all’interno della
nostra mente.
19
Devis Pantano DRAFT Gennaio 2016
È implicito in quest’ultima affermazione che assumo sia possibile rappresentare
ogni attività cognitiva in modo computazionale e usando un approccio
strutturale. Questa ipotesi è plausibile e può essere ben argomentata, ma
costituisce un assunto che potrà essere confermato o confutato solo se gli
sviluppi delle idee qui proposte porteranno ad un modello sufficientemente
completo dell’attività cognitiva testabile sperimentalmente. Posso dire che per
il momento i modelli che sono riuscito a sviluppare sembrano promettenti ma il
lavoro da fare è ancora molto.
Ci sono davvero molte cose da dire sulle regole, per brevità per ora mi limito
ad accennare brevemente ad alcuni punti significativi.
Il concetto di regola comprende quello di legge. Ad esempio, anche le leggi
della fisica, esprimibili tramite formule matematiche, rientrano nella definizione
proposta. In effetti queste formule descrivono, talvolta in modo compatto, la
sequenza delle operazioni di computo da eseguire; oppure rappresentano delle
astrazioni di queste operazioni.
Molte regole, quando applicate, danno origine a delle regolarità. Una parte
importante di queste regolarità possono essere identificate nel complesso delle
informazioni che ricaviamo dai sensi, dopo aver opportunamente convertito
queste ultime in “buone rappresentazioni strutturali”, averle analizzate, aver
rese esplicite le singole caratteristiche strutturali, e spesso dopo aver estratto
un’opportuna “gerarchia” di rappresentazioni più flessibili e astratte.
Vale la pena tornare a sottolineare il concetto che molte regolarità importanti
non si manifestano a livello di strutture di base, ma solo a livello di strutture
derivate, spesso su quozienti e morfismi. Per questo motivo sono importanti le
operazioni di derivazione strutturale presentate nel paragrafo precedente.
Vedremo che una parte importante delle regole che costituiscono la nostra
conoscenza semantica sono di tipo associativo e sono regole essenzialmente
probabilistiche. Vedremo inoltre che molte regole associative possono essere
identificate e implementate solo per mezzo di reti di funzioni simili alle reti
neurali profonde.
Per comprendere la cognizione è necessario approfondire varie altre cose su
come le regole si presentono, su quali forme possono assumere, su come si
identificano, su come si possono utilizzare all’atto pratico. Comprendere cosa
sono e come funzionano le regole, significa comprendere come esse possono
essere scoperte e come vanno scritti gli algoritmi, e/o come vanno progettati i
circuiti o le reti, che lo scoprono e le implementano.
Studiando le varie tipologie di regole, e come queste sono utilizzate all’interno di un
sistema cognitivo “naturale”, si ricava che, all’atto pratico, è molto importante
distinguerle in due categorie: quella delle regole che possiamo chiamare operazionali
20
Devis Pantano DRAFT Gennaio 2016
e quella delle regole che possiamo invece indicare come associative. Sono possibili
altre classificazioni, ma queste due sono particolarmente importanti per comprendere
come funziona “l’intelligenza naturale”.
Alla categoria delle regole di tipo operazionale appartengono quelle che richiedono
l’uso di formule e l’esecuzione di una serie di calcoli (le leggi della fisica rientrano in
questo caso. In effetti le regole operazionali specificano le operazioni da eseguire su
date strutture di partenza, per ottenere altre.
Le regole associative hanno invece un aspetto molto diverso. Esse, pur potendo essere
alquanto complesse, fondamentalmente si basano su un meccanismo associativo tra
l’identificazione di fatti che fanno da “cause” e altri che fanno da “effetti”. Questi
“fatti” devono essere descritti tramite informazioni esplicite strutturali. Le operazioni
di analisi e di derivazione strutturale, integrate con altre (ad esempio quelle di
classificazione funzionale), permettono di costruire rappresentazioni adeguate a questo
scopo. Studiando le due tipologie di regole citate, e in particolare come esse sono
utilizzate normalmente nei processi cognitivi naturali, si scopre che le regole
associative sono predominanti; senza di esse la cognizione stessa non sarebbe
possibile.
Sono importanti, e per certe abilità assolutamente necessarie, anche le regole
operazionali, ma queste hanno spesso, in un certo senso, un ruolo subordinato. In
effetti, sono molto spesso le regole associative a coordinare e a gestire l’applicazione
delle regole operazionali. Nella sostanza credo sia corretto affermare che le regole
associative assumono un ruolo “dominante” nell’attività cognitiva.
1.6
Terzo principio: criterio di emergenza
Le regole sono fondamentali per la cognizione, sono il motore dell’attività
cognitiva. Con buona probabilità il nostro cervello utilizza svariati milioni di
regole specifiche. Queste regole sono implementate in una parte importante
delle nostre reti neurali e sono vagliate di continuo.
Un punto davvero importante è che la grande maggioranza di queste regole non
sono quelle della fisica fondamentale, o della matematica, o della logica, sono
bensì regole emergenti. Si può mostrare che queste tipologie di regole
possiedono alcune caratteristiche che impongono di dover procedere con
processi di analisi di struttura e con successive operazioni di classificazione
funzionale. Questi processi sono infatti necessari per rendere esplicite le
informazioni che permettono di formulare le regole stesse. Si può ben
argomentare che in ogni sistema cognitivo devono essere presenti delle reti di
funzioni (delle reti neurali) il cui compito è proprio quello di provvedere a
queste esplicitazioni
È dunque particolarmente importante riflettere sul fenomeno dell’emergenza e
capirne la logica profonda. L’argomento di per se è molto vasto e richiederebbe
molte pagine. In questa introduzione mi devo limitare a mettere in evidenze
alcuni dei punti che ritengo di maggiore importanza per comprendere il senso
delle idee che propongo. Come vedremo nelle prossime pagine penso sia
possibile individuare un criterio generale di emergenza, che è indipendente
21
Devis Pantano DRAFT Gennaio 2016
dalla presenza di processi cognitivi, e un criterio di portata più limitata, ma che
al lato pratico svolge un ruolo determinante nella logica della cognizione.
Partiamo dal criterio generale illustrandone brevemente i punti salienti.
Se partiamo dall’ipotesi che possiamo conoscere solo la struttura degli oggetti
(primo principio), allora è ragionevole pensare che anche le proprietà emergenti
riguardino, alla fin fine, le strutture e le operazioni possibili su di esse. Ho fatto
menzione al fatto che è possibile definire delle operazioni di derivazione
strutturale che permettono di ricavare nuove rappresentazioni partend da altre
piu’ basilari. Potremmo allora esplorare l’ipotesi che almeno una parte delle
cosiddette proprietà emergenti siano legate proprio a questa possibilità di
“estrarre” nuove strutture. Potremmo pensare che le proprietà emergenti
riguardino, almeno in parte, strutture derivate.
Non è però difficile accorgersi che, data una struttura di partenza, non tutte le
operazioni di derivazione possibili generano entità che possono essere
considerate emergenti. Banalmente: non ha senso prendere una porzione a caso
di un oggetto, o generare a caso una struttura quoziente prendendo porzioni
casuali di una più basilare. Serve qualche criterio per distinguere le reali
strutture derivate emergenti da quelle che non lo sono.
Chiediamoci quindi: cosa fa sì che una certa particolare porzione, o un certa
particolare struttura quoziente, sia qualcosa che ha senso considerare come
entità a sé stante? Esiste un criterio generale in grado di cogliere veramente
l’essenza del fenomeno dell’emergenza?
Credo che questo critario possa essere formulato nel seguente modo:
Sono emergenti quelle strutture derivate per le quali si determina un
fenomeno di dipendenza funzionale con altre.
(Questo criterio di emergenza è indipendente dall’attività cognitiva)
La dipendenza funzionale deve essere reale, deve manifestarsi nei termini di
qualche fenomeno fisicamente rilevabile che dipende funzionalmente proprio
dalla struttura derivata in oggetto.
Il concetto di dipendenza funzionale al quale faccio riferimento è un’estensione
di quello usato in matematica. Quando in matematica diciamo che Y è funzione
di X ( in simboli Y= f(X) ), in genere con X e Y intendiamo indicare due entità
numeriche di qualche tipo (scalari, vettori, matrici, tensori ecc…). In questa
sede vogliamo invece legare delle rappresentazioni strutturali. Ciò ha senso. In
effetti le strutture sono entità che possono essere rappresentate usando
strumenti matematici. Si può anzi ben argomentare, si veda capitolo 3 della
22
Devis Pantano DRAFT Gennaio 2016
monografia, che gli stessi oggetti matematici standard possono essere descritti
in termini strutturali.
Quindi, ragionando in questi termini, possiamo dire che una struttura derivata
“A” è emergente se esiste almeno un fenomeno fisico il cui divenire è funzione
proprio di A. Se indichiamo con B la struttura di tale fenomeno, allora in
qualche momento deve essere B= f(A, x) ( x sta ad indicare che la struttura di
B può dipendere da qualcosa d’altro oltre ad A: non è necessario che B sia
funzione esclusivamente di A).
L’esistenza di tale fenomeno di dipendenza funzionale rende oggettiva
l’emergenza.
Per mostrare la validità di questo criterio proviamo a ragionare per assurdo.
Supponiamo che non esista alcun fenomeno il cui divenire dipenda
funzionalmente da una certa particolare struttura derivata. In questo caso non ci
sarebbe nulla di reale, non ci sarebbe alcun fenomeno, in grado di “accorgersi”
che quella data struttura esiste. In tal caso tale struttura derivata non potrebbe
far parte delle entità emergenti perché non esisterebbe nulla che è sensibile alla
sua presenza!
Riflettendo, non è difficile accorgersi che le entità che siamo abituati a
considerare delle “cose a sé stanti” sono oggetti o fenomeni che, con la loro
presenza, hanno degli effetti, anche indiretti, su altre cose o su altri fenomeni.
Questi effetti ne modificano le strutture. Le entità emergenti sono quindi quelle
che, in qualche modo, con la propria presenza, determinano delle variazioni (di
strttura) o su ciò che accade, o su ciò che può accadere, o su ciò che si può fare
e ciò che non si può fare.
Si noti che, affinché una certa struttura derivata sia effettivamente emergente, è
necessario che essa partecipi globalmente nel determinare degli effetti
sensibili; deve partecipare con tutto ciò che la definisce come quelle specifica
struttura. Ad esempio, se fosse solo una sua porzione, o un suo quoziente, o un
suo morfismo, a determinare degli effetti rilevabili, allora sarebbero uno di
questi ultimi a essere emergente e non l’intera struttura in oggetto!
Mi pare che questo modo di pensare sia in buon accordo con il pensiero
espresso da Braiinteberg: “si può parlare di informazione contenuta in una
struttura quando l’azione di questa su altre strutture è determinata in maniera
essenziale non dalla mera quantità̀ dei suoi elementi, ma dalla loro
disposizione” !
Noi siamo abituati a pensare alle cose del nostro mondo quotidiano, ai vari oggetti
macroscopici con i quali interagiamo, come ad esempio al tavolo che abbiamo davanti,
o alla sedia su cui siamo seduti, senza preoccuparci di pensare che essi in realtà sono
fatti di atomi e di molecole.
In realtà è facile vedere che non si tratta solo di una questione di individuazione di
particolari “sottoinsiemi” di ciò che compone le cose. Si consideri, infatti, che molti
23
Devis Pantano DRAFT Gennaio 2016
degli oggetti macroscopici che noi abitualmente consideriamo come cose a sé stanti, e
che sembrano permanere nel tempo, spesso non corrispondono mai allo stesso insieme
di particelle. E’ famoso l’aforisma di Eraclito: “Non si può entrare due volte nello
stesso fiume, perché si è bagnati da acqua sempre nuova”. La questione diventa ancora
più interessante se si considera il fatto che spesso usiamo definire degli oggetti che
non corrispondono proprio ad alcun insieme di atomi. Si pensi ad esempio agli enti
geometrici astratti, o quando indichiamo come oggetto a sé stante qualcosa che non è
fatto da alcunché: cose come un’apertura, o un foro nel mezzo di un solido.
Esistono tutta una serie di problematiche non banali che sono connesse con questi
fenomeni Si tratta di questioni sulle quali si sono cimentati molti pensatori nel passato
e che sono ancor oggi dibattute anche in ambito scientifico. Accenno di seguito ad
alcune di esse utilizzando, in parte, il linguaggio introdotto nei paragrafi precedenti:

Alcuni pensatori si sono posti il problema di come un complesso di entità
possa essere considerato come un singolo oggetto;

di come un certo complesso di parti microscopiche possa dare origine a
qualche cosa di macroscopico la cui cognizione prescinde totalmente dal fatto
che tale oggetto sia costituito da quel tipo di parti;

di quali siano i criteri secondo i quali, tra tutti gli insiemi possibili di atomi,
solo alcuni sono considerabili come oggetti macroscopici;

di come sia possibile che alcuni oggetti macroscopici siano cognitivamente
considerabili sempre gli stessi sebbene gli atomi che li compongono cambiano
nel tempo;

di come sia possibile avere cognizione pertinente di cose che non sono
costituite da alcunché di fisico.
Propongo che a queste domande si possa rispondere usando il criterio di emergenza
proposto. Sono emergenti tutte quelle strutture derivabili da una “potenziale super
struttura di base”, per le quali esiste un qualche fenomeno (anche questo
potenzialmente descrivibile in termini di rappresentazioni strutturali derivate) che
dipende funzionalmente da esse.
Se analizziamo come si forma la nostra percezione del mondo esterno non è difficile
vedere che essa riguarda esclusivamente entità che sono strutture derivate.
Una volta definito il concetto di struttura derivata emergente, si possono
definire anche quelli di regola e di regolarità emergenti:
 possiamo dire che sono emergenti quelle regole che si applicano a
strutture emergenti (semplificando un po’).
Si può mostrare che la maggioranza delle regole che il nostro cervello utilizza
sono regole emergenti nelle quali è predominante la componente associativa.
Il concetto di regola emergente ci permette di proporre un criterio di emergenza
“più pratico”, valido per i processi cognitivi. In effetti il criterio proposto più
indietro è generale ed è indipendente dall’attività cognitiva. Per esso una
determinata struttura derivata A è emergente non appena esiste qualche altro
fenomeno la cui struttura B dipende funzionalmente da A. Secondo questo
24
Devis Pantano DRAFT Gennaio 2016
modo di vedere le cose non è necessario che esista un sistema cognitivo in
grado di costruire rappresentazioni della data struttura, o di produrre delle
variabili che ne esplicitino il riconoscimento. Ha senso chiedersi se sia possibile
formulare un principio equivalente valido per i processi cognitivi. È possibile
identificare un criterio di questo genere?
Credo che la risposta a questa domanda sia positiva e possa essere formulata in
questi termini:
 Per le attività di un sistema cognitivo, la rappresentazione di una
determinata struttura A (che può essere derivata da rappresentazioni più
basilari), o l’esplicitazione di una particolare proprietà strutturale P,
sono emergenti se è possibile formulare qualche regola utile che
dipende da A (o da P).
Questo criterio è particolarmente importante. Esso ci dice che per i processi
cognitivi sono “legittime entità emergenti” quelle informazioni strutturali (in
genere relative a strutture derivate) che contribuiscono a identificare ed
implementare delle regole utili!
Questo criterio, seppur di validità meno generale, si può applicare ad ogni entità
che percepiamo. Tra queste ci sono quelle su cui possiamo focalizzare un
processo di attenzione selettiva. Queste entità possono andare dai particolari
strutturali più minuti, ad esempio un certo tipo di linea di contorno, alla
percezione e rappresentazione degli oggetti concreti nella loro interezza, alla
codifica di astrazioni. Per mostrare che questa impostazione è pertinente e
funzionale sono necessarie molte spiegazioni. Posso anticipare alcuni idee con
un esempio. Il tavolo che ho davanti, che è un oggetto concreto ben specifico, è
un’entità emergente per la mia attività cognitiva perché alle sue
rappresentazioni interne, e ai suoi riconoscimenti, posso applicare una vasto
insieme di regole utili. Esempi di questo regole sono: la conoscenza che tale
tavolo si trova in una specifica stanza (è una regola), che quando lo si guarda
genererà una certa classe di rappresentazioni interne, che su esso si possono
appoggiare molte tipologie di oggetti che appartengono a certe classi di peso e
di forma… e moltissimi altri fatti più o meno contingenti. Si può mostrare che
questi fatti, queste “proprietà”, sono proprio delle regole emergenti. Posso usare
queste regole per prevedere ciò che vedrò, per pianificare le azioni che farò, per
fare inferenze su quanto è accaduto ma che non ho osservato direttamente, e
per molto altro ancora.
Si può argomentare che il fenomeno dell'emergenza è correlato con ciò che
possiamo indicare come principio di esplicitazione. Esso afferma che, affinché
entro un generico sistema cognitivo possano essere implementati più processi
che a valle dipendono dalla presenza (della rappresentazione) di una particolare
25
Devis Pantano DRAFT Gennaio 2016
entità strutturale (una struttura di base, una struttura derivata, o una proprietà
strutturale, ecc..), è utile che esista almeno una singola variabile specifica (non
necessariamente binaria), il cui stato dipenda dalla presenza di quella
particolare entità. Il valore assunto da questa variabile esplicita il
riconoscimento, o comunque la chiamata in causa di una specifica entità. Nella
pratica passare attraverso questa esplicitazione è necessario affinché possano
essere codificate e implementate più regole (tra loro indipendenti) che
reagiscono alla “chiamata in causa” di una certa specifica entità.
A questi fenomeni è strettamente collegato anche il principio di convergenza
delle verifiche. Si deve tenere conto del fatto che le entità strutturali sono
oggetti complessi, quindi costituiti da una pluralità di parti in specifiche
relazioni. Per produrre una singola variabile, ad esempio binaria, il cui stato
dipenda dal riconoscimento di una specifica struttura, è necessario eseguire una
serie di verifiche locali della presenza di tutte le singole parti e di tutte le loro
specifiche relazioni; il tutto deve poi convergere verso una singola variabile,
che può essere in molti casi un singolo bit (le singole verifiche devono
convergere in un’operazione logica di AND, o un suo equivalente).
Invito il lettore a riflettere su questi punti. L’esplicitazione, con la convergenza
verso una singola variabile, è davvero un passaggio fondamentale. In un certo
senso procedere in questo modo è necessario affinché il sistema cognitivo sia in
grado di “accorgersi” che la specifica entità strutturale (che è un oggetto
complesso) esiste!
Possiamo chiamare analisi strutturale il complesso delle operazioni che
servono per rendere esplicite le informazioni strutturali che sono
potenzialmente emergenti. L’idea generale è che eseguendo su delle strutture di
partenza una serie di opportune operazioni di analisi, si può passare a
“rappresentazioni esplicite” del complesso del contenuto di informazione
strutturale contenuto in quelle più basilari (il contenuto di informazione
presente all’interno di una rappresentazione di base è legato alla sua
complessità algoritmica).
Uno dei punti di forza delle nuove rappresentazioni che si ottengono
esplicitando il contenuto di informazione strutturale, è che le operazioni di
confronto diventano più semplici e diviene possibile, punto fondamentale,
scoprire la presenza di eventuali regolarità che coinvolgono solo “una parte”
dell’informazione strutturale complessiva.
Si può mostrare che l’analisi strutturale è fondamentale. Per essa sono
particolarmente importanti le operazioni di derivazione introdotte più
indietro. Tuttavia l’analisi strutturale da sola non è sufficiente e spesso
deve essere integrata anche con attività di analisi e classificazione
funzionale.
Semplificando, l’analisi funzionale serve a classificare le entità estratte
26
Devis Pantano DRAFT Gennaio 2016
dall’analisi strutturale in funzione dell’uso, della funzione utilitaristica,
che esse possono avere. Le affordance sono un esempio, a basso livello
di astrazione, di classificazioni funzionali. Ad alto livello le
classificazioni funzionali possono essere usate per codificare importanti
concetti astratti. Ad esempio: un treno, un aereo, una nave sono oggetti
che non hanno corrispondenze strutturali, ma possono essere classificati
nella stessa classe comune: quella dei mezzi di trasporto.
È importante tenere presente che si deve passare prima per l’analisi
strutturale e solo dopo si possono eseguire delle classificazioni
funzionali. In effetti si può ben argomentare che l’analisi strutturale è
un passaggio obbligato per il riconoscimento.
Si può mostrare che per eseguire queste attività di analisi è necessario
organizzare l’informazione in reti di funzioni di esplicitazione. Inoltre
queste reti devono, per forza di cose, essere gerarchizzate, quindi si
tratta di reti profonde! (Le reti neurali corrispondono ad alcune delle
possibili tipologie di reti di funzioni.)
Il concetto di funzione di esplicitazione è particolarmente importante,
ed è bene generalizzarlo. Parzialmente può essere messo in relazione al
concetto di simbolo percettivo [Barsalou 1999].
Anche in questo caso si tratta di funzioni in senso matematico. Ad esse
devono corrispondere delle procedure computazionali, quindi degli
algoritmi, in grado di identificare la presenza di una singola entità e di
segnalarla tramite il valore assunto da una variabile a questa dedicata. In
questo lavoro i concetti di funzione di esplicitazione, di simbolo
percettivo (e di “soggetto percettivo”), intendono generalizzare la
necessità di rendere esplicite le informazioni. Essi non si applicano solo
ai prodotti dell’analisi strutturale, ma ad ogni informazione che può
essere resa esplicita.
Ribadisco che l’utilità cognitiva di queste esplicitazioni consiste nel
fatto che esse possono contribuire alla codifica di qualche regola utile.
Se non ci fossero delle regole che dipendono, direttamente, o per
passaggi interposti, da tali esplicitazioni, allora queste non avrebbero
alcuna utilità, quindi non avrebbero senso.
Questo punto è importante perché ci dice anche che, in ultima analisi, il
criterio per stabilire se una certa funzione di esplicitazione è legittima,
consiste nel verificare che esista almeno una regola utile che dipende da
essa. Una regola utile è quella che permette di eseguire delle inferenze,
di effettuare delle previsioni, o di pianificare azioni…
27
Devis Pantano DRAFT Gennaio 2016
1.7
Regole operazionali e regole associative
Come già accennato, un importante possibilità per distinguere e classificare le
regole consiste nel distinguere tra regole operazionali e regole associative.
Per regole operazionali intendo, sostanzialmente, tutte quelle che consistono in
funzioni che si implementano attraverso dei calcoli (o, più in generale,
attraverso un sequenza di operazioni computazionali) e che non si basano
principalmente su “associazioni già memorizzate” tra variabili di ingresso e
risultati da produrre in uscita. Ogni regola operazionale può essere ben definita,
almeno potenzialmente, in maniera rigorosa e precisa. Sono regole operazionali
quelle che utilizzano equazioni, ma rientrano nella categoria anche molti altri
algoritmi. Spesso alle regole operazionali è possibile associare un operatore.
Tale operatore descrive le operazioni di computo (discrete, o sul continuo) che
devono essere eseguite sulle strutture in input (del dominio) per produrre i
risultati in output (nel codominio).
Le regole operazionali consistono dunque in una successione ben definita di
operazioni di computo. Tale successione di operazioni costituisce un algoritmo.
Le regole operazionali in generale agiscono su strutture di prima specie
producendo altre strutture di prima specie. In taluni casi possono agire anche
sulla struttura di operatori producendo altri operatori, ma anche in questi casi si
tratta sempre di azioni riconducibili ad operazioni effettuate su strutture.
Quando si utilizza una regola operazionale devono essere specificati “i dati di
partenza”. Nel nostro caso questa informazione è costituta dalla
rappresentazione della struttura di partenza, quella sulla quale si agisce, e
dall’operatore che viene ad essa applicato.
In genere, semplicemente, si verifica una sequenza di questo tipo:
 Si ha una situazione iniziale costituito da: struttura di partenza A e
schema dell’operatore Op da applicare.
 Quindi si applica Op ad A.
 Si ottiene una situazione finale costituito dalla struttura B : ( B =
Op(A) )
Per utilizzare una regola operazionale è necessario conoscere la sequenza delle
operazioni da compiere. In altre parole deve essere rappresentato lo schema che
definisce l’algoritmo da utilizzare.
Ha senso chiedersi se esistono altri possibili modi di procedere. In particolare se
è possibile implementare delle regole in modo diverso: senza necessariamente
dover applicare algoritmi complessi e calcoli, vale a dire senza utilizzare delle
regole operazionali. La risposta a questa domanda è positiva. Questo avviene
ogni qualvolta si può costruire direttamente un’associazione tra “la situazione
iniziale” e “la situazione finale” senza dover conoscere nel dettaglio gli
operatori che stanno agendo.
28
Devis Pantano DRAFT Gennaio 2016
Consideriamo il caso banale dove accade che ogni volta che si presenta la
situazione A allora sistematicamente si verifica la situazione B: si può allora
procedere ad “associare” direttamente B come “conseguenza” di A. Abbiamo
quindi l’associazione diretta tra due situazioni A e B . In questo caso possiamo
dire che “A implica B”. Si noti che ciò presenta delle analogie con una forma
grezza, del “modus ponens” utilizzato in logica: [(A B) ∧ A] B . Ma va
tenuto ben presente che stiamo trattando di rappresentazioni strutturali e non di
proposizioni.
Consideriamo il caso, semplificato nel quale sia data una struttura iniziale A e
sia vero che su di questa agisce in modo regolare solo un certo operatore
specifico Op che genera la struttura B. Ciò significa che ogni qualvolta si
presenta la struttura A su essa agisce sempre e comunque Op e viene generata
B. Si consideri ora il complesso della struttura A +(t)B (A composta, o
associata, con B, nel tempo). Tale struttura composta costituisce dunque una
“regola” nel senso indicato più sopra. Dato che per ipotesi ogni volta che si
presenta A sicuramente viene generata anche B si può sfruttare questo fatto per
effettuare inferenze.
La composizione A +(t)B sarà allora un primo esempio, molto semplice, di
“regola associativa”. In questo caso semplicemente vengono “associate” A e
B in una relazione (funzionale) di causa ed effetto. L’esempio illustrato vale
finché si ha a che fare con strutture esattamente ben definite e entro un
ambiente dove l’operatore Op è sempre lo stesso. Queste circostanze
costituiscono una limitazione importante!
In effetti nella maggior parte dei sistemi fisici è in pratica impossibile partire da
situazioni fisicamente del tutto identiche. In realtà le regole associative molto
raramente sono applicabili per prevedere l’evoluzione degli eventi rappresentati
a basso livello di astrazione. Ma si può verificare che esistono moltissime
situazioni pratiche nelle quali si possono costruire delle rappresentazioni più
astratte dove le regole associative funzionano molto bene!
In fisica e nelle scienze esatte siamo abituati ad utilizzare regole espresse in
forma operazionale. Queste hanno in genere un campo di validità molto ampio
e possono essere espresse in forma compatta: richiedono cioè una quantità
limitata di memoria per essere rappresentate. Nella simulazione scientifica le
regole operazionali svolgono sicuramente il ruolo più importante.
Ma nella pratica concreta dell’attività cognitiva le regole operazionali possono
essere applicate con successo solo in domini particolari: quando si ha una
conoscenza dettagliata e precisa della struttura della situazione di partenza che
si sta esaminando, e quando il sistema del quale si vuole prevedere l’evoluzione
non è troppo complesso. Inoltre si deve avere a che fare con sistemi che sono
poco sensibili alle piccole differenze nelle condizioni iniziali. In caso contrario
gli inevitabili “errori di misura” che si commettono in partenza (che saranno
quindi, a livello di rappresentazioni interne, degli errori nella ricostruzione
29
Devis Pantano DRAFT Gennaio 2016
strutturale) rendono di fatto impossibile generare previsioni corrette per
orizzonti temporali lunghi.
Quando si passa dalle scienze esatte ai problemi che dobbiamo affrontare nel
quotidiano le regole operazionali continuano ad avere un ruolo importante, per
esempio in alcune fasi dell’analisi delle informazioni sensoriali e nei problemi
di coordinamento senso-motorio, ma non appena passiamo a rappresentazioni
più astratte, che riguardano essenzialmente strutture derivate, e loro
classificazioni funzionali, è l’aspetto associativo a prevalere in modo netto.
A livello di strutture e di regole emergenti diventa spesso molto difficile, in
molti casi praticamente impossibile, poter applicare regole di tipo operazionale,
mentre risulta più semplice ed efficiente l’utilizzo di regole associative; anche
se queste richiedono la memorizzazione di molte più informazioni.
Altro aspetto molto interessante è che a livello emergente si possono definire
regole valide che computano o associano anche in negativo (sulla mancanza di
qualcosa). Per implementare una regola di questo tipo è necessario passare
attraverso la funzione di memoria, giacché ci deve essere qualcosa che sia in
grado di “accorgersi” che “manca qualcosa”. Si noti che regole che computano
in negativo non appaiono possibili a livello di fisica di base!
Consideriamo un esempio di regola associativa. Ogni agricoltore sa bene, fin
dall’alba della civiltà, che in mancanza di acqua le piante sono destinate a
rinsecchire. Questa regola di ampia validità, e di fondamentale importanza per
la sopravvivenza, consiste nella capacità umana di associare due fatti, due
concetti e quindi, secondo le idee esposte, una serie di soggetti percettivi di
livello medio alto. In questa regola sono associati direttamente alcuni piccoli
insiemi di “fatti specifici”. Anzi, più precisamente, sono associate le
esplicitazioni degli avvenuti riconoscimenti di quei gruppi di soggetti (e delle
loro relazioni) che identificano specifiche situazioni.
Si noti che nella regola dell’esempio si associa in negativo: si associa il fatto
che il soggetto “acqua” non è stato riconosciuto (da un certo periodo di tempo),
con la comparsa del soggetto (del fenomeno) “piante rinsecchite”, il quale può
avere avuto un effetto drammatico per la possibilità di nutrirsi.
Supponiamo di possedere un ipotetico super calcolatore, in grado di simulare
alla perfezione le reazioni biochimiche che avvengano all’interno delle cellule
delle piante. Procedendo con queste simulazioni si realizzerebbero delle
configurazioni molto complesse, ma che osservate solo a “basso livello” non
avrebbero alcun significato particolare. Solo un osservatore che fosse in grado
di riconoscere in esse la presenza delle varie proprietà emergenti, che
corrispondono a soggetti percettivi di livello più elevato (identificabili solo
passando a strutture derivate), potrebbe “differenziare” le varie situazioni e
attribuirgli, nel caso, qualche valenza positiva o negativa. Notiamo anche che a
livello di simulazione biochimica, per simulare il processo in cui la pianta
rinsecchisce, non è affatto necessario introdurre la decodifica esplicita del “fatto
che manca acqua”. La simulazione può procedere senza alcun problema
30
Devis Pantano DRAFT Gennaio 2016
computando, e applicando quindi le varie regole operazionali, solo in positivo.
Non è necessario codificare in negativo. Di fatto la fisica elementare, e in
generale i sistemi che usano regole di base, non lo fanno!
Uno dei punti essenziali da comprendere bene è che, a livello di base, le
strutture emergenti non sono definite. Con la sola simulazione, per quanto
precisa e ben eseguita, non ci accorgeremmo assolutamente del fatto che la
pianta sta morendo; per accorgersi di questo fatto occorre codificare tutte le
proprietà emergenti che costituiscono le rappresentazioni del “sistema pianta”
pensato come un tutt’uno e rappresentato a livello di strutture derivate. In una
simulazione eseguita davvero a livello di base, senza la decodifica delle
strutture emergenti, tutto ciò che si osserva è come interagiscono i moltissimi
singoli atomi o le moltissime singole molecole. Ma se non si cambia prospettiva
di osservazione, questo enorme brulichio di reazioni chimiche non avrà alcun
significato!
Solo se abbiamo la possibilità di identificare entità emergenti potremmo, molto
teoricamente, usare la simulazione al calcolatore per verificare se la regola
associativa dell’esempio è corretta. Con una simulazione potremmo compiere
questa verifica in un modo che appare essere, nonostante tutto, ancora
sostanzialmente empirico. Sarebbe una specie di esperimento virtuale: si simula
dentro un calcolatore invece di fare l’esperienza reale.
Un coltivatore dell’antichità non poteva avere alcuna nozione sulle reazioni
chimiche, non aveva microscopi per osservare le cellule; tuttavia era in grado,
sulla base di una sequenza di osservazioni macroscopiche ripetute, di scoprire
per induzione la verità di una regola importantissima.
Le regole di tipo associativo sono molto importanti ma non sono le uniche che
utilizziamo. Come detto è di una certa evidenza che le regole operazionali
hanno un ruolo importante nei problemi di coordinamento senso motorio e in
molti altri casi. Come vedremo molte regole possono essere di tipo misto: nello
stesso tempo associative e operazionali. Ma è probabile che in questi casi sia la
parte associativa a “decidere” quali operazioni applicare.
Per i compiti di “basso livello di astrazione”, l’aspetto operazionale di queste
regole “ibride” dovrebbe essere più marcato per tendere ad attenuarsi a favore
di quello associativo man mano che si passa dalle rappresentazioni di basso
livello a quelle più astratte.
1.8 Le regole utili vincolano, ma non troppo, e sono emergenti
Penso che una buona definizione operativa del concetto di regola, quando
applicata al dominio delle rappresentazioni cognitive, è quella che si appoggia
al concetto di vincolo.
In generale possiamo dire che una regola è costituita da uno o più “vincoli” che
devono essere rispettati. Questi vincoli appaiono esprimibili, in ultima analisi,
in termini di corrispondenze tra strutture, di prima o di seconda specie, che
31
Devis Pantano DRAFT Gennaio 2016
devono comparire in qualche punto nelle attività di elaborazione e
rappresentazione (anche se talvolta tali corrispondenze sono parziali, il concetto
resta valido). Questa definizione appare ben compatibile con quanto illustrato
nel paragrafo 1.5. È importante notare che a livello emergente, e solo in esso,
benché le regole costituiscano dei vincoli, nello stesso tempo permettono spesso
una certa libertà di scelta: quindi, a livello emergente, le regole vincolano ma
non troppo! Questo è un punto assai importante perché se non ci fosse questa
libertà di “scegliere come agire” la stessa attività cognitiva non avrebbe senso!
Le nostre rappresentazioni interne della realtà sono utili, in ultima analisi, se ci
consentono di fare delle previsioni su come possono evolvere e mutare le
situazioni in funzione di ciò che possiamo fare, di come possiamo agire per
cambiare la “predestinazione” degli eventi. In un certo senso all’interno della
nostra mente possiamo eseguire delle simulazioni dei possibili scenari, e delle
loro alternative possibili, vale a dire di come tali scenari variano in funzione
delle nostre azioni. Sulla base dei risultati di queste simulazioni possiamo
“scegliere” cosa ci conviene fare. Possiamo “decidere” quali azioni è utile
intraprendere affinché la realtà evolva verso quella che giudichiamo essere “la
migliore tra le situazioni che ci sembra possibile ottenere”. Se, per assurdo, a
ogni livello di emergenza, la realtà fosse soggetta a regole totalmente
vincolanti, che non lasciano libertà di azione, quale utilità avrebbe la capacità di
conoscere? È facile convenire che in una simile situazione le facoltà intellettive
umane non si sarebbero mai evolute poiché non avrebbero offerto alcun
vantaggio!
Un fatto sorprendente è che questa libertà di scelta sembra manifestarsi solo a
livello emergente, mentre a livello di fisica di base, almeno secondo la
concezione “classica” della fisica, ciò non appare possibile. In effetti, a questo
livello le regole sono strettamente e totalmente vincolanti, non sembra esserci
alcuna libertà di scelta!
Questo fatto, per certi versi paradossale, è solo uno degli aspetti che
differenziano le regole che valgono ai livelli di base rispetto a quelle che si
manifestano ai livelli emergenti.
Ne ricaviamo dunque che è molto importante distinguere tra regole di base e
regole emergenti.
In generale le regole di base manifestano queste interessanti proprietà:
 Sono totalmente vincolanti.
 Sono spesso “subite”, le persone sono passive di fronte ad esse, sono
quindi fenomeni che accadono indipendentemente dalla nostra volontà!
 Sono regole operazionali.
 Non possono computare in negativo, nel senso che non possono essere
definite “sulla mancanza di qualcosa”.
 Sono regole certe, che funzionano sempre.
32
Devis Pantano DRAFT Gennaio 2016
Solo procedendo dal basso verso l’alto lungo i processi di astrazione, ottenuti
con le operazioni di derivazione strutturale e di classificazione funzionale,
compaiono regole emergenti che hanno proprietà diverse:





Spesso sono solo parzialmente vincolanti.
Noi possiamo avere un ruolo attivo di scelta!
Possono essere formulate in maniera “associativa” e non solo
operazionale.
Posso computare anche in negativo, ovvero sulla mancanza di qualcosa.
Ci possono essere regole utili che non sono “sicure al 100%”, ma che
hanno solo una certa probabilità di funzionare.
Un sistema cognitivo reale deve affrontare a ciclo continuo, e talvolta in
parallelo, miriadi di problemi: nella percezione, nella pianificazione ed
esecuzione delle azioni (da quelle più elementari ai comportamenti più
sofisticati), nella generazione di previsioni, nelle inferenze a basso livello di
astrazione, nelle attività di ragionamento mentale astratto. Per poter affrontare
questi problemi, da quelli apparentemente più banali a quelli più complessi,
deve implementare al suo interno moltissime regole emergenti. Ciò accade
perché molte di queste regole possono essere opportunamente combinate per
identificare soluzioni efficaci a tali problemi. Un sistema cognitivo deve
implementare al suon interno una quantità enorme di regole molto specifiche.
Queste regole costituiscono la spina dorsale della conoscenza. In un certo senso
“conoscere” significa saper rappresentare strutturalmente la realtà, a più livelli
(astraendo queste rappresentazioni strutturali), e saper sfruttare le sue regole
emergenti.
La grande maggioranza di queste regole non sono quelle della logica, ne sono
regole che possono essere espresse facilmente usando un linguaggio formale.
Molte di queste regole sono apparentemente complicate, nel senso che
dipendono da molte variabili ed informazioni specifiche, anche se spesso la loro
“logica di base” è in realtà abbastanza semplice da capire.
Per l’intelligenza naturale, quella che ci serve per percepire e capire il mondo
così come esso si manifesta a livello macroscopico, usiamo tipologie di regole
diverse da quelle che usiamo in fisica o in matematica. Nella pratica non
usiamo equazioni complicate di portata generale, ne algoritmi sequenziali
complessi, ne catene di deduzioni di logiche. Usiamo invece, in parallelo,
moltissime singole regole, spesso molto specifiche, e spesso relativamente
semplici nella loro logica di base, anche se si tratta di regole che spesso
dipendono da molte variabili specifiche secondo delle “pesature” che si
dimostrano molto difficili da gestire usando un approccio analitico.
Si può ben argomentare che in un sistema cognitivo l’apprendimento deve
33
Devis Pantano DRAFT Gennaio 2016
avvenire attraverso una sequenza di fasi nelle quali si acquisiscono capacità di
astrazione via via più sofisticate. In ogni una di queste fasi si acquisisce anche
un certo insieme di abilità, costituite da gruppi di regole emergenti, che
consentono di affrontare e risolvere alcune classi di problemi. Per passare da
una fase a quella successiva è necessario usare le capacità di astrazione e il
patrimonio di regole acquisite in quelle precedenti per generare astrazioni di
livello ancora più elevato. Queste astrazioni permettono anche di generalizzare i
problemi e di fatto di formularne di nuovi.
Si può mostrare che nelle prime fasi, dove si acquisiscono le prime capacità di
far fronte a problemi di basso livello, come quelli di coordinamento senso
motorio, si apprendono regole che sono in parte associative e in parte
operazionali. In effetti per pianificare un’azione mirata, per quanto semplice,
come quella afferrare un oggetto, è necessario suddividerla nelle sue “parti
componenti”, che sono i singoli movimenti e i singoli “micromovimenti”. In
queste regole la “parte associativa” serve a scegliere le sequenze dei movimenti
(operando in realtà già ad un primo livello di astrazione, per quanto
rudimentale). Diversamente la parte operazionale interviene per stabilire come
dosare i singoli movimenti. In questo caso sono necessari dei calcoli, ma questi
ultimi sono di una tipologia tale per cui risultano difficili da gestire usando
l’approccio analitico che siamo abituati ad usare in fisica o per molte branche
dell’ingegneria, mentre appaiono ben più efficaci approcci come quelli che
utilizzano reti neurali.
Nelle fasi successive di apprendimento si continua a migliorare le abilità di
base, anche quelle di coordinamento senso-motorio, ma cominciano ad
assumere un ruolo importante, e in un certo senso dominante, problemi e regole
dove prevale nettamente l’aspetto associativo. Queste regole costituiscono la
base portante dell’intelligenza naturale
1.9
Servono rappresentazioni strutturali di buona qualità
Il primo principio illustrato nel paragrafo 1.4 ci dice che al interno di un sistema
cognitivo devono esserci delle rappresentazioni che hanno delle corrispondenze
strutturali con quelle degli oggetti e dei fenomeni rappresentati.
In cosa consistono queste rappresentazioni? Come sono fatte?
Consideriamo due esempi tra i più importanti di rappresentazioni strutturali di
tipo “basilare”. Si tratta delle immagini visive e delle ricostruzioni
tridimensionali delle geometrie degli oggetti.
Non è difficile appurare che in ambedue i casi si tratta di rappresentazioni
strutturali. Esse infatti hanno delle evidenti corrispondenze con le strutture degli
oggetti rappresentati. Riflettendo non è difficile convenire che il loro motivo di
esistere, il loro senso, deve essere connesso proprio con tali corrispondenze. Se
34
Devis Pantano DRAFT Gennaio 2016
queste ultime non fossero presenti tali rappresentazioni non sarebbero di alcuna
utilità.
Ma tra queste due tipologie di rappresentazioni intercorre un’importante
differenza. Le immagini sono delle rappresentazioni che, dal punto di vista
delle corrispondenze strutturali, sono di “cattiva qualità”, mentre le
rappresentazioni tridimensionali sono, sotto questo punto di vista, di qualità
nettamente migliore.
In effetti una tipica immagine catturata nella retina contiene, mescolate assieme,
solo delle proiezioni distorte e parziali delle reali strutture degli oggetti che
cadono sotto il campo inquadrato. Molto spesso queste sono alterate dal rumore
e da effetti di luce. Spesso sono solo dei “pezzi” dell’oggetto complessivo.
Soprattutto sono solo bidimensionali mentre gli oggetti reali hanno una struttura
che è intrinsecamente tridimensionale.
Le neuroscienze mostrano con chiarezza che una parte importante della nostra
corteccia visiva è dedicata ad eseguire delle “operazioni di analisi” sulle
rappresentazioni generate nelle retine. Si può bene argomentare che queste
elaborazioni, queste operazioni di analisi, devono avere almeno due scopi. Con
buona probabilità uno di questi consiste nel “riconoscimento diretto” degli
oggetti rappresentati. Questo tipo di riconoscimento può essere definito
“diretto” perché avviene solo sulla base delle informazioni contenute in queste
rappresentazioni bidimensionali che sono, appunto, distorte, parziali, spesso
artefatte, quindi di “cattiva qualità”. L’altro probabile scopo di queste
elaborazioni è fornire informazioni sulla tridimensionalità.
Ragionando su questi fatti si può ipotizzare che in linea teorica, un ipotetico
organo di senso “visivo ideale” (che non esiste) dovrebbe essere in grado di
fornire non delle immagini, ma direttamente proprio delle ricostruzioni
tridimensionali degli oggetti osservati mentre si muovono, quindi una specie di
simulazione tridimensionale animata. Questa simulazione non si dovrebbe
limitare a contenere solo ciò che cade sotto lo sguardo, ma dovrebbe
“accumulare informazioni” sul complesso degli oggetti presenti intorno,
dovrebbe quindi somigliare da vicino ad una specie di ricostruzione 3D virtuale
dell’ambiente circostante, molto simile a quelle utilizzate nei moderni
videogiochi.
Ovviamente non disponiamo di un organo di senso in grado di generare nella
sua “retina equivalente” (dovrebbe essere una retina 3D...) direttamente una
rappresentazione di questo genere. Ciò è dovuto fondamentalmente alle leggi
fisiche che determinano come si generano gli stimoli prossimali. Queste leggi
impongono delle limitazioni alle prime rappresentazioni che si possono
generare direttamente nei nostri organi di senso visivi (la prima di queste è la
bidimensionalità).
È probabile che una porzione della nostra corteccia visiva riesca a generare
rappresentazioni tridimensionali (o vicine ad esse), ma per farlo sono necessarie
35
Devis Pantano DRAFT Gennaio 2016
reti complesse composte da alcune centinaia di milioni di neuroni. Devono
essere eseguite moltissime operazioni di elaborazione per arrivare a generare
delle rappresentazioni che possiamo considerare di “buona qualità”.
Un concetto centrale è che anche una volta generata una buona simulazione
tridimensionale dell’ambiente circostante, le operazioni di analisi non sono
certo terminate, ma devono continuare in profondità. In un certo senso il
passaggio dalle immagini bidimensionali ad una costruzione 3D serve
principalmente per supplire ad alcuni dei limiti delle prime, per rimediare alla
loro “cattiva qualità”; ma anche queste rappresentazioni 3D sono in realtà delle
rappresentazioni strutturali di base.
Esse forniscono infatti solo una base migliore da cui partire con ulteriori
operazioni di analisi. Queste ulteriori operazioni sono necessarie per l’analisi
strutturale e la successiva classificazione funzionale.
Il problema di passare dalle informazioni visive bidimensionali a delle buone
ricostruzioni 3D è difficile. Si può ben argomentare che nel caso della vista è utile
procedere in attività di analisi delle informazioni visive primarie, secondo due
modalità i cui scopi principali sono: il riconoscimento diretto degli oggetti sulla base
delle sole informazioni visive (per quanto queste siano bidimensionali, parziali,
distorte, e, a livello di base, tutt’altro che invarianti), e almeno una parziale
ricostruzione 3D, nella corretta collocazione spaziale, degli oggetti osservati. Le
neuroscienze sembrano indicare che nella corteccia dei primati queste due attività
avvengono in parallelo lungo due differenti vie di elaborazione. Alcune riflessioni
spingono a pensare che ci possano essere degli utili scambi di informazioni tra
queste. Ad esempio, il riconoscimento visivo diretto di un oggetto può essere utile
per fornire informazioni alle aree destinate a ricostruire la loro forma tridimensionale
e a collocarla nello spazio. Come detto si tratta di problemi difficili, che per anni
hanno resistito ai tentativi di replicazione in sistemi artificiali. Tuttavia recentemente
sono stati ottenuti risultati molto importanti per quanto riguarda il riconoscimento
visivo diretto, grazie alle convolutional neural network [Krizhevsky, Sutskever,
Hinton 2012 e vari altri lavori] Altri risultati recenti inducono a pensare che ci
potrebbero presto essere importanti progressi anche nel problema della ricostruzione
3D.
1.10 Il ruolo centrale del riconoscimento
A più riprese vari studiosi hanno suggerito di pensare, per alcuni dei loro aspetti
salienti, i sistemi capaci di cognizione come degli speciali “simulatori della
realtà”. Nel 1943 lo psicologo scozzese Kenneth Craik suggeriva che:
“Quando l’organismo porta dentro di sé un “modello in piccola scala” della
realtà esterna e delle sue possibili azioni, diventa per esso possibile esplorare
diverse alternative, optare per quella migliore, reagire a possibilità future
prima ancora che si verifichino, utilizzare la conoscenza di eventi passati per
affrontare il presente e il futuro, e in generale rispondere alle emergenze che
36
Devis Pantano DRAFT Gennaio 2016
gli si presentano in maniera molto più completa, sicura e competente.” [ Craik
1943]
Oggi la tecnologia dei calcolatori mette a disposizione simulatori molto potenti,
ma che funzionano in modo diverso rispetto ai sistemi cognitivi naturali.
Secondo alcune stime i maggiori supercomputer attuali si avvicinano, per
capacità di calcolo, alla “potenza computazionale” (stimata) del nostro cervello.
Ciò nonostante questi simulatori non sono dei sistemi intelligenti. Oggi le
simulazioni al calcolatore sono molto usate in varie discipline, non solo per
scopo scientifico o tecnologico, ma anche per scopi ludici (si pensi ai moderni
videogiochi). Il funzionamento di queste simulazioni è basato sull’utilizzo di
relativamente poche regole operazionali: la maggior parte di esse utilizza un
numero (relativamente) contenuto di equazioni per calcolare come i processi
simulati evolvono nel tempo.
È plausibile che anche il nostro cervello generi e usi delle simulazioni interne,
ma che lo faccia con un approccio ben diverso per alcuni aspetti importanti.
Uno di questi è che il cervello, invece di usare poche regole operazionali,
utilizza moltissime regole emergenti (molte delle quali contemporaneamente)
nelle quali prevale l’aspetto associativo. È inoltre molto probabile, quasi
evidente, che costruisca le rappresentazioni del mondo operando non a “unico
livello”, come si fa con i simulatori attuali, ma generando contemporaneamente
molti “strati di rappresentazioni”, e applicando a queste anche diversi “strati
di regole”.
Questi strati, costituiti da rappresentazioni e relative regole, sono legati gli uni
agli altri da precisi rapporti gerarchici. Il passaggio da quelli più basilari a quelli
di livello più elevato avviene in modo naturale, seguendo spesso lo stesso
schema di base.
Per comprendere come si può realizzare un sistema cognitivo in grado di usare
le regole associative emergenti può essere utile partire pensando a un possibile
sistema ancora non intelligente, ma che realizza al suo interno delle prime
simulazioni della realtà circostante. Ragionando su cosa manca a questo sistema
si possono comprendere alcuni passaggi importanti.
Pensiamo dunque a un sistema ipotetico, che sia dotato dell’equivalente di
alcuni dei nostri principali organi di senso (vista e udito), e sia capace, per
ipotesi, di ricostruire al proprio interno una rappresentazione tridimensionale
dell’ambiente circostante. Questo sistema dovrebbe essere dotato
dell’equivalente della vista e dovrebbe essere capace di costruire una
“proiezione in 3D”, virtuale interna, del “percepito”.
Supponiamo quindi di avere a disposizione un sistema che costruisce, al suo
interno, una “realtà virtuale” in modo simile a quella generata in molti
videogiochi moderni e che corrisponde proprio a quanto percepito in un certo
momento. Un apparato di questo genere, in grado di fare solo questa cosa, non è
37
Devis Pantano DRAFT Gennaio 2016
sicuramente ancora un sistema intelligente. Un simulatore 3D non ha
conoscenza delle cose e delle regole del mondo. Al massimo può essere usato
per generare delle previsioni sulle traiettorie degli oggetti in movimento, ma si
tratta di previsioni che funzionano solo su scale temporali abbastanza brevi e
che falliscono non appena gli oggetti in movimento interagiscono con altri. La
nostra realtà fisica non è prevedibile, se non su scale temporali limitate, usando
solo delle semplici simulazioni tridimensionali.
Cosa manca a questo sistema per poter diventare un sistema intelligente?
A questo sistema manca la capacità di riconoscere i singoli oggetti, le singole
cose, e in particolare le singole situazioni ricostruite al suo interno, nonché la
capacità di applicare a questi “riconoscimenti” le regole emergenti alle quali
sono soggette le situazioni che si determinano.
1.11 Il problema del confronto tra strutture
Per riconoscere un oggetto, un fenomeno o una situazione, dobbiamo in qualche
modo confrontare le nuove informazioni, in genere ricavate dai sensi, con
qualcosa che abbiamo memorizzato in passato. Per ipotesi, nel nostro sistema in
esame, queste informazioni consistono in una ricostruzione tridimensionale
delle scene osservate. Come possiamo procedere per confrontare queste
ricostruzioni?
Una strategia ingenua, forse la prima che viene in mente, consiste nel prendere
le rappresentazioni estese di due oggetti e provare a “sovrapporle” con qualche
movimento rigido che non le deformi.
Si noti che l’equivalente per una rete neurale di questo “approccio ingenuo”,
corrisponde nel cercare di confrontare direttamente due sotto-vettori del
complesso dei vettori di input (il vettore composto da tutte le variabili in
ingresso alla rete). Questo confronto può essere eseguito ad esempio calcolando
la distanza euclidea tra i due.
Ma un metodo di questo genere difficilmente può funzionare. Che efficienza
può avere? È facile convenire che nella nostra esperienza quotidiana abbiamo a
che fare molto spesso con oggetti che non mantengono una forma rigida, ma
che siamo comunque in grado di riconoscere. Continuamente abbiamo a che
fare con categorie di oggetti che si “assomigliano nella struttura”, ma che non
sono affatto sovrapponibili e che, nonostante questo, siamo in grado di
riconoscere come dello stesso tipo.
Se ragioniamo sulla questione, non è difficile convenire che il modo con il
quale confrontiamo le nostre “ricostruzioni interne” deve essere un altro, non è
pensabile che ci limitiamo a cercare di sovrapporre le ricostruzioni geometriche.
Supponiamo di essere in grado di aggiungere al nostro sistema, in grado di
38
Devis Pantano DRAFT Gennaio 2016
ricostruire le rappresentazioni 3D e di memorizzarle (oppure a un sistema che
si occupa di confrontare delle figure piane) un altro apparato speciale,
costituto da un sistema di reti di funzioni (delle reti neurali in molti casi) in
grado di identificare l’insieme delle proprietà e delle relazioni strutturali,
relative alle possibili strutture derivabili, e di renderle esplicite producendo
una loro elencazione digitalizzata, ad esempio, per aiutare l’immaginazione, di
tipo binario.
Quest’apparato, questo sistema di reti, dovrebbe eseguire una serie di
operazioni che possono essere indicate come analisi strutturale .Tra di queste
sono importanti le operazioni di derivazione, in particolare, per i nostri scopi,
sono importanti quelle di quoziente e quelle di morfismo. Per quanto visto nel
paragrafo 1.4, per descrivere queste strutture dobbiamo “specificare” le
informazioni che descrivono le proprietà interne e le relazioni esterne delle
nuove parti che compongono la struttura quoziente.
Supponiamo sia possibile costruire un apparato in grado di far questo e
supponiamo che esso sia simile ad un sistema di reti neurali multistrato, i cui
nodi intermedi rendono esplicite proprio la presenza di singole specifiche
proprietà interne e di singole specifiche relazioni esterne della nostre strutture
quozienti.
Quindi questa rete deve, per ipotesi, essere in grado di produrre delle variabili,
che con il loro valore indicano se è o non è presente una specifica proprietà o
una specifica relazione strutturale relativa alle possibili strutture quoziente. In
taluni casi queste variabili possono anche indicare “quanto” le informazioni
analizzate si avvicinano ad una proprietà o a una relazione specifica.
Generalizzando, questo sistema di reti di analisi dovrebbe fornire in uscita
moltissime variabili che di volta in volta si attivano o restano spente in funzione
del fatto che sia o no presente la specifica caratteristica strutturale alla quale
sono individualmente associate. Ad esempio, se l’oggetto osservato è una
bottiglia, il nostro apparato dovrebbe essere in grado di fornire l’equivalente di
un lungo elenco di “bit accesi”, associati a moltissime singole informazioni
strutturali sulla struttura di quella specifica bottiglia. Molte di queste
informazioni dovrebbero consistere in: “particolari strutturali”, “dettagli di
forma”, “categorie di relazioni tra le parti componenti”, e varie altre
informazioni che possono essere difficili da descrivere linguisticamente. Per
fare degli esempi posso provare a elencarne alcune, ma si tenga presente che in
realtà devono essere molte di più di quelle che posso nominare e che spesso si
tratta di dettagli strutturali difficili da descrivere a parole. Nel caso di una
bottiglia i singoli “nodi accesi” potrebbero indicare rispettivamente che:
l’oggetto è di forma allungata, ha una forma cilindrica, la base del cilindro
corrisponde a un cerchio, dalla parte opposta alla base il cilindro si restringe, da
questa parte presenta un foro, il rapporto della base rispetto all’altezza è
compreso entro un certo intervallo…. e moltissime altre.
Il tutto dovrebbe essere implementato in modo tale che per ogni una (o quasi) di
39
Devis Pantano DRAFT Gennaio 2016
queste caratteristiche strutturali, esista una variabile specifica (dedicata solo a
tale specifica caratteristica) che con il proprio stato indica se la caratteristica in
oggetto è, o non è, presente nella scena osservata.
Se ammettiamo di essere in grado di produrre questi elenchi, possiamo pensare
di spostare le operazioni di confronto dalle rappresentazioni “estese” (quelle di
base), all’elenco di queste variabili di esplicitazione. In effetti, in teoria, se
l’analisi e l’esplicitazione delle proprietà strutturali è stata fatta correttamente,
possiamo aspettarci che due forme identiche (e nella stessa posizione)
produrranno esattamente gli stessi elenchi di valori. Potremmo anche pensare di
memorizzare direttamente questi elenchi, invece delle rappresentazioni 3D.
Si tratterebbe quindi di spostare, almeno in parte, il problema del confronto
dalle rappresentazioni tridimensionali o bidimensionali “estese” a questi
elenchi. Può funzionare? E nel caso: quale sarebbe il vantaggio di
quest’operazione?
Ebbene credo che quest’operazione possa comportare un vantaggio enorme per
l’attività cognitiva, a patto di produrre questi elenchi nel modo opportuno.
Questo vantaggio consiste nel fatto che selezionando, nel modo corretto,
particolari sottoinsiemi di questi grandi elenchi, è possibile identificare non una
singola forma precisa, bensì un’intera classe di forme, accomunate da
specifiche “parentele strutturali”. Credo si tratti proprio di quelle parentele
che ci permettono di riconoscere in modo flessibile sia singoli oggetti, sia
categorie di questi. Anche se due oggetti non coincidono perfettamente per le
loro forme tridimensionali, o nelle immagini bidimensionali, essi possono
presentare comunque delle somiglianze strutturali, che ne permettono il
riconoscimento e la classificazione.
Possiamo inoltre pensare di utilizzare alcuni sottoinsiemi, della grande lista di
variabili, per costruire delle “rappresentazioni invarianti” del medesimo
oggetto. L’idea è che alcuni di questi sottoinsiemi si possano attivare in maniera
“sufficientemente univoca”, tale da permettere il riconoscimento di un
particolare oggetto, in modo indipendente dalla posizione specifica che esso
assume, dalla scala nella quale è rappresentato, e anche qualora sia parzialmente
occluso. In altre parole, l’idea è che sia possibile identificare particolari
sottoinsiemi del grande elenco, che costituiscono, per gruppi, delle specie di
“firme” di un oggetto specifico o di una certa classe di oggetti (un medesimo
oggetto può avere associate più “firme” costituite da distinti insiemi di
variabili). L’idea generale è di utilizzare queste “firme” per riconoscere gli
oggetti, i fenomeni e le situazioni, nonché, più in generale, per riconoscere le
regolarità strutturali che si manifestano nelle rappresentazioni del mondo che
ci circonda.
Vediamo un altro esempio.
Ci si ponga il problema di classificare delle figure tracciate con un segno a
penna nera su dei fogli. Il numero di disegni possibili è ovviamente
40
Devis Pantano DRAFT Gennaio 2016
elevatissimo. Supponiamo di riprendere il tutto con una telecamera, e di
studiare degli algoritmi che permettano ad un calcolatore di procedere in
maniera automatica ad una serie di classificazioni che per noi osservatori umani
sono alquanto naturali. Supponiamo che il problema sia di riconoscere quando
il disegno tracciato appartiene ad alcune categorie semplici, ad esempio a quelle
dei poligoni, dei poligoni regolari, dei triangoli, dei triangoli rettangoli ecc ...
Vogliamo inoltre che quest’algoritmo sia in grado di rendere esplicite le
regolarità che sono presenti entro queste figure.
La struttura di partenza, che è una struttura base è in questo caso data da un
insieme di parti (i singoli pixel) che possono assumere, per ipotesi, solo due
valori, quindi solo due stati di distinguibilità interna: 0 e 1, corrispondenti al
colore bianco e a quello nero. Il complesso delle relazioni esterne è dato dal
grafo che rappresenta le adiacenze tra un pixel e quelli immediatamente vicini.
Supponiamo di avere a che fare con disegni che sono costituiti solo da linee
dritte o curve, ben separate l’una dall’altra, che possono al massimo intersecarsi
in pochi punti.
Nel caso specifico dell’esempio, in virtù della sua semplicità, non è difficile
scrivere algoritmi in grado di riconoscere punti e linee. Non è neppure difficile
fare in modo che questi algoritmi siano in grado di distinguere tra linee dritte e
linee curve, e tra coppie di segmenti che si toccano in qualche punto specifico,
in particolare ai vertici. È anche possibile scrivere algoritmi che sono in grado
di riconoscere, senza ambiguità, quando un insieme di segmenti dritti sono uniti
in modo da formare una figura chiusa che sarà quindi un poligono.
Il problema che ci poniamo è quello di trovare le similitudini che si possono
presentare nei vari disegni, quindi le regolarità che sono presenti in essi.
Ancora una volta il caso più semplice è quando confrontiamo due figure che
sono identiche punto per punto. Quindi quando le due strutture di base sono
direttamente isomorfe. In questo caso scrivere un algoritmo che sia un grado di
identificare questa coincidenza è abbastanza semplice. Possiamo “ritagliare” le
nostre figure e provare a traslarle e a ruotarle fino a che non rileviamo una
sovrapposizione perfetta.
Le cose diventano però più complesse quando le figure non coincidono più
perfettamente. Ad esempio: se i disegni che stiamo esaminando mostrano
ambedue due esagoni, ma di dimensioni diverse e ruotati in qualche maniera,
come facciamo a costruire un algoritmo che sia in grado di rilevare le regolarità
che sono presenti nelle due figure?
Fin tanto che si tratta di esagoni regolari, si può sempre procedere con
operazioni di cambiamento di scala, rotazioni e traslazioni, e con queste
trasformare le figure diverse in due oggetti che coincidono a livello di struttura
base. Una persona che osserva le due figure non ha certo difficoltà a capire di
quale entità e in quale verso va fatto l’opportuno riscalamento di dimensioni,
nonché l’opportuna rotazione e la giusta traslazione. Ma se vogliamo scrivere
41
Devis Pantano DRAFT Gennaio 2016
un algoritmo che sia in grado di trovare da solo la combinazione giusta, come
dobbiamo procedere? Non è un problema banale!
Supponiamo ora che la situazione sia più complicata, supponiamo di essere
sempre in presenza di due poligoni, ma questa volta non regolari e fatti in
maniera tale che, per quanto si provi, non esista alcuna sequenza di rotazioni,
traslazioni e riscalamenti uniformi, in grado di far coincidere le due figure. Per
l’osservatore umano che guarda le due figure è semplice percepire che esistono
delle corrispondenze, quindi delle regolarità di qualche tipo tra le figure
rappresentate. Non è invece affatto banale scrivere un algoritmo che sia in
grado venire a capo del problema.
Ma in cosa consistono queste regolarità? Nei casi precedenti era sempre
possibile ottenere alla fine due strutture di base isomorfe effettuando delle
opportune operazioni di rotazione, spostamento e cambiamento di scala.
L’isomorfismo si presentava su una porzione della struttura di base, quindi su
una porzione della matrice di pixel che costituisce l’immagine.
Il nostro nuovo problema di confronto diventa affrontabile se passiamo dalla
struttura di base a strutture derivate, in particolare alle strutture derivate che
hanno per parti componenti le porzioni di quelle di base che corrispondo ai lati.
Nel caso specifico, quindi, le nostre nuove parti di struttura sono ora gli interi
segmenti, e la struttura che stiamo considerando è quoziente rispetto a quella di
base (o meglio è quoziente rispetto ad una certa porzione della struttura base,
quella costituita solo dai pixel di colore nero). Ma cosa possiamo dire ora sulle
proprietà che determinano le “distinguibilità interne” e sulle relazioni esterne di
queste nuove parti di struttura?
Le nuove parti di struttura non sono più singoli pixel che possono avere solo
due tipi di distinguibilità interna, ma adesso sono, a loro volta, oggetti
complessi e in quanto tali possono presentare varie proprietà strutturali
(interne). Nel caso specifico dell’esempio abbiamo a che fare con segmenti. Di
un segmento possiamo esprimere, tra le altre cose la lunghezza, l’orientazione
(ad esempio rispetto la verticale) e possiamo esprimere la sua proprietà di
“drittezza” che lo differenzia da tutti gli altri tipi di spezzoni di linea, Queste
“caratteristiche della parti componenti” costituiscono ore le nuove proprietà
interne e vanno quindi a codificare le informazioni con cui i vari segmenti sono
distinguibili gli uni dagli altri, sulla base delle proprietà interne. Le
relazioni esterne dovranno invece codificare “come sono disposti” i vari
segmenti. Si dovranno quindi specificare le distanze, il fatto che due segmenti si
tocchino in qualche punto, il fatto che si tocchino proprio ai vertici, nonché
l’angolo risultante oppure l’eventuale parallelismo.
Notiamo ancora una volta che, per il problema specifico, non è difficile scrivere
algoritmi che siano in grado di portare a termine queste operazioni.
La nuova struttura quoziente che si ottiene, che è un poligono, sarà in questo
caso definita da:
42
Devis Pantano DRAFT Gennaio 2016



L’insieme delle sue parti.
La tipologia delle parti (le loro proprietà interne) quindi: il fatto che
sono segmenti (che sono linee dritte), le rispettive lunghezze (oppure
che queste rientrano in particolari “range di valori”), la loro orientazioni
rispetto la verticale, ecc..
Le relazioni esterne tra le parti: quindi il fatto che si tocchino a coppie,
che formano a coppie un determinato angolo, che tutto l’insieme
costituisce un poligono chiuso…
Specificando ed esplicitando in maniera completa tutte queste informazioni si
individua, di volta in volta, una struttura che costituisce un particolare poligono.
Due poligoni così definiti saranno isomorfi se e solo se avranno in comune tutte
le proprietà descritte sopra. Ne consegue che sono da considerarsi
completamente isomorfi solo quei poligoni che si trovano nella stessa posizione
ed hanno le stesse identiche dimensioni.
Ma cosa succede questa volta quando abbiamo a che fare con poligoni non
sovrapponibili?
Essendo ora le informazioni sulle caratteristiche strutturali date in forma
esplicita, si può procedere a considerare i vari morfismi possibili. Come
suggerito nel paragrafo 1.4, per eseguire le operazioni di morfismo dobbiamo,
in qualche modo, attenuare le informazioni che descrivono le strutture.
È banale vedere che questa operazione di “attenuazione delle distinguibilità” è
molto semplice: basta selezionare solo una parte delle informazioni rese
esplicite. Possiamo anche vedere che è possibile implementare in una rete di
funzioni ( e anche in una rete neurale) dei nodi che reagiscono quando ricevono
in input solo una selezione di quelli dei livelli più bassi. Questi nodi di livello
più elevato saranno quindi in grado di esplicitare alcuni dei morfismi della
nuova struttura quoziente.
Proviamo ora ad “attenuare” le distinguibilità interne tra le parti. Si proceda
non distinguendo più sulle lunghezze specifiche. Ciò che si ottiene è una
medesima rappresentazione strutturale che codifica tutti i poligoni che hanno lo
stesso numero di lati e che determinano lo stesso angolo tra i lati stessi. Viste in
questo modo diventano coincidenti tutte le strutture che corrispondono a
poligoni simili che hanno una certa orientazione. Possiamo anche agire
diversamente e decidere di non considerare come proprietà distintiva le
orientazioni e gli angoli specifici. Generiamo quindi un’altra rappresentazione
più permissiva e così facendo diventano in questo caso “uguali”, ne senso di
non distinguibili per la nostra codifica, tutti i poligoni costituiti da uno
specificato numero di lati, ma di dimensioni e di orientazione qualunque.
In questo esempio, volutamente semplificato, abbiamo visto che in taluni casi è
possibile identificare delle regolarità procedendo con opportune operazioni di
43
Devis Pantano DRAFT Gennaio 2016
derivazione. Con queste operazioni cambiamo la rappresentazione e rendiamo
esplicite alcune proprietà strutturali importanti della struttura base in esame.
Ovviamente nel far questo non dobbiamo aggiungere nuova informazione
che non sia già implicitamente contenuta nei dati originali.
Se da una struttura di partenza eseguiamo un’operazioni di quoziente, e in
qualche modo riusciamo a rendere esplicite tutte le caratteristiche strutturali
che la caratterizzano e consideriamo il prodotto logico di tutte queste
caratteristiche, ciò che otteniamo è semplicemente un quoziente dell’intera
struttura di partenza. In questo caso la nostra capacità di trovare corrispondenze
strutturali non è aumentata, è rimasta la stessa. Se invece rinunciamo a qualcosa
otteniamo delle altre rappresentazioni più tolleranti. Con queste operazioni, che
propongo di chiamare morfismi, continuiamo a conservare qualcosa della
struttura in oggetto, ma non tutto, e in questo modo costruiamo della
rappresentazioni più generali, che valgono per intere classi di oggetti.
Nell’esempio appena illustrato abbiamo confrontato oggetti le cui
rappresentazioni strutturali sono particolarmente semplici da analizzare. Ma
questo modo di procedere ha validità generale oppure funziona solo in casi
particolari? Può essere applicato nel caso di immagini? Le reti neurali eseguono
realmente qualche sorta di analisi strutturale?
Propongo che la strategia illustrata sia applicabile ad un ampia classe di
rappresentazioni strutturali, anche se i processi di analisi possono essere ben più
complessi rispetto a quelli dell’esempio.
Ad ogni modo il concetto generale è che sia comunque necessario spostare le
operazioni di confronto dalle strutture di base a strutture derivate, e di rendere
esplicite le informazioni che descrivono queste ultime. Operando sulle
informazioni esplicite diventa semplice identificare morfismi. Questi morfismi
permettono di rendere palesi regolarità strutturali altrimenti non identificabili.
Propongo di indicare il complesso di queste operazioni con il termine: analisi
di struttura. Il fine dell’analisi di struttura è di rendere esplicito il contenuto di
informazione strutturale presente sia nelle strutture di base, sia nel complesso di
quelle da esse derivabili.
In ultima analisi queste operazioni servono a rendere esplicite le informazioni
che permettono di identificare regole e regolarità utili. L’analisi strutturale è
essenziale per identificare il complesso delle regole emergenti. Si consideri
infatti che la maggioranza di queste ultime sono, come già accennato, regole
dove svolge un ruolo essenziale la componente associativa. Spesso sono regole
che consistono nell’associazione di insiemi di “fatti specifici”. Per codificare e
riconoscere questi fatti specifici è necessario passare per la esplicitazione delle
informazioni strutturali.
Anche per la codifica di molte regole di pianificazione ed esecuzione delle
azioni concrete, nelle quali è presente una componente operazionale, servono
44
Devis Pantano DRAFT Gennaio 2016
molte informazioni esplicite relative alla strutture degli oggetti concreti. Anche
in questo caso, a tutti gli effetti, sono informazioni che riguardano strutture
derivate rispetto le equivalenti tridimensionale delle rappresentazioni di base.
Come accennato, nelle prime fasi di apprendimento senso-motorio si devono
scoprire regole dove è forte la componente operazionale, ma uno degli
obbiettivi di queste prime fasi consiste nell’acquisizione di un primo substrato
di capacità percettive e motorie tali da formare la base che permette di accedere
ad complesso di altre regole emergenti dove prevalgono le componenti
associative.
Vedremo che l’analisi di struttura da sola non è ancora sufficiente per
permettere la codifica di tutte le regole utilizzabili e per definire gli equivalenti
dei concetti più astratti. Vedremo che a ridosso dell’analisi strutturale è
necessario procedere con ulteriori operazioni di classificazione funzionale. Ad
ogni modo l’analisi strutturale è un passaggio obbligato. Essa è essenziale per il
riconoscimento degli elementi che permettono in seguito di passare ad
astrazioni più spinte. In effetti la grande maggioranza delle “entità concrete”
che siamo in grado di riconoscere, sono identificabili grazie ai prodotti
dell’analisi strutturale. Il riconoscimento di queste entità concrete consiste
nell’identificazione di regolarità nei prodotti dell’analisi di struttura. È facile
mostrare che l’analisi di struttura richiede la presenza di reti di funzioni i cui
nodi esplicitano le singole informazioni strutturali. Quindi le regolarità
menzionate si manifesteranno come correlazioni tra i valori di attivazione di
sottoinsiemi di nodi di tali reti.
In molte tipologie di reti è utile implementare uno strato di alto livello i cui nodi
si attivano selettivamente quando è presente un oggetto specifico. Questi nodi
esplicitano il riconoscimento di tale oggetto. Questi nodi dovranno quindi
ricevere come input i valori prodotti da nodi di livello sottostante che
esplicitano quegli insiemi di caratteristiche strutturali, identificate dai processi
di analisi di struttura, che permettono il riconoscimento dell’oggetto. Si tenga
presente che in molti casi il riconoscimento del medesimo oggetto potrà
avvenire anche usando differenti insiemi di caratteristiche strutturali. In alcuni
casi questi insiemi possono essere parzialmente sovrapposti, in altri potranno
anche essere disgiunti.
L’analisi di struttura si può eseguire in linea di principio su ogni tipologia di
informazione strutturale. Si può mostrare che si possono rappresentare ed
analizzare non solo le strutture degli oggetti statici e le loro relazioni spaziali,
ma anche le strutture delle nostre azioni, dei nostri movimenti, dei nostri
comportamenti complessi.
Per l’analisi di struttura di un’ampia classe di rappresentazioni strutturali è utile
procedere nel modo illustrato nell’esempio: vale a dire con operazioni di
quoziente, di esplicitazione delle proprietà e delle relazioni delle nuove parti di
45
Devis Pantano DRAFT Gennaio 2016
queste strutture quozienti, e nella codifica dei loro possibili morfismi. Queste
operazioni possono essere ripetute più volte, per gerarchie, pur partendo dalle
medesime informazioni in input. È probabile che questa metodica si possa
applicare, tra l’altro, anche per l’analisi di immagini, che come accennato sono
rappresentazioni di base di “cattiva qualità”, e sulle ricostruzioni 3D, che sono
rappresentazioni di “qualità migliore”.
Ma detto questo resta comunque ancora da capire come si possano eseguire
concretamente queste operazioni di analisi. Appare fortemente probabile che
anche per l’analisi di struttura si possano sfruttare alcuni dei metodi di
apprendimento sviluppati per le reti neurali profonde. Per alcuni classi di
analisi strutturale nulla vieta di utilizzare tecniche di addestramento per
rinforzo.
1.12 Alcuni accenni su come è fatto, come funziona e come si può costruire
un sistema cognitivo
Le idee illustrate nei paragrafi precedenti forniscono importanti informazioni
per comprendere la logica dei processi cognitivi. Usando queste idee mi è stato
possibile formulare un modello generale di sistema cognitivo e stendere il
progetto per la realizzazione di una sua versione artificiale. Sicuramente c’è
ancora molto lavoro da fare sul piano teorico e, soprattutto, su quello
sperimentale. Ritengo però esista una significativa probabilità che queste idee
possano contribuire alla realizzazione di sistemi evoluti di intelligenza
artificiale in tempi brevi.
Il lettore tenga presente che per poter descrivere in poche pagine il
funzionamento globale di un sistema cognitivo dovrò illustrare le cose
proponendo dapprima una “visione dall’alto”. Le descrizioni che seguono
riassumono e generalizzano processi di una certa complessità. Ad una prima
lettura si potrebbe avere l’impressione che queste descrizioni siano troppo
generali e non diano molta informazione su come si può implementare
concretamente il tutto. In realtà tutte queste descrizioni possono essere tradotte
in altre molto più dettagliate che però richiedono molte pagine. Una parte di
queste sono disponibili nella monografia.
Abbiamo visto che la necessità di esplicitare le proprietà e le classificazioni
funzionali delle rappresentazioni strutturali, sia di base che derivate, richiede un
sistema di reti stratificate. Non è difficile vedere che anche il complesso delle
regole emergenti (naturali) si presta ad essere implementato in reti di funzioni.
Può essere utile notare che nelle reti di analisi i singoli nodi, che rendono
esplicite le singole informazioni, svolgono anche la funzione di “simbolo
percettivo” di tali informazioni. Si può ben argomentare che moltissime
46
Devis Pantano DRAFT Gennaio 2016
rappresentazioni di situazioni possono essere codificate in modo compatto
raccogliendo i simboli percettivi dei “soggetti protagonisti” e delle loro
relazioni importanti (queste ultime possono essere di vario tipo: spaziali,
temporali, funzionali, logiche, di ruolo…ecc). Sia il riconoscimento di tali
singoli soggetti, sia delle loro relazioni, avviene tramite l’attivazione di
specifici nodi nel complesso delle reti di analisi. Quindi queste rappresentazioni
compatte di singole situazioni si realizzeranno nella forma di sotto-vettori le cui
componenti sono i valori di attivazione di particolari sottoinsiemi dei nodi di
tali reti.
Possiamo allora comprendere che la natura stessa delle regole emergenti, in
particolare il fatto di avere una componente associativa dominante, fa si che
esse si prestino ad essere implementate in reti di funzioni. In effetti
(semplificando un po’) molte di queste regole consistono in associazioni
(pesate) di rappresentazioni compatte di situazioni. Situazioni che spesso
risultano legate da rapporti del tipo causa ed effetto (sia in senso diretto che
inverso). In molti casi queste associazioni compariranno come correlazioni
statistiche tra i sott-vettori di attività dei rispettivi gruppi di nodi.
Si può anche ben argomentare che sono implementabili in reti di funzioni anche
le componenti operazionali delle regole che servono per la pianificazione e
l’esecuzione delle azioni concrete. Esse infatti richiedono una tipologia di
calcoli che si prestano bene a questa cosa. In effetti sono stati realizzati agenti
intelligenti composi da reti neurali profondi che sono in grado di scoprire ed
implementare regole di questo tipo.
Un sistema cognitivo ideale si distingue rispetto ad un semplice agente
intelligente in vari aspetti. Nei recenti agenti intelligenti, costituiti da reti
neurali profonde, è possibile identificare, in forma rudimentale, alcune delle
componenti che credo debbano essere presenti anche in un sistema cognitivo
evoluto. In effetti le reti neurali che costituiscono alcuni di questi agenti
appaiono suddivisibili in almeno due parti. La prima parte della rete
complessiva esegue operazioni di analisi strutturale delle informazioni in input
(in genere si tratta di immagini). Essa ha la funzione di rendere esplicite le
informazioni che servono per codificare le regole di azione. La parte finale
serve per implementare queste regole. Negli agenti attuali si tratta di regole
dove prevale ancora la componente operazionale.
Si può mostrare che per realizzare un sistema cognitivo evoluto è necessario
usare un approccio più sofisticato. Sono infatti necessari vari sottosistemi di
reti opportunamente interconnessi (e sono anche utili alcuni apparati che
fungono da teatri virtuali). Buona parte di questi sottosistemi devono essere
organizzati per gerarchie. Un ruolo particolarmente importante è svolto da
quelle che possiamo chiamare reti suggeritrici. In un sistema cognitivo evoluto
la strutturazione gerarchica di queste reti permette di affrontare problemi che
47
Devis Pantano DRAFT Gennaio 2016
vengono rappresentati già in maniera astratta. La strategia generale consiste
nello scomporli in sotto-problemi da demandare alle reti suggeritrici di livello
inferiore. Negli attuali agenti intelligenti sono già presenti delle reti
suggeritrici (nella menzionata parte finale) ma queste sono implementate ancora
in forma rudimentale e operano solo a basso livello di astrazione.
Per generalizzare possiamo dire che un sistema cognitivo è caratterizzato dalla
capacità di accedere e sfruttare in modo ampio il complesso delle regole
emergenti; mentre un semplice agente intelligente ha accesso ad un insieme di
regole alquanto limitato. Inoltre un sistema cognitivo è in grado di
generalizzare ed astrarre i problemi e sa affrontarli scomponendoli in gerarchie
di sotto-problemi.
Per poter far questo un sistema cognitivo deve essere in grado di rappresentare
al suo interno l’ambiente circostante, e in particolare le situazioni che si
determinano, non ad un singolo livello, come si fa nei moderni simulatori, ma a
più livelli. Non si tratta semplicemente di eseguire l’analisi strutturale delle
informazioni sensoriali in input , ma di costruire delle gerarchie di
rappresentazioni che ritraggono le situazioni in essere a diversi livelli di
astrazione.
Le prime di queste astrazioni si possono realizzare eseguendo operazioni di
derivazione strutturale in grado di estrarre strutture emergenti e di rendere
esplicite le loro proprietà. Queste operazioni sono in parte simili a quelle che
avvengono nella parte di analisi delle reti che costituiscono un agente
intelligente. In un sistema cognitivo queste informazioni possono essere usate
per riconoscere gli oggetti concreti e per codificare i primi morfismi strutturali,
vale a dire le loro prime generalizzazioni. Ma i processi di astrazioni devono
continuare ulteriormente classificando le entità identificate in base alle funzioni
e ai ruoli che esse assumono nei problemi che il sistema si trova ad affrontare.
Queste nuove rappresentazioni possono essere realizzate su gerarchie di reti di
livello superiore e possono essere apprese solo qualora il sistema abbia già
acquisito una prima base di capacità di riconoscimento e di pianificazione delle
azioni concrete.
Il problema della reale costruzione di un sistema cognitivo completo può essere
suddiviso in due sotto-problemi.
 Il primo consiste nel capire come deve essere fatto il sistema: da quali
apparati e da quali reti deve essere composto, come questi devono
essere interconnessi, come devono funzionare.
 Il secondo consiste nell’ideare un chiaro percorso di “apprendimento
assistito” in grado di generare “la conoscenza del sistema”. Questo
percorso di apprendimento serve ad addestrare le varie reti di analisi e
ad implementare le regole di inferenza, di previsione, di gestione degli
48
Devis Pantano DRAFT Gennaio 2016
obiettivi, di gestione dei processi di attenzione, e soprattutto quelle per
la pianificazione delle azioni e dei comportamenti.
Per i nostri scopi tra le varie tipologie possibili di sistemi cognitivi i più
interessanti da studiare sono quelli di tipo embodied, o semi-embodied. Devono
essere dotati degli equivalenti dei nostri principali organi di senso: vista e udito,
e devono essere in grado di agire fisicamente nell’ambiente, ad esempio
attraverso arti robotici.
Propongo un modello di sistema cognitivo costituito, principalmente, da un
insieme di reti di funzioni . L’intero sistema opera grazie agli automatismi
implementati a livello delle singole funzioni.
Queste reti possono essere divise in differenti tipologie. Buona parte di esse si
occupano di contenere (e analizzare) rappresentazioni di situazioni. Alcune di
queste rappresentazioni potranno essere molto concrete e particolareggiate,
mentre altre saranno più astratte e schematiche.
Il modello prevede che spesso, entro le medesime tipologie di reti, siano
contenute sia le rappresentazioni concrete, sia buna parte delle loro astrazioni.
Le rappresentazioni interne sono però anche distinguibili in funzione che che si
riferiscano a situazioni del presente, del passato, oppure a situazioni
ipotetiche o potenziali quali: previsioni sugli stati futuri, obiettivi da
raggiungere, ipotesi sulle cause di quanto si osserva, e altro ancora. Servono
inoltre rappresentazioni che consistono in schemi che descrivono la
pianificazione di azioni e di comportamenti.
Le rappresentazioni che differiscono nelle “finalità cognitive” appena descritte,
devono essere implementate su reti (e sottosistemi) differenti. In genere in un
sistema cognitivo saranno contemporaneamente attive molte di queste
rappresentazioni relative a: situazioni attuali, situazioni previste, situazioni
obiettivo e altre ancora. Il sistema deve sempre essere in grado di distinguere le
rappresentazioni che si riferiscono alla “realtà oggettiva”, che sono quelle che
sono ricavate dalle informazioni che provengono dai sensi, e quelle che sono
invece il frutto di elaborazioni interne.
Si possono distinguere varie tipologie di reti; tra le più importanti vi sono:
 reti per le prime analisi delle informazioni sensoriali,
 reti o apparati che fungono da teatri virtuali,
 reti di analisi strutturale,
 reti di analisi e classificazione funzionale,
 reti per l’implementazione delle regole di previsione,
 reti per gli obiettivi e i pericoli,
 reti per la pianificazione delle azioni e dei comportamenti. Tra queste
sono particolarmente importanti le “reti suggeritrici”.
49
Devis Pantano DRAFT Gennaio 2016
Buona parte di queste reti, seppur ben distinguibili perché dedicate a contenere
rappresentazioni con finalità diverse, devono essere “parzialmente parallele”,
nel senso che devono condividere molti dei medesimi simboli percettivi, vale
a dire molte delle medesime informazioni rese esplicite . Si può mostrare che in
molti casi queste informazioni esplicite devono essere condivise in modo
trasversale tra reti dedicate a finalità diverse.
Una parte di queste reti rientrano a tutti gli effetti nella classe delle reti neurali.
Gerarchie di astrazioni
Come anticipato, in un sistema cognitivo i vari sistemi di reti sono stratificati
secondo una sequenza di gerarchie. Le singole reti a loro volta presentano
stratificazioni interne. Le gerarchie principali sono connesse con le fasi di
apprendimento, con la stratificazione delle astrazioni dei problemi che il
sistema apprende ad affrontare, e con la stratificazione delle gerarchie di regole
da cui potrà attingere per cercare di affrontarli
Nelle gerarchie di più basso livello i nodi delle reti di analisi esplicitano
informazioni relative a proprietà più concrete e poco astratte. In esse le regole
di pianificazione servono a risolvere problemi molto concreti, ad esempio di
coordinamento senso-motorio per la movimentazione di oggetti. Queste
capacità sono quelle che vengono apprese per prime..
Nelle gerarchie di ordine superiore i nodi delle reti di analisi e di classificazione
esplicitano informazioni più generalizzanti, mentre le regole di pianificazione
dei comportamenti offrono soluzioni a problemi più astratti. Queste soluzioni
consistono in realtà in sequenze di sotto-problemi da affidare a reti di livello
gerarchico inferiore..
Nei sistemi di ordine inferiore avviene l’analisi primaria nonché il
riconoscimento e la classificazione degli oggetti concreti in base al loro aspetto
esterno e alla loro forma. In reti poste un po’ più a valle avvengono quelle
prime classificazioni funzionali delle proprietà geometriche 3D, e di altre
caratteristiche fisiche quali il peso, la rigidità, ecc.. che costituiscono
informazioni utili per identificare e implementare le regole per la pianificazione
ed esecuzione delle azioni concrete.
Nelle gerarchie di ordine superiore sono codificate astrazioni più spinte che
identificano categorie di oggetti (e di fenomeni in divenire) accumunati da usi
comuni, da comuni problematiche, da analogie nei ruoli che assumono nelle
varie tipologie di situazioni (e di problemi) che si determinano.
50
Devis Pantano DRAFT Gennaio 2016
Schema di funzionamento
Nei moderni agenti intelligenti la finalizzazione dell’attività del sistema è
gestita tramite dei “goal” da raggiungere che sono codificati tramite dei
sottospazi vettoriali, vale a dire tramite dei range di valori entro i quali devono
rientrare alcuni particolari gruppi di variabili. Questi “vettori goal” sono
formulati “manualmente” dal programmatore che crea l’agente.
In un sistema cognitivo evoluto è necessario usare un approccio più sofisticato.
Si possono finalizzare le attività del sistema assegnando un valore di
desiderabilità o di indesiderabilità a certe particolari rappresentazioni compatte
di situazioni, ma anche a singoli simboli percettivi, che assumono i ruoli di
obiettivi da raggiungere o di pericoli da evitare. Questi valori di
desiderabilità/in desiderabilità possono, in linea di principio, essere codificati
tramite dei semplici valori numerici1. Non tutte le possibili situazioni avranno
associato un valore di desiderabilità, molte potranno risultare neutre.
In genere un obiettivo da raggiungere (quindi con associato un valore positivo
di desiderabilità) sarà “attivo” quando non è soddisfatto, vale a dire quando
non è presente nel complesso delle situazioni del presente o in quelle previste.
In maniera inversa un soggetto indesiderabile, come può esserlo un pericolo,
sarà “attivo” quando è presente nelle rappresentazioni delle situazioni del
presente o nelle situazioni previste.
Possiamo quindi pensare, schematizzando all’estremo, che un sistema cognitivo
funzioni nella maniera che segue.
Ci sono reti, o meglio sistemi di reti, dedicate alle rappresentazioni dello stato
del presente che ricevono informazioni dagli organi di senso. Queste
informazioni sono opportunamente analizzate, interpretate e utilizzate per
costruire una serie di rappresentazioni, sovrapposte per livelli gerarchici, del
complesso delle situazioni attuali. Queste rappresentazioni sono contenute in
sottoinsiemi del complesso degli stati di attivazione dei dispositivi che si
trovano ai nodi di queste reti.
Come risposta a queste rappresentazioni, altre reti opportune dovranno produrre
le previsioni probabili di come si “evolveranno in modo naturale” tali
situazioni. Queste previsioni saranno generate tramite l’utilizzo di regole
implementate all’interno di opportuni singoli moduli che andranno a costituire
reti dedicate a questo scopo.
In queste reti (e in alcuni “teatri virtuali”) verranno generate delle previsioni su
come sono destinate ad evolversi le situazioni del presente.
1
In realtà è utile usare dei vettori da gestire attraverso delle funzioni euristiche: il valore di
desiderabilità codificate dalle singole componenti può variare nel tempo, in funzione delle
priorità circostanziali.
51
Devis Pantano DRAFT Gennaio 2016
A questo punto se accade che nelle situazioni del presente, oppure in quelle
previste, viene riconosciuta un’altra situazione, o un singolo soggetto, che
costituisce un pericolo, allora verranno attivati automaticamente i nodi relativi
(per la codifica di quella tipologia di pericolo) nelle reti degli obiettivi e dei
pericoli.
Queste attivazioni costituiranno dei segnali che a loro volta inducono
l’attivazione automatica di altre opportune reti suggeritici, dedicate alla
pianificazione delle azioni. Queste ultime sono costruite in modo da cercare al
loro interno un possibile comportamento che determini un’evoluzione degli
eventi dove il pericolo non è più presente nelle previsioni per il futuro.
In modo molto simile si può pensare di gestire gli obbiettivi da raggiungere. Se
nella rete opportuna (quella degli obbiettivi e dei pericoli) è attiva la
rappresentazione di una situazione obbiettivo e questa non è riconosciuta nelle
reti che contengono le rappresentazioni dello stato del presente o in quelle che
contengono le previsioni per il futuro, allora le reti suggeritrici, dedicate alla
pianificazione, saranno stimolate a cercare un comportamento che permetta di
fare in modo che il soggetto obiettivo diventi invece presente nelle previsioni
associate alle azioni suggerite.
Tutte le tipologie di reti menzionate appaiono realizzabili con metodi già
disponibili.
Alcuni primi punti sul funzionamento delle reti
Secondo il modello proposto un sistema cognitivo è quindi costituito da vari
insiemi di reti che si scambiano informazioni.
Queste reti sono composte di dispositivi che ricevono input e che possono
produrre degli output.
Questi dispositivi implementano delle funzioni. Uso qui la parola funzione con
un significato molto vicino a quello che assume in matematica e in informatica.
Una funzione costruisce una “mappa” tra sottospazi dei possibili input e dei
possibili output, implementata attraverso operazioni computazionali. In molti
dispositivi l’output consisterà in un singola variabile che “esprime un grado di
una corrispondenza”. Questo valore potrà essere utilizzato per esplicitare
l’avvenuto riconoscimento di uno specifico soggetto. In altri casi potrà
costituire la singola componente di un “comando” da spedire a un singolo
attuatore (o a un fascio muscolare), o ad apparati in grado di eseguire specifiche
azioni concrete.
In altri gruppi di dispositivi, che possiamo chiamare “moduli”, l’output non
consisterà in una singola variabile, ma in un’informazione più complessa (ad
esempio un vettore di simboli percettivi). Molti di questi moduli
implementeranno al loro interno delle funzioni di memoria. Si tratterà in genere
di memorie di tipo attivo, spesso a indirizzamento per contenuto. Il singolo
52
Devis Pantano DRAFT Gennaio 2016
dispositivo ( il singolo modulo), eseguirà al proprio interno delle operazioni di
confronto e verifica sugli input ricevuti e in funzione di queste “deciderà” (in
modo automatico attraverso le funzioni in esso implementate) se generare o no
il proprio output.
Un punto importante è che, per la maggior parte del tempo, molti di questi
dispostivi rimarranno attivi ma silenti, nel senso che riceveranno degli input e
eseguiranno al loro interno una serie di operazioni (in genere di confronto), ma
solo in taluni casi reagiranno producendo il loro output.
In generale quindi, all’interno di un sistema cognitivo devono essere
contemporaneamente presenti molte rappresentazioni di situazioni diverse.
Alcune di queste saranno “attive in moto esplicito” entro le reti del sistema.
Moltissime altre saranno invece “attive in modo silente”. Le rappresentazioni
che rimangono silenti in genere rimarranno confinate all’interno dei singoli
dispositivi dei che costituiscono le reti, mentre quelle esplicite compaiono
anche in output come attività dei nodi delle reti.
Le varie reti conterranno le conoscenze e le memorie semantiche, costituite
dalle informazioni strutturali e dalle classificazioni funzionali necessarie per
rappresentare e riconoscere le singole situazioni e per implementare le regole ad
emergenti ad esse applicabili.
In un singolo “istante”, o meglio nel singolo “stato di attività momentanea” del
sistema, la grande maggioranza di queste memorie saranno attive ma silenti.
Le reti del sistema devono, infatti, essere implementate in modo tale che tutte (o
quasi) le memorie contenute entro di esse siano vagliate in continuazione. Il
contenuto di questo memorie deve essere confrontato continuamente con le
“rappresentazioni attive in modo esplicito”, nelle reti dedicate alla
rappresentazione del presente (ma anche con altre), alla ricerca di
corrispondenze, o, più in generale, alla ricerca di condizioni tali che autorizzino
i singoli dispositivi a proporre in output il proprio contenuto, o più in generale, i
risultati della funzione in essi implementata.
Entro queste reti possono quindi essere presenti sia dispostivi che svolgono
principalmente la funzione di “memoria attiva” (indirizzabile per contenuto),
sia dispositivi che si occupano di computare funzioni di altro tipo.
Come detto, la grande maggioranza delle rappresentazioni e delle funzioni
dovranno essere comunque attive ma silenti! Buona parte dei singoli dispositivi
dovranno confrontare gli input ricevuti con quanto contenuto al loro interno, e
solo in casi particolari, quando si presentano ben determinate condizioni,
dovranno proporre il loro output.
Gli output dei dispositivi e dei moduli che si saranno attivati produrranno altre
rappresentazioni di situazioni della realtà. Queste ultime saranno quindi delle
rappresentazioni attive in modo esplicito.
Come affermato, alcuni dispositivi potranno produrre dei comandi, come ad
esempio degli impulsi che pilotano i movimenti e quindi le azioni concrete, o
l’equivalente di ordini di più alto livello da passare a reti di gerarchia più bassa.
53
Devis Pantano DRAFT Gennaio 2016
Anche questi comandi, e questi ordini, possono diventare gli elementi (le parti
di struttura) per costruire delle rappresentazioni interne delle azioni e dei
comportamenti che il sistema mette in atto. In genere prima di “decidere” di
fare una cosa, quindi di “passare all’azione”, si può rappresentare in modo
interno, vale a dire in modo virtuale, l’azione stessa senza compierla
effettivamente.
Un concetto importante è che le rappresentazioni attive in modo esplicito
servono per indurre altre reti, quindi altre parti del sistema cognitivo, a
“occuparsi di esse”, a reagire a esse.
In un sistema cognitivo, durante la sua normale attività, potranno essere
contemporaneamente attive in modo esplicito rappresentazioni di situazioni
ben diverse, che si riferiscono sia alla realtà oggettiva, sia a realtà ipotetiche
(o potenziali). Un sistema cognitivo deve rappresentare quello che sta
accadendo in questo momento, ma deve anche generare previsioni per il futuro.
Come visto deve inoltre generare rappresentazioni che costituiscono gli
obiettivi da raggiungere e che quindi contribuiscono a definire i “problemi da
affrontare”. I sistemi più evoluti possono anche essere in grado di generare
rappresentazioni che si riferiscono a “fatti e situazioni raccontati da altri”
tramite il linguaggio, o anche rappresentazioni che costituiscono dei “prodotti di
fantasia”.
È necessario che un sistema sia sempre in grado di distinguere, in modo chiaro,
ciò che è realtà oggettiva e ciò che invece è un prodotto delle proprie
elaborazioni interne. Anche per questo motivo è utile che alcune delle varie
rappresentazioni delle diverse “realtà” (o, per meglio dire, delle diverse
situazioni reali o ipotetiche che il sistema sta “valutando” in un certo momento)
siano contenute in reti ben distinte.
In cosa consistono e come si implementano le reti suggeritrici
Nel modello che propongo, svolgono un ruolo cruciale le reti suggeritrici (si
vedano i capitoli 9 e 11 della monografia). Si tratta di reti che ricevono i propri
input principalmente da due fonti: dalle reti di analisi strutturale e funzionale e
dalle reti che codificano gli obiettivi da raggiungere o i pericoli da evitare.
Come dice il nome, uno dei loro compiti è suggerire una possibile sequenza di
azioni che permettano di passare dalla situazione attuale, così come
rappresentata sulla base dell’analisi delle informazioni sensoriali, ad un'altra
situazione che costituisce l’obbiettivo da raggiungere.
Si può mostrare che queste reti devono avere una struttura gerarchica. Quelle di
livello più elevato in realtà non suggeriscono direttamente le soluzioni concrete,
bensì una sequenza di sotto-problemi da risolvere. Questi sotto-problemi (che
spesso saranno costituiti da rappresentazioni di mini-situazioni) sono passati
alle reti di livello inferiore che li esaminano e possono rispondere in due modi:
54
Devis Pantano DRAFT Gennaio 2016
o generando dei segnali che dicono alle reti di livello superiore che i sottoproblemi posti non sono risolvibili (o che esse non dispongono di una soluzione
pronta per affrontarli), oppure proponendo una soluzione che in realtà spesso è
composta da altri sotto-problemi per reti suggeritrici di livello ancora più-basso.
La gestione dell’intera faccenda è complessa da descrive, e devo semplificare.
Va considerato che molti problemi possono essere affrontati solo in tempi
lunghi; che in tale caso le azioni da fare non possono essere prestabilite nel
dettaglio, ma solo in modo astratto; e che queste astrazioni sono in realtà dei
sotto-problemi che andranno affrontati nei tempi giusti e con le informazioni
che si renderanno disponibili al momento concreto nel quale li si affronteranno.
Tutto ciò implica che in realtà, anche un’azione apparentemente semplice deve
essere rappresentate per stratificazioni di problemi e di sotto-problemi. Solo
negli istanti immediatamente precedenti all’azione potranno essere stabiliti tutti
i dettagli dei singoli movimenti che compongono le azioni elementari.
Osservando le cose in senso inverso, le sequenze temporali di queste azioni
elementari comporranno comportamenti più complessi, e questi altri, a loro
volta, ne comporranno altri di complessità ancora maggiore. Gli effetti di queste
azioni potranno essere osservati con i propri sensi. Le informazioni raccolta
dovranno essere sottoposte alle varie reti di analisi. Si dovranno quindi ripetere
tutti i passaggi, fino a che si arriverà a quelle astrazioni che possono essere
confrontate con gli obbiettivi originali. Questi essere rappresentati in modo
sufficientemente astratto, quindi tramite pattern di attivazione di nodi di livello
elevato.
L’apprendimento come via per concretizzare il tutto
Altro concetto molto importante è che questa stratificazione di obiettivi e sottoobiettivi, problemi e sotto-problemi, fino ad arrivare alle azioni concrete, ha un
correlato nell’apprendimento. Si può mostrare che l’apprendimento deve
avvenire per fasi, partendo con problemi semplici e di basso livello di
astrazione. Durante queste fasi le reti suggeritrici devono acquisire, e
incamerare al loro interno, un adeguato bagaglio di “soluzioni pronte” per i
possibili problemi che si possono presentare (a quel livello di astrazione). Molte
di queste soluzioni sono costituite da regole miste associative e operazionali
nelle reti di basso livello, mentre man mano si sale saranno predominanti le
regole associative. Queste ultime semplicemente associano, in modo
probabilistico, il problema dato con un set di possibili soluzioni. Solo dopo aver
acquisito un buon campionario di soluzioni pronte si potrà passare alla fase di
apprendimento successiva.
Questo modo di procedere implica che per riuscire a finalizzare un’azione
apparentemente semplice è in realtà necessario usare un approccio gerarchico.
Una semplice azione, come quella di afferrare un oggetto, richiede di
55
Devis Pantano DRAFT Gennaio 2016
stratificare le rappresentazioni. Ciò implica che le prime astrazioni delle azioni
siano in realtà già predefinite fin dall’inizio, almeno in modo rudimentale e
approssimato.
L’apprendimento, ovviamente, non riguarderà solo le reti suggeritrici, ma
l’intero sistema. In pratica tutte le reti del sistema dovranno apprendere: quelle
di analisi sensoriale, quelle di analisi strutturale, quelle di classificazione, quelle
deputate ad implementare le regole per generare previsioni, quelle suggeritrici,
quelle che gestiscono gli obiettivi e i pericoli, quelle per la gestione dei
meccanismi di attenzione selettiva, e varie altre.
Per implementare la capacità di astrarre non è sufficiente eseguire le
menzionate operazioni di analisi strutturale sulle rappresentazioni delle strutture
degli oggetti macroscopici. È necessario ampliare gradualmente il dominio
rappresentazionale e ciò può avvenire durante le varie fasi di apprendimento.
Conviene partire fin dall’inizio con quanto serve per completare il ciclo
percezione-azione che comprende: analisi sensoriale, analisi strutturale e
funzionale, previsioni degli effetti e inferenze delle cause (anche se nelle fasi
iniziali ciò non è possibile), confronto con le intenzionalità (obbiettivi e
pericoli), per finire con la pianificazione ed esecuzione delle azioni. Gli effetti
di queste azioni, una volta analizzati potranno essere confrontati con gli
obiettivi. All’inizio questi obiettivi possono essere codificati in modo molto
rudimentale, come ad esempio, la soddisfazione dell’equivalente di alcuni
stimoli corporei. Con l’apprendimento diventeranno più sofisticati: alcuni
soggetti percettivi, e alcune mini-situazioni, potranno acquisire un valore di
“desiderabilità indotto”, potranno cioè diventare a loro volta degli obiettivi da
perseguire o qualcosa di indesiderabile da evitare. Questo valore potrà essere
acquisito per associazione. Ad esempio, un particolare simbolo percettivo che
risulti sistematicamente associato a una sensazione sgradevole potrà acquisire
un “valore negativo”. Ciò significa che diventerà sufficiente la percezione (o la
previsione della comparsa) di tale soggetto per attivare un comportamento teso
ad evitarlo. Ciò ben prima di sperimentare la sensazione sgradevole.
È utile che fin dall’inizio siano già presenti, anche se non completamente attive,
le reti in grado di incorporare le prime astrazioni delle azioni e degli obiettivi.
Ciò vale anche per le reti dedicate alla previsioni, all’inferenza delle cause, e
quelle dedicate all’analisi funzionale.
All’inizio dell’apprendimento le capacità di astrazione saranno limitate. Non
sarà possibile classificare gli oggetti funzionalmente. Questa capacità potrà
essere costruita solo gradualmente. L’apprendimento potrà essere assai più
rapido con la possibilità di provare ad agire per ottenere degli obiettivi. Anche
obbiettivi molto semplici, come riuscire ad afferrare un oggetto, potranno
fornire informazioni per le prime classificazioni funzionali (ad esempio per le
prime “affordance”). Man mano gli obiettivi diventano più complessi, sarà
56
Devis Pantano DRAFT Gennaio 2016
possibile identificare classificazioni funzionali sia più complesse, sia più
astratte.
Nella fasi iniziali si può apprendere a riconoscere gli oggetti e ad eseguire
semplici azioni di movimentazione. Già a questo livello si possono definire le
prime astrazioni. Ad esempio le relazioni spaziali tra gli oggetti potranno essere
descritte generalizzando sub-concetti come quelli: essere sopra, sotto, di lato,
davanti, dietro, ecc… Ci possono essere molti modi specifici, che
corrispondono a diverse rappresentazioni strutturali di base nelle quali un certo
oggetto è sopra un altro, o sotto, o di lato… Ma molti di questi modi specifici
presentano delle proprietà strutturali in comune che possono essere riconosciute
da opportune reti di analisi.
Ovviamente queste prime astrazioni saranno codificate in nodi profondi. Esse
potranno essere usate anche per generare dei primi obiettivi astratti. Ad esempio
del tipo: porre l’oggetto A, “sopra”, l’oggetto B.
Saranno nodi relativamente avanzati (che si trovano in profondità entro le
nostre reti di analisi) ad essere in grado di riconoscere l’oggetto A, l’oggetto B,
e le loro relazioni spaziali astratte, come quelle di “essere sopra” ed “essere
sotto”. Ne consegue che anche il nostro obiettivo potrà essere codificato solo
grazie al contributo di questi nodi profondi. Come accennato sono proprio dei
gruppi di nodi profondi a permettere di riconoscere le astrazioni di specifiche
situazioni.
Riflettendo non è difficile vedere che è necessario trovare il modo di
distinguere tra le variabili che codificano l’obbiettivo da raggiungere, e quelle
corrispondenti, delle reti di analisi, che riconoscono le situazioni in essere.
Ovviamente queste variabili non possono essere “esattamente” le stesse perché
in tal caso non saremmo più in grado di distinguere quelle che identificano la
situazione reale, e quelle che codificano l’obbiettivo da raggiungere. Nello
stesso tempo è però anche evidente che tali variabili, dedicate da un lato alla
codifica degli obiettivi desiderati, quindi delle “intenzionalità”, e dall’altro al
riconoscimento di “ciò che sta accadendo”, codificano le stesse informazioni.
Come possiamo conciliare il tutto? L’idea è di usare delle reti parzialmente
parallele, che condividono, ai nodi, la stessa tipologia di informazione, quindi
lo stesso “simbolo percettivo”. Ma queste reti devono comunque funzionare in
modo distinto. Quelle di analisi si attivano su automatismi che implementano
l’analisi degli input sensoriali, mentre quelle deputate alle “intenzionalità”
devono implementare automatismi per la gestione degli obiettivi (secondo una
logica di gestione delle priorità).
Questa forma di parallelismo è in realtà richiesta anche per altre reti del
sistema, come quelle che si occupano di generare previsioni, o di inferire le
cause che hanno generato una certa situazione.
In un certo senso le reti di analisi che ricevono informazioni da fonte sensoriale
costituiscono la “dimensione ancorata alla realtà”, delle variabili di
esplicitazione (dei simboli percettivi). Esse costituiscono la dimensione con la
57
Devis Pantano DRAFT Gennaio 2016
quale ci si deve confrontare, la dimensione che stabilisce cosa è vero. Mentre le
altre reti parallele implementano le dimensioni che sono il frutto delle
“creazioni” e delle “proiezioni interne”. Queste diverse dimensioni sono
trasversali, ma la “tipologia” di informazione resa esplicita è sempre la stessa.
Ciò che cambia è la fonte che chiama in causa tale informazione. Questa fonte
può essere l’analisi delle informazioni sensoriali, o l’attivazione di un
“obbiettivo da raggiungere”, o la generazione di una previsione futura, o altro
ancora.
Consideriamo brevemente il problema di costruire astrazioni di livello
gradualmente più elevato. Abbiamo accennato che fin dalle fasi iniziali è
potenzialmente possibile codificare informazioni che permettono di astrarre le
posizioni relative degli oggetti. Abbiamo anche visto che queste permettono di
codificare dei primi “obiettivi astratti”. Si tratta di astrazioni molto rudimentali,
ma esse permettono comunque di passare ad un livello superiore di descrizione
della realtà.
Ad esempio possono essere usate per codificare e quindi riconoscere le prime
“attività” concrete nelle quali si può essere impegnati. Si consideri che molte
attività sono riconoscibili per gli oggetti che sono coinvolti, per le posture
assunte dal corpo, per le tipologie di azioni che sono svolte sugli oggetti, per
come questi mutano in conseguenza delle azioni svolte, per l’ambiente in cui ci
si trova, ecc….
Si tratta di oggetti e fenomeni, non troppo complessi, che possono essere
riconosciuti da reti di analisi. Possiamo allora pensare di usare i nodi di tali reti
come input per altre reti, di livello più elevato, per codificare e riconoscere le
attività in corso. Anche su queste altre rappresentazioni si possono eseguire
operazioni di analisi per identificare gli elementi comuni, le analogie, che
possono comparire in situazioni e attività differenti. Ciò permette di elevare
ulteriormente il grado di astrazione.
Anche molte attività possono acquisire un valore di desiderabilità indotto,
possono cioè diventare degli obbiettivi da perseguire.
Fino a che livello di astrazione è possibile arrivare procedendo secondo
quest’approccio?
Credo ad un livello molto spinto se si fornisce al sistema cognitivo anche la
possibilità di rappresentare ed astrarre la gestione stessa dei processi cognitivi
(si veda, per qualche accenno, l’ultima parte del capitolo 9 della monografia).
Alcuni punti su come si identificano le regole
Approfondiamo alcuni punti sul problema di come si identificano le regole.
Come si fa a scoprirle e a implementarle all’interno di un sistema cognitivo?
Qui le cose sono un po’ complesse. Le regole possono essere distinte in varie
tipologie e sotto-tipologie. Alcune di queste distinzioni dipendono proprio dal
58
Devis Pantano DRAFT Gennaio 2016
mondo nel quale le regole si possono identificare.
Se ci limitassimo ad osservare la realtà passivamente, e ad eseguire processi di
analisi di struttura, saremmo in grado di identificare solo una certa tipologia di
regole: quelle che si manifestano come regolarità nell’analisi delle strutture
degli oggetti e dei fenomeni macroscopici. Un sistema cognitivo che si
limitasse ad usare solo queste regole potrebbe implementare alcune forme di
intelligenza che presenterebbero importanti limitazioni. Potrebbe usare queste
regole per costruire delle reti bayesiane con le quali eseguire delle previsioni
probabilistiche dell’evoluzione degli eventi, e potrebbe inferire alcune delle
cause che hanno prodotto gli stati della realtà osservati.
Già le cose cambiano se il sistema cognitivo è in grado di agire fisicamente sul
mondo esterno per cercare di realizzare degli obiettivi. Un sistema di questo
genere, in grado di agire sulla realtà, può avere accesso ad un patrimonio di
regole ben più ampio rispetto ad un sistema che si limita ad osservare. Può
avere accesso al complesso delle regole che consentono di pianificare le azioni.
Molte di queste regole sono diverse, per alcuni aspetti importanti, rispetto a
quelle che compaiono come regolarità nell’analisi del percepito.
Molte regole di pianificazione possono essere scoperte, in assenza di altre “fonti
di informazione” (torneremo a breve su questo punto), sostanzialmente sulla
base di un approccio per tentativi, anche se non è difficile mostrare che da
solo tale approccio sarebbe ben poco efficiente per affrontare un mondo
complesso come il nostro.
In genere nei problemi di pianificazione si ha un certo problema da risolvere, ad
esempio di movimentazione (spostare un oggetto da una posizione ad un'altra) e
si deve trovare una sequenza di azioni che permettono di risolvere questo
problema, che consiste nel passare dalla situazione attuale (l’oggetto in una
certa posizione) ad un’altra situazione data come obbiettivo da raggiungere.
Questo modo di rappresentare il “problema da affrontare” come passaggio da
una situazione (quella attuale) ad un'altra posta come obiettivo, è molto
importante, con gli strumenti adeguati può essere generalizzato e usato per
definire il concetto stesso di problema.
Un idea importante, della quale ho già illustrato alcuni aspetti, è che la nostra
strategia generale per affrontare la complessità dei problemi del mondo,
consiste nell’acquisire, durante l’infanzia, una certo patrimonio di soluzioni
pronte per i vari possibili problemi che possiamo trovarci ad affrontare. Ciò
accade sia per i problemi della quotidianità: quelli che si presentano tutti i
giorni, sia per problemi meno frequenti, ma che comunque possono essere
importanti.
Quindi durante l’infanzia mettiamo a punto un certo insieme di soluzioni pronte
che possiamo reperire e riutilizzare velocemente ogni qual volta si presenta una
certa tipologia di problema. Come accennato più indietro, si può ben
argomentare che la costruzione di questo patrimonio deve avvenire per fasi di
59
Devis Pantano DRAFT Gennaio 2016
complessità e astrazione crescente. Nelle prime si mettono a punto le abilità più
basilari: come afferrare e movimentare gli oggetti. Una volta acquisito un buon
insieme di soluzioni pronte e funzionanti, si può passare alla fase successiva,
nella quale si “ampliano gli orizzonti”, e soprattutto si passa ad un livello di
rappresentazione più astratto.
Ovviamente in natura è particolarmente importante il patrimonio delle
conoscenze innate, vale a dire di quei comportamenti istintuali, di quelle vie già
tracciate, che provengono dai meccanismi di selezione naturale. Da neonati non
partiamo realmente da zero, non procediamo alla cieca, ma seguiamo dei
percorsi già tracciati. Se davvero dovessimo procedere completamente “per
tentativi” probabilmente ci vorrebbero tempi troppo lungi per riuscire a
collezionare un patrimonio sufficientemente ampio di soluzioni.
I meccanismi con i quali possiamo selezionare un comportamento vantaggioso
possono seguire procedimenti di una certa complessità. È comunque probabile
che per la maggior parte si basino su un meccanismo di selezione per rinforzo:
quei comportamenti che permettono di ottenere l’obiettivo prefissato, o di
avvicinarsi ad esso (quando è possibile quantificare questa “vicinanza”)
ricevono una retroazione positiva, sono quindi “rinforzati” a scapito di quelli
che invece falliscono. Per avere successo, un approccio di questo tipo deve
incorporare alcuni accorgimenti che evitino al sistema di finire in qualche
“minimo locale”, di rimanere intrappolato in comportamenti non ottimali, o
peggio, in qualche circolo vizioso. Se troviamo un primo metodo per ottenere
un certo risultato non è detto che questi sia anche il migliore tra quelli possibili,
non è detto che esso comporti il massimo vantaggio o che non comporti altri
effetti che a lungo andare possono rivelarsi negativi.
Una delle caratteristiche salienti dell’intelligenza umana, ma anche di quella di
altre specie, è la curiosità, la capacità di non accontentarsi della prima soluzione
che ha successo, ma di cercarne di alternative, e, in un certo senso, quella di
cercare di “ampliare gli orizzonti”. A rendere possibile ciò contribuiscono vari
elementi tra cui la capacità di astrarre, la quale richiede la capacità di
“generalizzare”, di cogliere le analogie, gli aspetti comuni, che ci possono
essere in problemi e soluzioni comportamentali apparentemente ben
distinguibili. Ancora una volta si tratta di scovare le “parentele strutturali e
funzionali” che esistono tra fenomeni, problemi, comportamenti, che sembrano
ben distinguibili quando ci si limita a rappresentarli a basso livello. Ancora una
volta hanno un ruolo importante le operazioni di analisi strutturale e di
classificazione funzionale.
Va detto che una parte molto importante delle regole di pianificazione che
apprendiamo durante l’infanzia, sono da noi acquisite per imitazione, per
emulazione degli altri. Questa fonte di informazione è importantissima. Ci
risparmia una quantità enorme di prove ed errori, ci permette di accedere ad un
patrimonio di conoscenze che altrimenti non potremmo acquisire se non in
60
Devis Pantano DRAFT Gennaio 2016
tempi lunghissimi (se avessimo la possibilità e il tempo materiale di compiere
moltissime esperienze e di sopravvivere indenni ad esse).
Gli esseri umani non sono sicuramente l’unica specie che apprende per
emulazione, essa è presente in molti animali. Per le forme più semplici di
questo tipo di apprendimento non è necessario disporre di un linguaggio.
Semplicemente si osservano i propri simili mentre agiscono e si cerca di
ripetere i loro comportamenti. Certo è necessario riuscire ad identificare le
corrispondenze tra le proprie azioni e quelle osservate mentre sono compiute da
altri. Questo cosa è tutt’altro che semplice.
Chiaramente la nostra specie ha accesso ad una fonte di informazioni
importantissima che le conferisce un vantaggio enorme rispetto le altre: il
linguaggio. Noi non ci limitiamo ad imparare dai nostri simili per emulazione,
ma acquisiamo moltissime informazione culturalmente.
È da notare che possiamo accedere al linguaggio solo dopo aver già acquisito
una certo insieme di capacità cognitive più basilari. Inoltre il linguaggio è
adatto a trasmettere informazioni astratte, mentre per comunicare informazioni
di “basso livello” può essere assai più efficiente una rappresentazione pittorica,
come una fotografia o una ricostruzione 3D (si veda il capitolo 2 della
monografia).
Ad ogni modo, anche la conoscenza culturale può avere dei limiti. Il linguaggio
effettivamente permette di condividere con altri una parte delle proprie
esperienze. Ma fintanto queste si limitano a quelle che possiamo avere
nell’interazione con il mondo esterno, osservato solo come esso appare ai sensi,
quindi a livello macroscopico, le conoscenze che possono essere acquisite
rientreranno comunque entro un certo dominio finito e limitato. Una rivoluzione
nella nostra cultura è avvenuta quanto abbiamo imparato a costruire modelli
alternativi per reinterpretare la realtà che ci appare a livello sensoriale. La
nostra intelligenza possiede la capacità di eseguire dei “salti rappresentazionali”
che non si limitano all’astrazione. Per noi è possibile costruire nella nostra
mente delle rappresentazioni di realtà non visibili! Acquisire e introitare le
conoscenze scientifiche significa essere in grado di immaginare, quindi di
rappresentare, fenomeni che non vediamo ma che sappiamo reali. Anche questi
fenomeni sono rappresentabili in termini di strutture e di regole. Anche se
talvolta sono strutture e regole complesse da immaginare e da capire.
Una persona che ha introitato le conoscenze scientifiche, quando osserva un
fenomeno naturale, anche quotidiano, usa nella sua mente delle
rappresentazioni che vanno oltre ciò che vede ma che sono in grado di fornire
un’interpretazione profonda per ciò che sta osservando.
61
Devis Pantano DRAFT Gennaio 2016
Alcuni Riferimenti bibliografici





















Barsalou, L.W. (1999). Perceptual symbol systems. Behavioral and Brain
Sciences, 22, 577-660.
Bellemare, M. G., Naddaf, Y., Veness, J. & Bowling, M. (2013)The arcade
learning environment: An evaluation platform for general agents. J. Artif.
Intell. Res. 47, 253–279
Bellemare, M. G., Veness, J. & Bowling, M. (2012) Investigating contingency
awareness using Atari 2600 games. Proc. Conf. AAAI. Artif. Intell. 864–871
Bengio, Y. (2009) Learning deep architectures for AI. Foundations and Trends
in Machine Learning2, 1–127
Biederman I. (1987). "Recognition-by-components: A theory of human image
understanding". Psychological Review 94(2): 115–47.
Boccignone (2013) G. Struttura, informazione e modelli: Il contributo di
Valentino Brainteberg Sistemi intelligenti anno XXV n 3 dicembre 2013
Castelfranchi Y, Stock O. (2003) Macchine come noi.
La scommessa
dell’intelligenza artificiale. Editori Laterza
Churchland P.M.. (1989) La natura della mente e la struttura della scienza.
Una prospettiva neurocomputazionale. Il Mulino 1992. Titolo originale A
Neurocomputational Prospective. The Nature of Mind and the Structure of
Science. MIT
Craik K. (1943) The nature of explanation. Cambridge University Press.
Diuk, C., Cohen, A. & Littman, M. L. (2008)An object-oriented representation
for efficient reinforcement learning. Proc. Int. Conf. Mach. Learn. 240–247
Floreano D. (1996) Manuale sulle reti neurali. Il Mulino.
Friston KJ (2003) Learning and inference in the brain. Neural Netw
Friston KJ (2005) A theory of cortical responses. Philos Trans R Soc
Friston KJ (2010) The free-energy principle: a unified brain theory?
Friston KJ, James Kilner, Lee Harrison (2006)A free energy principle for the
brain Journal of Physiology - Paris 100 70–87
Fukushima, K. (1980)Neocognitron: A self-organizing neural network model
for a mechanism of pattern recognition unaffected by shift in position. Biol.
Cybern. 36, 193–202
Hinton, G. E. & Salakhutdinov, R. R. Reducing the dimensionality of data
with neural networks. Science 313, 504–507 (2006)
Hubel, D. H. & Wiesel, T. N. (1963)Shape and arrangement of columns in
cat’s striate cortex. J. Physiol. 165, 559–568
Jarrett, K., Kavukcuoglu, K., Ranzato, M. A. & LeCun, Y. (2009) What is the
best multi-stage architecture for object recognition? Proc. IEEE. Int. Conf.
Comput. Vis. 2146–2153
Kaelbling, L. P., Littman, M. L. & Cassandra, A. R. (1994 Planning and acting
in partially observable stochastic domains. Artificial Intelligence 101, 99–134
Khanna T. (1990) Fondamenti di reti neuroali Addison-Weslely 1991. Titolo
originale Foundations of Neural Networks 1990
62
Devis Pantano DRAFT Gennaio 2016



















Knight K., Rich E.. Intelligenza artificiale, Seconda edizione. (1992) McGrawHill
Krizhevsky, A., Sutskever, I. & Hinton, G. (2012) ImageNet classification
with deep convolutional neural networks. Adv. Neural Inf. Process.
Syst. 25, 1106–1114
Lange, S. & Riedmiller, (2010) M. Deep auto-encoder neural networks in
reinforcement learning.Proc. Int. Jt. Conf. Neural. Netw. 1–8
Law, C.-T. & Gold, J. I. (2009) Reinforcement learning can account for
associative and perceptual learning on a visual decision task. Nature
Neurosci. 12, 655
LeCun, Y., Bottou, L., Bengio, Y. & Haffner, P. (1998) Gradient-based
learning applied to document recognition. Proc. IEEE 86, 2278–2324
Legg, S. & Hutter, M. Universal Intelligence: a definition of machine
intelligence. Minds Mach. 17, 391–444 (2007)
McClelland, J. L., Rumelhart, D. E. & Group, T. P. R. (1986) Parallel
Distributed Processing: Explorations in the Microstructure of Cognition (MIT
Press)
Moore, A. & Atkeson, C. (1993) Prioritized sweeping: reinforcement learning
with less data and less real time. Mach. Learn. 13, 103–130
Nair, V. & Hinton, G. E. (2010) Rectified linear units improve restricted
Boltzmann machines. Proc. Int. Conf. Mach. Learn. 807–814 Nat Rev
Neurosci 11:127–138
O’Neill, J., Pleydell-Bouverie, B., Dupret, D. & Csicsvari, J. (2010)Play it
again: reactivation of waking experience and memory. Trends
Neurosci. 33, 220–229
Penrose. R. (1989) La Mente Nuova dell’Imperatore. BUR RCS Libri &
Grandi Opere S.p.A Milano 1992. Titolo originale The Emperor’s New Mind.
Oxford University Press.
Pessa E., Pietronilla Penna M. (2000) Manuale di scienza cognitiva.
Intelligenza artificiale classica e psicologia cognitiva. Editori Laterza
Poincaré H. (1902) La Scienza e l'Ipotesi . Edizione italiana: Bari, Dedalo,
1989. Traduzione G. Porcelli.
D. Pantano (2015) Come funziona la cognizione: proposte per i principi della
cognizione e per gli strumenti che consentono di esprimerli Disponibile online
Russel S.J, Norving P.Intelligenza artificiale.
Schultz, W., Dayan, P. & Montague, P. R. (1997) A neural substrate of
prediction and reward.Science 275, 1593–1599
Sengupta B., Stemmler m.B,. Friston K.J (2013) Information and Efficiency
in the Nervous System A Synthesis Plos Computational Biology July 2013
Volume 9 Issue 7 e1003157
Serre, T., Wolf, L. & Poggio, T. (2005) Object recognition with features
inspired by visual cortex.Proc. IEEE. Comput. Soc. Conf. Comput. Vis.
Pattern. Recognit. 994–1000
Shannon C.E.. (1948) A Mathematical Theory of Communication, Bell system
Technical Journal, vol. 27, luglio e ottobre.
63
Devis Pantano DRAFT Gennaio 2016




Sigala, N. & Logothetis, N. K. (2002)Visual categorization shapes feature
selectivity in the primate temporal cortex. Nature 415, 318–320
Umiltà C. (a cura di) (1995) Manuale di neuroscienze. Il mulino
Van der Maaten, L. J. P. & Hinton, G. E. (2008) Visualizing high-dimensional
data using t-SNE. J. Mach. Learn. Res. 9, 2579–2605
Volodymyr Mnih, Demis Hassabis & alt. (2015) Human-level control through
deep reinforcement learning Nature Letter doi:10.1038/nature14236
64