g8k3kv
In mod obisnuit, excluzand cazurile de deficienta vizuala severa,
cea mai mare parte a informatiilor noastre despre mediul in care traim
le obtinem prin vaz. Aproape 50% din suprafata neocortexului este implicata
in procesarea informatiei vizuale. Pe de alta parte, analizatorul vizual
este si cel mai bine cunoscut din punct de vedere al procesarii informatiei.
Studiile de pionierat ale lui D. Hubel & T. Wiesel (1961), dar si cele mai
recente ale lui D. Marr (1982), Biederman (1990) si Ulmann (1990) au marcat
pasi importanti in investigarea mecanismelor de prelucrare a informatiei
vizuale. Urmand sugestiile lui D. Marr (1982) vizand nivelurile
de constructie ale unei teorii cognitive vom analiza sistemul vizual, indeosebi
la nivel algoritmic si computational. Mai inainte insa se impun
a fi cunoscute cateva date despre neurobiologia senzatiilor si perceptiilor
vizuale pentru a stabili astfel unele constrangeri care vor trebui satisfacute
de catre modelele cognitive daca acestea aspira la plauzibilitate neuronala.
In acest fel, gradele de libertate ale constructiei de modele computationale
si de algoritmi capabili sa realizeze functiile acestora sunt drastic limitate,
dar validitatea lor creste. Ca si in cazul studierii altor procese cognitive,
abordarea problematicii perceptiei vizuale face manifest o anumita divergenta
intre specialistii in IA si psihologii cognitivisti. Primii considera
un model satisfacator daca acesta este eficace tehnologic, adica daca el reuseste
sa realizeze sarcina pentru care a fost construit in conditiile utilizarii
unui minim de resurse. Cei din urma accepta un model doar daca el trece testul
acid al validitatii ecologice si plauzibilitatii neuronale, adica daca poate
explica si prezice comportamentul uman in situatii naturale si daca nu
intra in contradictie cu cunostintele noastre fundamentale despre activitatea
neuronala, subiacenta.
2.1. PROCESAREA PRIMARA A INFORMATIEI VIZUALE
In prima parte a acestui capitol am abordat problematica mecanismelor
neurobiologice implicate in procesarea stimulilor vizuali, adica, in
terminologia consacrata de D. Marr, nivelul implementational. In cele
ce urmeaza, ne vom plasa demersul pe un nivel de analiza mai inalt - cel
computational. O teorie computationala a procesarii informatiei vizuale vizeaza
construirea unor modele logico-matematice capabile sa produca un anumit output
pe baza unor prelucrari - explicitate exhaustiv in model - ale imputului.
De exemplu, o astfel de abordare va cauta sa stabileasca cum, dintr-o multime
de pixeli sau variatii de luminozitate, pe retina pot fi extrase contururile,
in genere cum, dintr-o proiectie bidimensionala, pe retina, a mediului
se reconstituie o reprezentare tridimensionala. Ce calcule sau procesari pot
transforma un input bidimensional intr-o reprezentare tridimensionala?
Subliniem ca termenul de calcul trebuie inteles, intotdeauna cand
vorbim de analiza computationala a unui proces cognitiv, in acceptiunea
sa cea mai generala de prelucrare de simboluri guvernata de reguli. O teorie
computationala exprima logico-matematic functia pe care un anumit sistem o calculeaza
sau, intr-un limbaj mai putin pretentios, calculele care fac posibile
punerea in corespondenta a unui input specific cu un output specific (vezi
1.3.2.2).
Prin natura ei, abordarea computationala este mai generala, mai abstracta decat
o abordare algoritmica (procedurala) sau implementationista. In principiu,
exista un numar infinit de algoritmi capabili sa realizeze calculul unei anumite
functii si infinite harduri sau sisteme fizice capabile sa implementeze un algoritm
specific. De exemplu, o functie logica de genul implicatiei materiale intre
doua propozitii poate fi calculata prin mai multi algoritmi: prin matricile
de adevar, prin sistemul deciziei naturale tip Gentzen, prin incadrarea
ei ca teorema intr-un sistem axiomatic compatibil cu sistemul din Principia
Mathematica etc. La randul lor, oricare din acesti algoritmi pot fi realizati
de sisteme fizice extrem de diferite: creierul uman, campuri de siliciu,
circuite cu contacte si relee, tuburi hidraulice etc. Teoriile computationale
ale procesarii informatiei vizuale (cu o sintagma traditionala dar golita de
orice valoare euristica - ale perceptiei vizuale) sunt marcate de un caracter
abstract, formal-matematic ceea ce il poate face pe psihologul obisnuit
cu conceptele traditionale sa nu le inteleaga sau sa nu le accepte ca
teorii psihologice. Aceasta ar fi insa o atitudine daunatoare progresului
disciplinei noastre. Cu cat o stiinta este mai avansata, cu atat
mai incomprehensibila devine ea, renuntand la conceptele-umbrela si platitudinile
de odinioara. Trebuie sa recunoastem ca multe din conceptele traditionale sunt
simple teoretizari ridicate cu o palma deasupra simtului comun. De aici impresia
ca la psihologie se pricepe toata lumea, ca oameni de cu totul alta profesie
sunt considerati buni psihologi. Mai mult, in momentul actual al dezvoltarii
disciplinei, majoritatea conceptelor psihologice traditionale si-au pierdut
valentele euristice, utilizarea lor in continuare putand orienta
cercetarea pe piste false. In epoca construirii de sisteme artificiale
inteligente, capabile sa rivalizeze cu inteligenta naturala (umana), abordarea
computationala este indispensabila. Desigur, unele dintre modelele logico-matematice
construite par lipsite de plauzibilitate neuronala. Ele au fost elaborate din
ratiuni tehnologice, pentru a servi la construirea de sisteme inteligente, performante.
Chiar si in acest caz, studiul lor poate constitui o mina de sugestii
valoroase pentru abordarile de nivel algoritmic si implementational extrem de
relevante pentru psihologie. Tendinta dominanta in stiintele cognitive
la ora actuala, inclusiv in cazul teoriilor computationale este insa
de a construi modele formale cat mai compatibile cu datele psiho-fiziologice.
Revenind, dupa aceasta digresiune cu iz metodologic, semnalam tendinta generala
de a imparti procesarea informatiei vizuale la nivel computational in
doua mari stadii: primara si secundara. Procesarea primara sau perceptia vizuala
primara cuprinde prelucrarile pre-atentionale, cu o durata de aprox. 200 milisecunde
care au ca rezultat reprezentarea, in sistemul cognitiv, a caracteristicilor
fizice ale stimulului. Ele realizeaza segregarea stimulului de mediul sau, ne
arata unde anume este el, nu ce anume este. Sunt incluse aici mecanismele de
detectare a contururilor, a texturii, miscarii, culorii si a dispunerii spatiale
etc. Procesarea secundara (perceptia vizuala secundara) vizeaza mecanismele
implicate in recunoasterea figurilor si a obiectelor. Ele au ca input
rezultatele procesarilor primare si ca output - imaginea tridimensionala a unui
obiect din mediu, identificat, recunoscut. Aceasta dihotomie a prelucrarii stimulilor
vizuali nu este riguroasa dar este utila si este larg raspandita in
literatura de specialitate ceea ce ne-a facut sa o integram in economia
lucrarii de fata. Schema generala a procesarii informatiei vizuale a fost circumscrisa
de D. Marr (1982). Intensitatea stimulilor luminosi face obiectul unor prelucrari
initiale care contureaza o schita primara a obiectului conceput. Asupra acestei
schite primare se exercita o multime de tratamente sau prelucrari de stabilire
a adancimii in spatiu prin calculul disparitatii binoculare, de
reprezentare a miscarii, texturii, culorii si orientarea in spatiu a suprafetelor
unui obiect. Toate aceste procesari sunt executate in paralel de mecanisme
modulare. Rezultatul lor consta in constituirea unei reprezentari intermediare
a obiectului din campul vizual, notata cu 21/2 D tocmai pentru a arata
caracterul ei intermediar intre imaginea retiniana bidimensionala si obiectul
tridimensional. Aceasta imagine intermediara serveste ca input pentru alte procesari
al caror produs final este reprezentarea completa, tridimensionala a obiectului,
notata cu 3D (figura 2.1.). Numai primele doua stadii fac obiectul perceptiei
vizuale primare si asupra lor vom insista in cele ce urmeaza.
Fig. 2.1. Schema generala de procesare a informatiei vizuale
Fig. 2.2. Proprietati constante ale schitei 21/2 D (apud Biederman, 1990).
Toate prelucrarile primare poseda cateva caracteristici comune care le
individualizeaza fata de procesarile secundare sau alte tipuri de prelucrari
mentale. Mai intai, procesarile primare sunt organizate pe moduli,
care functioneaza simultan, in paralel. Organizarea modulara implica,
asa cum s-a aratat intr-unul din capitolele anterioare (1.3) caracterul
irepresibil, preatentional si impermeabilitatea cognitiva a acestor procese.
In al doilea rand, toate aceste procese sunt independente de natura
stimulului se realizeaza aceleasi prelucrari indiferent daca obiectul perceput
este un scaun sau o fata umana. In ambele cazuri, extragerea contururilor
din variatiile de intensitate a pixelilor sositi la retina sau analiza texturii,
a compozitiei materialului, implica aceleasi procese. Diferentierile in
functie de tipul de stimul apar mai tarziu, odata cu recunoasterea obiectelor.
In al treilea rand, buna desfasurare a acestor prelucrari presupune
o multime de asumptii despre realitatea obiectuala. Aceste asumptii sunt, de
fapt, regularitati (statistice) ale mediului in care traim. Ele functioneaza
ca niste "cunostinte tacite", sau, in limbaj kantian, ca niste
asumptii apriorice despre universul in care traim. Ele sunt necesare pentru
a specifica stimulul vizual supus prelucrarii. De exemplu, daca observam la
orizont contururile unui obiect care, treptat, se amplifica si devin tot mai
clare apoi din nou se reduc, devenind neclare, consideram ca - in prima
faza - un obiect s-a apropiat iar apoi s-a indepartat de noi. Aceasta
concluzie este valabila daca presupunem rigiditatea obiectelor. Intr-adevar,
presupozitia rigiditatii obiectelor este o regularitate statistica a universului
in care traim. Ea ne permite sa percepem adancimea si deplasarea
in spatiu. O serie de date experimentale au aratat ca subiectii care priveau
un set de obiecte, de fapt niste baloane aflate la o anumita distanta, dintre
care unele se umflau, conchideau in mod eronat ca aceste obiecte se apropie
de punctul din care ei faceau observatia. Rezulta ca presupozitia rigiditatii
obiectelor reprezinta o importanta constrangere care moduleaza prelucrarea
stimulilor vizuali. Pe retina, imaginea obiectului se mareste sau se micsoreaza.
Doar asumptia rigiditatii il face pe subiect sa conchida ca e vorba de
apropierea/indepartarea unui obiect si nu de expandarea/contractia unui
obiect fix. Intr-un univers pulsatoriu, caracterizat de expandari si contractii
ale obiectelor care il populeaza, asumtia rigiditatii s-ar dovedi total
neadaptativa. Violarea unor presupozitii tacite duce la aparitia iluziilor vizuale.
Nu se stie inca cu certitudine daca aceste presupozitii, care dezambiguizeaza
stimulul sosit la retina, impunand constrangeri procesarilor primare,
sunt innascute, precablate in sistemul nervos sau sunt dobandite.
In orice caz ele nu sunt rezultatul unor deductii iar majoritatea investigatiilor
intreprinse in acest sens probeaza existenta lor de la o varsta
foarte timpurie. Asumtia rigiditatii este deja prezenta la varsta de cinci
luni iar perceptia adancimii in spatiu pe baza calculului disparitatii
binoculare e deja operanta la copilul de 2-3 luni (Held, 1987, Yulle & Ulman,
1990). O singura mentiune mai trebuie facuta despre aceste asumptii si anume
ca ele sunt nespecifice, in sensul ca se aplica irepresibil, automat,
la orice obiect. Impactul lor asupra procesarilor cognitive precede recunoasterea
obiectelor ca obiecte distincte.
2.2. RECUNOASTEREA OBIECTELOR -;
PROCESAREA SECUNDARA A INFORMATIEI VIZUALE
Prelucrarile primare ale stimulilor vizuali au ca rezultat constituirea unei
schite intermediare 21/2 D, centrata pe subiect. Pentru a recunoaste obiectul
sau figura din spatiul vizual este necesara procesarea in continuare a
acestei schite intermediare. Procesarile secundare au ca input schita 21/2 D
si ca output - recunoasterea obiectelor si a relatiilor dintre acestea. Operatiile
care permit producerea outputului din inputul corespunzator vor fi analizate
in continuare.
Nu stim, deocamdata, in ce masura perceptia vizuala secundara asista executia
prelucrarilor primare. Sunt insa evidente flexibilitatea si rapiditatea
deosebita cu care subiectul uman poate recunoaste obiectele sau figurile din
campul vizual. O serie de masuratori au relevat faptul ca un obiect simplu
poate fi identificat dupa o expunere de numai 100 milisecunde, iar dupa alte
800 milisecunde subiectii pot sa-l si numeasca, daca poseda reprezentarea sa
lexicala in memorie (Biedermann & colab., 1982, Biedermann, 1990).
Dealtfel, va puteti convinge singuri despre aceste lucruri daca deschideti televizorul
sau il comutati rapid de pe un canal pe altul. In mai putin de o
secunda sunteti capabili sa intelegeti o scena complexa care apare pe
ecran.
Recunoasterea, intr-o definitie de prima aproximatie, consta in
punerea in corespondenta a imaginii perceptive a obiectului cu reprezentarea
sa in memorie. Una dintre problemele majore care apar in acest caz
este aceea de a explica modul in care o schita intermediara centrata pe
observator poate fi pusa in corespondenta cu o reprezentare tridimensionala
centrata pe obiect prezenta in memorie. Este extrem de plauzibil ca reprezentarea
stocata in memorie, indiferent daca ea este simbolica sau neuromimetica,
sa reprezinte obiectul indiferent de unghiul sau perspectiva din care el este
vazut adica sa fie o reprezentare centrata pe subiect. Altfel, sistemul cognitiv
ar trebui sa posede pentru fiecare obiect un numar astronomic de reprezentari,
ceea ce l-ar face total incapabil sa se adapteze la un mediu hipercomplex si
schimbator ca al nostru. Daca reprezentarea mnezica e centrata pe obiect, cum
anume este ea activata de o imagine sau schita centrata pe subiect rezultata
din procesarile primare pentru a putea realiza recunoasterea acestuia? Dificultatea
problemei mentionate e sporita de plasarea procesarilor secundare la interfata
dintre prelucrarile automate, inconstiente, preatentionale, pe de o parte, si
cele constiente, prin alocarea de resurse cognitive speciale. Analiza ascendenta
e dublata deja, la acest nivel, de analiza descendenta.
Punerea in corespondenta a reprezentarii 21/2 D cu reprezentarea centrata
pe obiect este facilitata de existenta unor detalii spatiale constante sau proprietati
neaccidentale cum le-a numit Lowe (1984) chiar si in cazul acestei schite
intermediare. De exemplu, o linie dreapta va ramane o linie dreapta, dupa
cum o linie curba va ramane o linie curba in conditiile aproape
a oricarei alinieri ochi-obiect (o imagine dreapta devine punct doar daca axa
privirii noastre se afla exact in prelungirea acestuia). Alte proprietati
neaccidentale ale schitei rezultate in urma procesarilor primare se refera
la paralelism si simetrie. Doua contururi paralele raman paralele in
majoritatea alinierilor ochi-obiect. Un contur simetric in raport cu o
axa ramane simetric in majoritatea circumstantelor. Exista chiar
o propensiune constanta a sistemului cognitiv de a interpreta contururile care
se abat de la paralelismul sau simetria stricte ca fiind paralele, respectiv
simetrice (vezi figura 2.2.). Ultimul contur din sirul de sus, desi se abate
de la paralelism este socotit adesea ca reprezentand doua linii paralele
prezentate in perspectiva (pe baza acestei interpretari s-a construit
o bine-cunoscuta iluzie optica). In sirul de jos, a doua si a treia figura
sunt simetrice desi se abat de la simetria stricta. Sensibilitatea sistemului
vizual la astfel de proprietati relativ invariante prezente inca in
schita 21/2 D, ca si tendinta de neglijare a micilor abateri de la ele faciliteaza
considerabil recunoasterea obiectelor.
2.2.1. PRINCIPIILE GESTALTISTE
Caracteristicile constante ale schitei rezultate din procesarile primare constituie
unul dintre factorii capabili sa explice mai ales flexibilitatea recunoasterii
obiectelor. Recunoasterea e flexibila deoarece obiectele au proprietati nonaccidentale
(rectiliniaritatea, simetria, paralelismul, concatenarea) iar sistemul vizual
neglijeaza sistematic abaterile de la acestea. Rapiditatea, cealalta trasatura
a procesului de recunoastere, reclama prezenta unor mecanisme de organizare
a stimulilor complecsi in unitati mai simple. Adesea contururile sunt
vizibile doar partial, unele sunt similare, altele disimilare, unele se afla
in proximitate spatiala, altele - nu. Diversitatea lor e redusa pe baza
unor mecanisme de grupare a elementelor unei figuri. Intrucat aceste
mecanisme au fost pentru prima data studiate sistematic de catre psihologii
scolii gestaltiste ele sunt cunoscute in literatura de specialitate sub
numele de principii gestaltiste. Nu se cunoaste numarul exact al acestor principii
(unii mentioneaza 114 - vezi Bonnet, 1989). Pentru obiectele sau figurile statice,
cele mai cunoscute sunt insa urmatoarele: a) principiul proximitatii -
elementele aflate in proximitate spatiala sunt grupate intr-o singura
unitate perceptiva; b) principiul similaritatii - elementele similare sunt grupate
in aceeasi unitate perceptiva, care e contrapusa altora; c) principiul
bunei-continuari - la intersectia a doua contururi, ele sunt percepute dupa
continuarea cea mai simpla; d) principiul inchiderii - conturul ocluzat
al unei figuri este inchis dupa configuratia sa vizibila.
Versiunea generalizata a acestor principii este cuprinsa intr-o formulare
succinta, cunoscuta sub numele de legea lui Prangraz: stimulii vizuali
sunt in asa fel grupati incat sa rezulte configuratia cea
mai simpla. De pilda, pe baza acestei legi percepem in figura 2.3. (b)
siruri de 0 si respectiv, de x, nu coloane de 0x0x0 cum ne-ar indreptati
sa o facem principiul proximitatii spatiale, elementele de pe coloana fiind
mai apropiate decat cele de pe linii. Legea lui Pragnanz este in
acord cu finalitatea principala a sistemului cognitiv (uman): sporirea adaptarii
la mediu. Cu cat mai economicos este organizata o multime de elemente,
cu atat mai usor poate fi procesata informatia despre ele, determinand
reactii adaptative rapide din partea subiectului.
Fig. 2.3. Organizarea stimulilor vizuali pe baza principiilor gestaltiste .
(a) - cele opt linii paralele sunt grupate doua cate doua, pe baza proximitatii
spatiale; (b) - stimulii sunt grupati pe linii, nu pe coloane, din cauza similaritatii
elementelor de pe o linie; (c) - la intersectia liniei punctate care porneste
din A cu cea care porneste din C continuarea se face spre B, respectiv D, desi
orice alta continuare ar fi posibila (ex: AD, CB); (d) - se presupune ca discul
ocluzat se inchide unind conturul circular vizibil.
Fig. 2.4. Constructia contururilor virtuale pe baza principiilor gestaltiste:
(a) - grupare pe baza similaritatii relatiilor topologice dintre cele doua categorii
de linii;
(b) - triunghiul lui Kanizsa (principiul inchiderii); (c) - figura lui
Ehrenstein (principiul inchiderii); (d) - iluzia lui Poggendorff (prinipiul
inchiderii).
Mecanismele de organizare a elementelor din campul vizual dupa principiile
gestaltiste sunt responsabile, cred, si de inducerea contururilor subiective
sau virtuale. Acest tip de contururi nu rezulta din procesarea variatiei de
luminozitate, deoarece ea nu este prezenta, ci dintr-o constructie cognitiva,
pe baza principiilor mentionate mai sus. Acest fapt poate fi observat examinand
configuratiile din figura 2.4.
Reamintindu-ne de tendinta sistemului cognitiv uman de accentuare a contururilor
existente, constatam acum ceva si mai surprinzator si anume constructia contururilor
acolo unde ele nu exista, dar daca ar exista, ar permite structurarea economicoasa
a campului vizual. Nu stim cat de ordonata este realitatea in
sine;e clar insa ca sistemul nostru cognitiv ii da un plus de ordine.
Daca principiile gestaltiste sunt incalcate, recunoasterea este mult ingreunata.
Daca scriu propozitia:
CiNeArEAuRuLsTaBiLeStErEGuLiLe ,
recunoasterea ei este dificila datorita nerespectarii principiului similaritatii
(litere de marimi diferite fiind organizate in aceeasi unitate) si a principiului
proximitatii spatiale (spatiile dintre cuvinte fiind sterse). Experimental,
acelasi lucru a fost dovedit de S.E. Palmer (1977) intr-o cercetare consacrata
recunoasterii figurilor. Mai intai subiectilor le erau prezentate
configuratii de genul celor din figura 2.5. a). Ulterior erau solicitati sa
mentioneze daca configuratii de genul celor din figura 2.5. b) - e) sunt parti
componente ale celei dintai. Se poate observa ca toate fragmentele prezentate
apartin primei configuratii, dar unele sunt rezultatul segmentarii dupa principii
gestaltiste (b) si (c) iar altele rezulta printr-o segmentare ce incalca
aceste principii. Rezultatele experimentului consemneaza recunoasterea mult
mai rapida a figurilor segmentate dupa principiile gestaltiste in raport
cu fragmentarile aleatoare. Una dintre tezele cele mai larg vehiculate ale gestaltistilor
este aceea ca perceptia configuratiei, a gestaltului se realizeaza mai rapid
decat perceptia partilor componente. Pentru a ilustra acest lucru, Pomeratz,
Sager & Stoever (1977) efectueaza un experiment in care solicita subiectilor
sa actioneze asupra unei taste cand pe display, alaturi de alti stimuli
nesemnificativi, apar paranteze de forma () sau ((;ei apasau pe alta tasta cand
detectau configuratii de forma (sau). Se poate observa ca, in primul caz
configuratiile erau mai complexe dar puteau fi organizate dupa regulile gestaltiste.
In al doilea caz erau mai simple - parti ale celor dintai, dar nu
puteau fi astfel organizate. S-a constatat ca detectarea se realiza semnificativ
mai rapid in cazul primului tip de stimuli.
Fig. 2.5. Exemplu de stimuli utilizati de Palmer (1977) (a) - stimulul original;
(b), (c) - segmentari gestaltiste; (d), (e) - segmentari aleatoare.
Cercetari similare efectuate de Kinchla & Wolf (1979) au utilizat configuratii
compozite in care un stimul complex era compus din organizarea unor stimuli
cu semnificatii total diferite (ex. se prezenta litera H ale carei contururi
erau formate din serii de litere E).
In mod constant, subiectii care vizionau astfel de figuri recunosteau
mai intai configuratia globala si abia ulterior partile componente.
Dovezi indirecte despre primatul intregului asupra partilor au fost aduse
de investigatiile asupra atentiei selective: cu cat un element este mai
intricat intr-o configuratie gestaltista cu atat mai dificila
este discriminarea sa de restul elementelor. Pictori de renume ca G. Arcimboldo
sau Salvador Dali au utilizat fenomenul mentionat mai sus in compozitiile
lor. Rezultatele acestor experimente nu trebuie sa ne induca in eroare.
Dupa parerea noastra ele nu trebuie interpretate in sensul ca prelucrarea
efectiva a intregului sau a configuratiei precede procesarea partilor
(de exemplu, extragerea contururilor). Remarcam, mai intai, ca toate
datele invocate mai sus consemneaza fie impresiile fenomenale, subiective ale
subiectilor - ca in cazul tablourilor mentionate, fie rezultatele unor
experimente de recunoastere. In ambele cazuri, e vorba de primordialitatea
fenomenala, sau fenomenologica, asa cum apare ea in experienta subiectiva,
constientizata, nu de primordialitatea in sensul functionarii sistemului
cognitiv. Dupa cum s-a aratat, procesele primare sunt modulare, preatentionale,
inaccesibile constiintei subiectului. Subiectul poate constientiza mai rapid
procesarea intregului, a gestaltului (orice experiment de recunoastere
bazandu-se nu pe reprezentarile existente in sistemul cognitiv ci
doar pe cele constientizate). Abia ulterior, prin analize minutioase care sunt
apanajul specialistilor, se pot constientiza si detalia procesarile primare
ale informatiei. Asadar, primordialitatea constientizarii nu inseamna
primordialitatea realizarii sau executiei unei prelucrari. Ceea ce apare ca
primordial sau prioritar in experienta subiectiva nu e primul in
ordinea procesarilor reale. Ca si in alte situatii, ceea ce ni se pare
nu e tocmai ceea ce este. Nu inseamna insa ca vom sustine in
mod dogmatic o secventialitate stricta a procesarilor. Prelucrarea informatiei
locale se poate desfasura de la un moment dat, in paralel cu procesarea
informatiei globale. Ramane deschisa problema daca mecanismele de grupare
a stimulilor vizuali, consemnate sub numele de principii gestaltiste, sunt innascute
sau nu. Prezenta lor poate fi constatata inca din primele luni de viata
(Spelke, 1990). Chiar daca nu sunt integral determinate genetic, cu siguranta
exista o predispozitie (preparedness cum o numeste Seligman) a sistemului nervos
uman pentru organizarea stimulilor din spatiul vizual. Altfel nu ne putem explica
prezenta lor atat de timpurie. Principala lor functie, de segregare a
figurii de fond, a obiectului de mediu prin organizarea elementelor componente
ale acestora este esentiala pentru subiectul uman. Putem spune ca ele realizeaza
un gen de categorizare neintentionata a elementelor din campul vizual.
2.2.2. RBC - UN MODEL COMPUTATIONAL DE RECUNOASTERE A OBIECTELOR
Identificarea caracteristicilor nonaccidentale ale obiectelor care sunt prezentate
in schita 21/2 D si organizarea gestaltista a stimulilor vizuali nu sunt
suficiente pentru a explica procesul de recunoastere. Care sunt prelucrarile
ulterioare care se finalizeaza in recunoastere? Abordarea computationala
a acestei probleme incearca sa ne ofere o solutie interesanta si plauzibila.
2.2.2.1. Constructia modelului RBC
Una dintre cele mai interesante modelari computationale ale recunoasterii obiectelor
- RBC (recognition by components) a fost realizata de I. Biederman (1987, 1988,
1990). Psihologul american porneste de la tendinta cotidiana, naturala a subiectului
de a segmenta obiectele complexe in partile lor componente. Un elefant,
de pilda, e considerat ca fiind compus din corp, trompa, cap, picioare si coada.
Un om - din cap, corp, brate, picioare etc. Usurinta segmentarii obiectelor
complexe in partile lor componente e vizibila si in desenele sau
schitele de desen pe care le facem aproape la orice varsta. Partile in
care sunt descompuse obiectele pot fi considerate ca niste volume primitive
numite geoni (de la geometrical ions). Un obiect complex poate fi specificat
prin geonii componenti si modul de dispunere a lor. Aceeasi geoni aflati in
relatii diferite reprezinta obiecte diferite. Bazandu-se pe o estimare
a numarului de obiecte concrete, semnificativ diferite din universul cunoscut
noua pana in prezent, Biederman sustine ca intreaga diversitate
obiectuala ar putea fi redusa la 24 de geoni si a combinatiilor dintre acestia.
In figura 2.6. sunt prezentati 10 astfel de geoni si cateva din
obiectele care pot fi constituite prin compunerea lor.
Fig. 2.6. Geoni si obiecte complexe (apud Zimbardo, 1992).
Segmentarea obiectelor in partile componente - generand astfel geonii
respectivi - se face, de regula, in zonele de concavitate. Biederman imprumuta
unul din rezultatele notabile ale geometriei descriptive cunoscut sub numele
de principiul transversalitatii (Hoffman & Richards, 1985). Potrivit acestui
principiu, intretaierea a doua suprafete este aproape intotdeauna
marcata de o concavitate. Corespunzator, adeptii modelului RBC sustin ca fragmentarea
obiectelor complexe in parti componente are loc, de regula, in zonele
de concavitate locala (maxima). Segmentarea obiectului in aceste zone
ofera maximum de informatie asupra structurii si partilor sale (vezi figura
2.7.).
Fig. 2.7. Generarea geonilor prin segmentarea unei lanterne in zonele
de concavitate locala (sagetile indica regiunile de realizare a segmentarii).
Toti geonii pot fi descrisi matematic printr-o teorie a conurilor generalizate,
un formalism de reprezentare a volumelor. Un con generalizat este un volum generat
prin miscarea unei sectiuni transversale in jurul unei axe. Orice geon
are patru atribute: a) curbura sau muchiile sale (drepte sau curbe); b) marimea
(constanta, expandata si redusa); c) simetria (sectiune simetrica sau nesimetrica);
d) axa (dreapta sau curba). Prin variatia acestor atribute si specificarea relatiilor
nonaccidentale dintre ele se pot genera deci, implicit, se pot descrie toti
geonii. Un exemplu in acest sens este prezentat in figura 2.8. Specificarea
proprietatilor nonaccidentale este esentiala in descrierea geonilor. Pentru
acelasi geon (ex: un cilindru, un trunchi de piramida etc.) raman constante,
invariante la punctul de vedere al subiectului - proprietatile nonaccidentale,
chiar daca marimea sectiunii sale se modifica. De exemplu, paralelismul muchiilor
unui paralelipiped si concatenarea lor sub forma de furca Y raman neschimbate,
indiferent de unghiul din care este vazuta. Aceasta invarianta permite geonilor
sa fie foarte rezistenti la parazitari. In mediul natural existenta unor
geoni perfecti (ex: cilindre, paralelipipede, trunchiuri de piramida) este destul
de rara. De pilda, mainile si degetele noastre sunt similare dar nu identice
cu un cilindru, adica un geon cu perimetrul sectiunii curbiliniu, generat prin
rotirea constanta in jurul unei axe drepte. Reamintindu-ne de tendinta
sistemului cognitiv de anihilare a abaterilor de la proprietatile nonaccidentale
(rectiliniaritate, simetrie, paralelism, concatenare) putem admite ca geonii
vor fi activati de stimuli naturali similari. In acest caz, specificarea
geonilor si a relatiilor topologice dintre acestia sunt suficiente pentru recunoasterea
obiectelor complexe.
Fig. 2.8. Generarea unor geoni prin variatia atributelor mentionate . Geonii
rezultati difera sub aspectul relatiilor nonaccidentale. (apud Biederman, 1990).
Stadiile prelucrarilor informationale implicate in recunoasterea obiectelor
pe baza componentelor sunt rezumate de I. Biederman (1990) in figura 2.9.
Fig. 2.9. Stadiile recunoasterii obiectelor pe baza de componente (sagetile
continue denota prelucrari ascendente, cele discontinue - procesari descendente).
Asadar, dupa extragerea contururilor din imaginea obiectului real , sunt initiate
doua module paralele, de detectare a proprietatilor nonaccidentale si de segmentare
a obiectelor in zonele de concavitate locala. Rezultatul acestor procesari
paralele consta in reducerea oricarui obiect complex la un set de geoni
aflati in anumite relatii topologice. Aceasta reprezentare activeaza diverse
modele ale obiectelor, existente in memorie, modele reductibile la geoni
si combinatiile dintre acestia. Pe baza acestei corespondente se realizeaza
identificarea obiectului. Biederman sustine ca e suficienta identificarea a
trei geoni dintr-un obiect pentru a putea recunoaste obiectul respectiv (Biederman,
1990). Liniile punctate arata eventuala interventie a unor procesari descendente.
Implementarea pe calculator a unor variante ale modelului RBC s-a dovedit viabila
si promitatoare. Din punct de vedere psihologic nu atat performantele
sale tehnologice ne intereseaza, (desi ele sunt esentiale pentru IA), ci validitatea
ecologica a acestui model.
Fig. 2.10. Stimuli fizici (a) si segmentarea lor in zonele de maxima
concavitate locala (c) sau in alte zone (b). (apud Biederman, 1987)
2.2.2.2. Validitatea ecologica a modelului RBC
Modelele computationale se valideaza, in primul rand, sub aspectul
consistentei lor interne prin implementarea pe calculator. Ele valorifica mai
ales caracteristicile fizice ale stimulului, urmarind prelucrarea acestora astfel
incat rezultatul calculelor sa fie echivalent cu outputul proceselor
cognitive reale. Constrangerile neurofiziologice sunt in mai mica
masura luate in calcul, majoritatea acestor modele fiind elaborate cu
scopul construirii unor sisteme artificiale, care au un alt hardware, astfel
incat se tinde sa se faca abstractie de datele neurobiologice. Orice
model cognitiv, chiar de la nivelul computational, genereaza insa o serie
de predictii despre comportamentul subiectului. Aceste predictii pot fi validate
prin observatii sau experimente in situatii cat mai naturale. Masura
in care predictiile modelului se dovedesc verosimile in mediul natural,
real al subiectului constituie validitatea sa ecologica.
Una dintre tezele principale ale modelului este ca segmentarea imaginii obiectelor
concrete si generarea geonilor se face in zonele de concavitate locala.
Pentru a testa aceasta idee se pot construi serii de stimuli ca cei prezentati
in figura 2.10.
Prima coloana reprezinta o multime de obiecte reale. Celelalte doua coloane
reprezinta aceleasi obiecte dar cu contururile incomplete. Deosebirea dintre
ele este ca, in coloana (c) contururile sunt sterse in zonele de
concavitate locala iar in coloana (b), aceeasi suprafata este radiata
dar in alte zone. Daca segmentarea obiectelor se face in zonele
de concavitate, atunci recunoasterea obiectelor pe baza schitelor din coloana
(c) va fi mult mai dificila decat daca se prezinta imaginile din (b).
Cititorul poate verifica singur aceasta conjectura inspectand figura 2.10.
Ea a fost probata experimental de Biederman (1987): numarul de erori si timpul
de reactie sunt mai mari in cazul deteriorarii contururilor din zona de
concavitate locala decat din orice alta zona, aria deteriorata fiind constanta.
Un alt argument (indirect) in favoarea RBC este oferit de rezultatele
experimentelor asupra recunoasterii obiectelor in conditiile rotirii lor
in plan sau in spatiu. Timpul necesar recunoasterii este semnificativ
mai mare daca obiectele se rotesc in plan decat daca se rotesc in
spatiu (Biederman, 1990). Explicatia consta in faptul ca rotirea in
plan afecteaza in mai mare masura geonii (in special relatiile dintre
geoni) decat rotirea in spatiul tridimensional. RBC ofera o explicatie
plauzibila unuia dintre fenomenele ubicue si paradoxale ale recunoasterii. O
serie de date experimentale, ca si observatiile oricaruia dintre noi, pun in
evidenta faptul ca recunoasterea unei scene din realitatea inconjuratoare
nu este mult mai dificila decat recunoasterea unui obiect complex. Or,
o scena fiind mai complexa, continand mai multe obiecte, ar trebui sa
reclame un timp de latenta mai
Fig. 2.11. Recunoasterea scenelor pe baza
indelungat. Privind figura 2.11., dintr-o singura privire ne dam seama
ca sunt reprezentate strazile unui mare oras (a) si un birou (b). O explicatie
plauzibila, pe baza RBC, a acestor rezultate contraintuitive considera ca, desi
numarul de elemente dintr-o scena e considerabil mai mare decat numarul
partilor unui obiect, numarul de geoni corespunzatori ramane relativ redus.
De pilda, in figura 2.11. (a), intreaga complexitate a scenei poate
fi redusa la doua tipuri de geoni: paralelipipede si cilindre, ceea ce apropie
complexitatea scenei de cea a unui singur obiect din mediu (ca exercitiu, incercati
sa identificati geonii din figura 2.11. (b). Pe scurt, prin reducerea scenelor
la geoni si relatii dintre acestia, complexitatea scenei se reduce, astfel incat
timpul de recunoastere nu difera semnificativ de timpul reclamat pentru cunoasterea
unui obiect. Fireste, aceasta nu este singura explicatie posibila, dar ea este
una dintre cele mai plauzibile. Investigatii experimentale ulterioare vor oferi,
speram, o validare mult mai acurata a acestei ipoteze. E prematur sa procedam
la o evaluare comprehensiva a teoriei RBC. Multe din asumptiile sau tezele sale
vor fi testate in urmatorii ani, atat sub aspectul consistentei
interne - prin simularea pe calculator - cat si al validitatii ecologice.
Din pacate, una dintre dificultatile care apar in mod sistematic in
stiintele cognitive consta in faptul ca, cu cat un model este mai
complex, mai elaborat, cu atat e mai dificil sa stabilesti care segment
al sau este gresit. De pilda, in eventualitatea in care teoria RBC
nu va fi capabila sa explice un anumit set de date experimentale, nu inseamna
neaparat ca intreaga teorie este eronata. E posibil ca per global teoria
sa fie corecta iar esecul respectiv sa fie rezultatul unei singure componente.
Este insa greu de stabilit care anume dintre ele. Alaturi de aceasta dificultate
generala la care trebuie sa faca fata si modelul RBC, semnalam cateva
probleme specifice care reclama efortul generatiei actuale de cercetatori. Una
dintre problemele dificil de rezolvat in teoria RBC vizeaza modul de realizare
a punerii in corespondenta a imaginii obiectului cu reprezentarea sa din
memorie. Cum anume se activeaza reprezentarea mnezica corespunzatoare imaginii
unui obiect pentru a finaliza procesul de recunoastere? Cum sunt stocate reprezentarile
in memorie astfel incat analiza geonilor si corelatiilor dintre
ei sa faca posibila activarea reprezentarii corespunzatoare? Oare in memorie
este stocata imaginea obiectului sau descriptia lui semantica, iar imaginea
este produsa in momentul recunoasterii? O alta problema, vizeaza identificarea
obiectelor cu acelasi tip de geoni (de exemplu, o locomotiva electrica si un
tramvai). In acest caz, se pare ca descompunerea in geoni nu este
suficienta pentru a recunoaste obiectele respective, deoarece geonii componenti
sunt aceeasi. Procesarile descendente joaca un rol important in aceste
cazuri. In general vorbind, ramane de rezolvat problema relatiei
dintre procesarile descendente si descompunerea in geoni. In fine,
modelul RBC, uita sa ia in considerare mecanismele de organizare gestaltista
a stimulilor vizuali. In opinia noastra, ele formeaza un modul separat,
functionand in paralel cu cele responsabile de detectarea caracteristicilor
nonaccidentale si de segmentare in zonele de concavitate locala maxima
(vezi figura 2.35.). Activarea geonilor si a relatiilor dintre acestia este
precedata de formarea configuratiilor perceptive de tip gestaltist.
* *
*
In rezumat, procesarea secundara a informatiei porneste de la schita 21/2
D. La acest nivel sistemul cognitiv cunoaste contururile obiectului (depistate
fie pe baza variatiei de luminozitate, fie datorita diferentei de culoare sau
textura), cunoaste daca obiectul se deplaseaza sau nu, adancimea sa in
spatiu sau departarea fata de observator. Aceasta reprezentare este centrata
pe subiect. Apoi, in schita 21/2 D sunt identificate caracteristicile
nonaccidentale iar contururile prezente sunt organizate pe baza principiilor
gestaltiste de mecanisme speciale. Imaginea intermediara e segmentata in
zonele de concavitate locala (maxima), generand geonii. Acestia activeaza
in memorie obiectele formate din geonii respectivi aflati in relatii
topologice specifice, recunoasterea finalizandu-se prin punerea in
corespondenta a reprezentarii stocate in memorie cu imaginea intermediara.
Se poate observa ca toate aceste procesari sunt unidirectionale, de jos in
sus. Cu alte cuvinte, ele sunt prelucrari ascendente (botom-up analysis). Recunoasterea
obiectelor sau figurilor implica insa si o multime de procesari descendente,
care vor fi tratate in cele ce urmeaza.
2.2.3. Procesari descendente in cazul recunoasterii stimulilor
verbali
O serie de cercetari au probat efectul catalizator al contextului adecvat in
recunoasterea stimulilor verbali. Inainte de a citi mai departe acest
text, priviti figura 2.12.
Fig. 2.12. Un exemplu de procesare descendenta
/ \AI / \CASA!
Fara prea multa dificultate ati redus ambiguitatea mesajului percepand
propozitia HAI ACASA! Aceeasi configuratie ambigua / \ este interpretata, in
contextul primului cuvant ca fiind litera H iar in contextul celui
de-al doilea cuvant ca fiind A . Cunostintele noastre de limba romana
si despre semnificatia semnului exclamarii au initiat un proces de analiza descendenta
care au dus la specificarea configuratiilor. Analiza ascendenta - pe trasaturi
- ar fi fost insuficienta in acest caz. Cunostintele noastre lexicale
au functionat ca niste constrangeri ale recunoasterii configuratiei ambigue
astfel incat, cele doua cuvinte impunand constrangeri
diferite au determinat decodari diferite. Perceput independent de context, configuratia
ambigua ar fi fost lipsita de constrangeri, putand s-o interpretam
in chipuri diferite. Recunoasterea mai rapida a unei litere daca ea este
prezentata in contextul unui cuvant a fost demonstrata experimental
in repetate randuri. G. Reicher (1969) a prezentat la tahistoscop
un caracter tinta - sa zicem "K" in trei situatii diferite:
a) in contextul unui cuvant cu sens (ex: "WORK"); b) in
contextul unei configuratii lingvistice fara sens (ex: "WKOR"); c)
independent (ex: "K"). Pentru fiecare dintre aceste situatii subiectii
trebuiau sa decida daca, la tahistoscop, au vazut litera "K" sau litera
"D". S-a constatat ca recunoasterea - operationalizata atat
prin numarul de erori cat si prin timpul de reactie - este cea mai eficace
in situatia a). Mai exact, numarul de erori inregistrate la discriminarea
dintre D si K este cu 10% mai mic daca literele sunt prezentate in contextul
unui cuvant decat daca sunt prezentate independent. El a numit acest
rezultat efectul superioritatii cuvantului, (superiority word effect),
subliniind ca recunoasterea unei litere e mai rapida daca ea e incadrata
intr-un cuvant cu sens decat daca ea este prezentata independent
sau intr-o configuratie fara sens. La prima vedere suntem in fata
unui efect paradoxal, procesarea unei singure litere fiind realizata intr-un
timp mai indelungat decat procesarea unei secvente (cu sens) de
patru litere. Rumelhart & Siple (1974) ofera o explicatie acestui efect.
Ei sustin ca pentru a discrimina intre "D" si "K"
trebuie realizata o analiza pe trasaturi completa daca aceste caractere sunt
prezentate independent. In schimb, daca sunt prezentate in cadrul
unui cuvant e suficienta procesarea unei singure trasaturi (ex: ) de la
D sau de la K) pentru a le discrimina, deoarece, prin analiza descendenta, activarea
sensului posibil al cuvantului circumscrie semnificatia ultimei litere,
nemaifiind necesara prelucrarea ei completa. Ulterior, McClelland & Rumelhart
(1981) au construit o retea neuromimetica in stare sa produca acest efect
pe care o vom prezenta intr-un subcapitol ulterior. Explicatia lui Rumelhart
& Siple ne atrage atentia asupra caracterului puternic redundant al majoritatii
stimulilor complecsi. Oricine poate constata acest lucru cind, fiind pus
sa citeasca un text in care parti din litere erau sterse a putut face
acest lucru fara dificultati deosebite. Secventa: scxiu x frxza xn cxre xiexarx
a txeix lixerx esxe x xar xoaxe fx cixitx poate fi intr-adevar citita,
datorita procesarilor descendente, chiar daca lipsesc foarte multe caractere.
Devine acum evident faptul ca, in recunoastere, prelucrarea ascendenta
este dublata de analiza descendenta. Acest lucru nu are loc in cazul procesarii
primare a informatiei vizuale deoarece este efectuata de moduli impenetrabili
cognitiv.
In mod similar, s-a putut pune in evidenta superioritatea recunoasterii
cuvantului in contextul propozitiei fata de recunoasterea sa in
situatia prezentarii sale independente. Pollack & Pickett (1964) au inregistrat
pe banda de magnetofon conversatiile dintre diade de subiecti. Ulterior ei au
izolat unele cuvinte si le-au prezentat in combinatii aleatoare subiectilor
participanti la aceste conversatii. Desi initial conversatia se desfasurase
in bune conditiuni, subiectii intelegand toate cuvintele,
ulterior doar 47% dintre acestea au fost intelese! Generalizand,
daca intr-o conversatie intelegem aproximativ 100% din cuvintele
vehiculate, atunci cam jumatate din aceasta intelegere nu se datoreaza
proprietatilor stimulilor lingvistici auditivi ci cunostintelor noastre sintactice
si semantice care initiaza prelucrari descendente ale informatiei.
2.2.4. Procesari descendente in cazul recunoasterii obiectelor
Fig. 2.13. Exemple de stimuli prezentati in experimentul Weistein si Harris
(1974). Daca se ia ca referinta precizia identificarilor obtinute in cazul
(a), atunci performantele scad cu 5,15% pentru ipostaza (b) si cu 13,15% pentru
ipostaza (c).
Obiectele sunt entitati tridimensionale care se supun legilor fizicii si interactioneaza
cu mediul. De regula, ele au o functie precisa si le corespunde o eticheta verbala
(un substantiv). Recunoasterea lor este esentiala pentru supravietuirea organismului.
De repetate ori s-a dovedit ca o trasatura sau caracteristica fizica a unui
obiect este mai usor de recunoscut daca ea este plasata in contextul reprezentarii
unui obiect decat daca e prezentata ca element al unui obiect imposibil
sau e prezentata independent. Intr-o cercetare experimentala citata frecvent,
Weistein & Harris (1974) au solicitat subiectilor sa identifice prezenta
unor trasaturi - segmente de dreapta orientate oblic, pozitionate diferit fata
de un punct fix. Aceste trasaturi erau prezentate in trei ipostaze: (a)
ca parti componente ale unui obiect posibil; (b) incluse in combinatii
care nu reprezentau obiecte posibile; (c) independent (vezi figura 2.13.).
Rezultatele experimentului confirma superioritatea performantelor obtinute
in situatii care fac posibila declansarea procesarilor descendente. Prin
analogie cu efectul superioritatii cuvantului (word superiority effect)
aceste rezultate au consfintit efectul superioritatii obiectului (object superiority
effect).
2.2.5. Procesari descendente in cazul recunoasterii scenelor si
fetelor umane
Fig. 2.14. Recunoasterea elementelor unei fete umane; (A) in context;
(B) independent.
Cunostintele de care dispunem, prin initierea unor procesari descendente sunt
responsabile si de recunoasterea mai rapida a elementelor unor fete umane in
contextul fetelor respective decat daca aceste elemente sunt prezentate
independent. Palmer (1975) a prezentat parti ale unei fete umane asociate cu
prezentarea integrala a acesteia din urma. Recunoasterea lor s-a facut cu usurinta,
intr-un timp foarte scurt (figura 2.14. A). Aceleasi elemente, prezentate
insa independent aveau nevoie de o reprezentare mult mai detaliata pentru
a putea permite recunoasterea lor (figura 2.14. B). Aceleasi caracteristici
ale fetei (nasul, urechea, buzele) sunt recunoscute cu usurinta in contextul
fetei umane, dar cand sunt prezentate independent.
In fine, experienta noastra difuza cu obiectele din mediul in care
traim isi pune amprenta asupra modului in care recunoastem si procesam
scenele sau situatiile statice. In mod obisnuit, obiectele dintr-o scena
nu formeaza o aglomerare haotica ci sunt organizate dupa anumite regularitati.
Aceste regularitati specifica sinteza scenei respective - modul de organizare
sau combinare a obiectelor in interiorul scenei. In acelasi timp,
scena are o semnificatie: ea reprezinta o strada, un pasaj, o statie de metrou
sau un stadion etc. Regularitatile care guverneaza semnificatiile scenelor formeaza
semantica scenei. Biederman si colab. (1982) sustin ca regularitatile sintactice
si semantice sunt in numar limitat. Ele sunt dobandite de individ
in decursul ontogenezei pe baza unei invatari implicite, neintentionate
si actioneaza ca niste constrangeri in identificarea scenelor. Toate
au o formulare probabilistica, fiind generalizari difuze ale experientei cotidiene
proprii. Principalele regularitati vizeaza: a) suportul fizic al obiectelor;
de regula, obiectele din univers au un suport, sunt asezate pe ceva; zborul
lor, atunci cand exista, e o situatie vremelnica. Un obiect e recunoscut
mai rapid daca e asezat pe un suport, decat daca e suspendat. b) interpozitia
(ocluzarea reciproca); majoritatea obiectelor sunt opace, astfel incat
un obiect ocluzeaza partial sau total obiectele situate in spatele sau
(din punct de vedere al observatorului). Recunoasterea unui obiect este ingreunata
daca el nu ocluzeaza obiectele din spatele sau. c) probabilitatea ocurentei;
de regula obiectele apar cu o probabilitate mai mare intr-un anumit context.
Recunoastem mai rapid un obiect daca e prezentat in contextul sau specific
decat intr-un mediu nespecific.
Fig. 2.15. Stimuli utilizati de Biederman & colab. (1982) pentru a dovedi
impactul constrangerilor asupra recunoasterii: a) incalcarea interpozitiei;
b) incalcarea suportului, marimii si probabilitatii de ocurenta. d) pozitia obiectelor; chiar daca apar intr-un context, de regula obiectele
au o anumita pozitie, obisnuita. Obiectele prezentate in pozitii neuzuale,
inedite, sunt mai greu de recunoscut. e) marimea relativa a obiectelor; de regula,
orice obiect are o anumita marime cu care suntem obisnuiti sau familiarizati.
Asadar, daca aceste generalizari difuze ale experientei noastre cotidiene organizate
ca niste "cunostinte tacite" sunt incalcate, recunoasterea obiectelor
este ingreunata. De pilda, avem dificultati in a recunoaste un fotoliu
zburator (incalcarea constrangerii suportului), a unui capac transparent
(incalcarea interpozitiei). De asemenea, recunoastem cu dificultate o
vaca langa pian (probabilitatea ocurentei), pe profesorul de psihologie
mergand in maini prin universitate (pozitia), sau un soarece
de marimea unui elefant (marimea). O ilustrare a acestor regularitati e prezentata
in figura 2.15.
Violarea cunostintelor tacite nu duce numai la sporirea timpului de reactie
necesar pentru recunoasterea scenelor ci adesea provoaca surpriza si efecte
comice. Sa ne inchipuim, de pilda, un soarece cat un motan cautand
sa se ascunda de un motan cat un soricel, sau ca cel mai sever profesor
pe care-l cunoastem a devenit transparent, umbla in maini prin mijloacele
de transport in comun dupa care, brusc, se ridica la cer.
2.3. SUMAR
Informatia vizuala este prelucrata in doua stadii. In prima faza
(= prelucrarea primara), caracteristicile fizice ale stimulului sunt procesate
in paralel, de mai multe mecanisme modulare. Din schita primara sunt extrase
contururile, textura, deplasarea, pozitia, forma, adancimea si culoarea.
Outputul lor este o imagine intermediara a stimului, dependenta de punctul de
vedere al subiectului (= schita 21/2D). Caracteristicile nonaccidentale ale
schitei inermediare si gruparea dupa principii gestaltiste a stimulilor initiaza
a doua etapa a procesarilor vizuale. Ea are ca rezultat recunoasterea obiectului
pe baza construirii imaginii sale integrale, 3D. Diversitatea stimulilor complecsi
este redusa prin descompunerea lor in geoni. Geonii rezulta din segmentarea
(automata) a obiectelor in zonele de maxima concavitate locala. Orice
obiect poate fi descris prin geonii componenti si relatiile lor reciproce. In
faza de recunoastere, analiza ascendenta este dublata de analiza descendenta
a stimulului.
Retelele neuromimetice pot modela (macar o parte din) procesarile implicate
in recunoasterea stimulului. Ele pot asigura interfata dintre modelele
computationale si datele din neurobiologie, fiind compatibile cu ambele categorii
de rezultate. Exista totusi o multime de probleme, semnalate pe parcursul lucrarii,
de rezolvarea carora depinde evolutia ulterioara a cercetarilor. Rezultatele
teoretico-experimentale din acest domeniu au importante aplicatii tehnologice.
Pe baza lor s-au construit sisteme inteligente capabile sa extraga contururile,
sa discrimineze stimulii din mediu, sa calculeze adancimea in spatiu,
etc.