d - haydu, nicholas bender.pdf

NCHOLAS BENDER HAYDU

UMA ABORDAGEM BASEADA EM SELEO PELAS CONSEQNCIAS PARA APRENDIZAGEM DE REDES NEURAIS MULTI-CAMADAS

VOLTADAS CONCEPO DE SISTEMAS AUTNOMOS INTELIGENTES

Dissertao apresentada como requisito parcial obteno do grau de Mestre em Informtica pelo Curso de Ps-Graduao em Informtica, do Setor de Cincias Exatas da Universidade Federal do Paran, em convnio com o Departamento de Informtica da Universidade Estadual de Maring.

Orientador: Prof. Dr. Maurcio F. Figueiredo

CURITIBA

2003

UFPR Ministrio da Educao Universidade Federal do Paran Mestrado em Informtica

PARECER

Ns, abaixo assinados, membros da Banca Examinadora da defesa de Dissertao de Mestrado em Informtica, da aluno Nicholas Bender Haydu, avaliamos o trabalho intitulado, "L/ma Abordagem Baseada em Seleo pelas Conseqncias para Aprendizagem de Redes Neurais Multi-Camadas Voltadas Concepo de Sistemas Autnomos Inteligentes ", cuja defesa foi realizada no dia 15 de agosto de 2003, s dez e trinta horas, no Auditrio da Informtica da Universidade Federal do Paran. Aps a avaliao, decidimos pela aprovao do candidato. (Convnio nmero 279-00/UFPR de Ps-Graduao entre a UFPR e a UEM - rf. UEM nmero 1331/2000-UEM).

Curitiba, 15 de agosto de 2003.

Prof. Dr. Maurcio Fernandes Figueiredo DIN/UEM (Orientador)

Prof. Dr. Fernando Jos Von Zuben FEED/UNICAMP - Membro Externo

Prof. Dra ad Ramirez Pozo DINF/UFPR

Ao esprito cientfico e ao desejo homem por saber mais.

AGRADECIMENTOS

IV

Ao meu orientador, Prof. Dr. Maurcio Fernandes Figueiredo, por ter

me guiado ao longo de mais essa etapa com dedicao, conhecimento e,

principalmente, imaginao.

minha famlia pelo apoio, incentivo e conversas inteligentes. Em

especial para o meu pai, com sua imaginao frtil, e para minha me, pela ajuda

terica, dicas e conselhos extremamente teis.

Aos professores do programa de Ps-Graduao, em especial ao

Prof. Dr. Lus Augusto Consularo, pela ajuda e tambm pela versatilidade em

conversar sobre diversos assuntos interessantes.

Aos meus amigos e colegas pela amizade, companheirismo e

distrao nos momentos de lazer.

Ao resto do mundo por no interferir de forma decisiva.

V

LISTA DE FIGURAS

Figura 1 - Esquema de neurnios e suas ligaes 13 Figura 2 - Esquema da sinapse 14 Figura 3 - Modelo bsico de neurnio artificial 14 Figura 4 - Funo sigmide 15 Figura 5 - Arquitetura de rede neural de urna nica carnada 16 Figura 6 - Arquitetura de rede neural de quatro camadas 17 Figura 7 - Arquitetura de rede neural recorrente 17 Figura 8 - Estruturas neurais de seleo pelas conseqncias 34 Figura 9 - Exemplo de condicionamento operante na rede de seleo pelas

conseqncias 36 Figura 10 - Contingncia respondente e operante 37 Figura 11 - Arquitetura de rede neural para quatro camadas 40 Figura 12 - Conexes sinpticas tpicas e respectivas distribuies 41 Figura 13 - Representao da rede 50 Figura 14 - Propagao da atividade neural por conexes excitatrias inter-camadas

(com cone de alcance mnimo) 53 Figura 15 - Propagao da atividade neural por conexes excitatrias inter-camadas

(sem cone de alcance mnimo) 53 Figura 16 - Atividade neural com conexes laterais inibitrias 54 Figura 17 - Atividade neural com conexes laterais inibitrias e excitao

predominante 55 Figura 18 - Atividade inicial ainda sem grupos neurais definidos 57 Figura 19 - Atividade intermediria com surgimento dos grupos neurais 57 Figura 20 - Atividade final com grupos neurais formados 58 Figura 21 - Atividade neural do estmulo CS anterior ao treinamento respondente. 61 Figura 22 - Atividade neural do estmulo US anterior ao treinamento respondente. 61 Figura 23 - Resposta do estmulo CS aps treinamento respondente 61 Figura 24 - Atividade neural anterior extino do comportamento respondente. .. 63 Figura 25 - Atividade neural aps extino do comportamento respondente 63 Figura 26 - Atividade neural anterior ao treinamento operante 64 Figura 27 - Atividade neural aps treinamento operante 64 Figura 28 - Atividade neural aps treinamento operante para um estmulo no

reforado 65 Figura 29 - Atividade neural anterior ao treinamento operante (exemplo 2) 66 Figura 30 - Atividade neural aps treinamento operante (exemplo 2) 66 Figura 31 - Atividade neural anterior extino do comportamento operante 67 Figura 32 - Atividade neural aps extino do comportamento operante 67 Figura 33 - Atividade neural anterior ao treinamento operante (exemplo de

generalizao) 68 Figura 34 - Atividade neural aps treinamento operante com estmulo original 68 Figura 35 - Atividade neural aps treinamento operante com degradao do

estmulo (exemplo 1 ) 68 Figura 36 - Atividade neural aps treinamento operante com degradao do

estmulo (exemplo 2) 69 Figura 37 - Atividade neural aps treinamento operante com degradao do

estmulo (exemplo 3) 69 Figura 38 - Atividade neural anterior ao treinamento de controle da intensidade da

resposta (estmulo 1 ) 70

vii

Figura 39 - Atividade neural anterior ao treinamento de controle da intensidade da resposta (estmulo 2) 70

Figura 40 - Atividade neural aps treinamento de controle da intensidade da resposta (estmulo 1 ) 71

Figura 41 - Atividade neural aps treinamento de controle da intensidade da resposta (estmulo 2) 71

Figura 42 - Atividade neural anterior ao treinamento de controle de mltiplas respostas (estmulo 1 - resposta 1 ) 72

Figura 43 - Atividade neural anterior ao treinamento de controle de mltiplas respostas (estmulo 2 - resposta 2) 72

Figura 44 - Atividade neural aps treinamento de controle de mltiplas respostas (estmulo 1 - resposta 1 ) 73

Figura 45 - Atividade neural aps treinamento de controle de mltiplas respostas (estmulo 2 - resposta 2) 73

Figura 46 - Atividade neural anterior ao treinamento de fuso sensorial (estmulo discriminativo composto) 75

Figura 47 - Atividade neural anterior ao treinamento de fuso sensorial (componente 1 ) 75

Figura 48 - Atividade neural anterior ao treinamento de fuso sensorial (componente 2 ) 75

Figura 49 - Atividade neural aps treinamento de fuso sensorial (componente 1). 76 Figura 50 - Atividade neural aps treinamento de fuso sensorial (componente 2). 76 Figura 51 - Atividade neural aps treinamento de fuso sensorial (ocorrncia

conjunta dos estmulo 1 e 2) 76 Figura 52 - Atividade neural anterior ao treinamento operante em rede com camadas

20x20 78 Figura 53 - Atividade neural aps treinamento operante em rede com camadas

20x20 78 Figura 54 - Grfico de evoluo de um treinamento operante tpico 79 Figura 56 - Tela do simulador para ajuste de parmetros da rede neural 92 Figura 57 - Tela do simulador para configurar o ambiente de treinamento 93

vii

SUMRIO

1 INTRODUO 1

1.1 Motivao 1

1.2 Objetivos e Contribuies 7

1.3 Organizao do Trabalho 9

2 FUNDAMENTAO TERICA 10

2.1 Redes Neurais Artificiais 10

2.1.1 Modelo Bsico Biolgico 12

2.1.2 Fundamentos 14

2.1.3 Modelos Clssicos de Redes Neurais Artificiais 18

2.2 Aprendizagem e Comportamento Inteligente 23

2.2.1 Reflexos e Reflexos Condicionados 23

2.2.2 Comportamento Operante 25

2.3 Reviso Bibliogrfica 29

2.3.1 Autonomia 29

2.3.2 Aprendizagem por Reforo e Inteligncia Artificial 30

2.3.3 Aprendizagem por Reforo e Redes Neurais Artificiais 31

3 MODELO DE REDE NEURAL ARTIFICIAL 39

3.1 Arquitetura 39

3.2 Raciocnio 42

3.3 Aprendizagem 45

4 RESULTADOS 47

4.1 Experimentos Bsicos 51

4.1.1 Atividade Neural sem Conexes Laterais 52

vin

4.1.2 Atividade Neural com Conexes Laterais 54

4.1.3 Formao Dinmica de Grupos Neurais 56

4.1.4 Consideraes Sobre a Evoluo da Atividade Neural 58

4.2 Experimentos de Aprendizagem 59

4.2.1 Experimento 1 - Convergncia da Aprendizagem em Treinamento

Respondente 60

4.2.2 Experimento 2 - Extino de Comportamento Respondente 62

4.2.3 Experimento 3 - Convergncia da Aprendizagem em Treinamento Operante 63

4.2.4 Experimento 4 - Extino de Comportamento Operante 66

4.2.5 Experimento 5 - Capacidade de Generalizao 67

4.2.6 Experimento 6 - Controle de Intensidade da Resposta 69

4.2.7 Experimento 7 - Controle de Mltiplas Respostas 71

4.2.8 Experimento 8 - Fuso de Sensores 73

4.2.9 Experimento 9 -Treinamento Operante em uma Rede com Camadas de

Dimenso 20x20 77

4.2.10 Experimento 10 - Anlise da Aprendizagem Operante 78

5 CONCLUSES 80

REFERNCIAS BIBLIOGRFICAS 86

ANEXO 89

Anexo I - Ferramenta de Simulao 90

IX

HAYDU, Nicholas Bender. Uma Abordagem Baseada em Seleo pelas Conseqncias para Aprendizagem de Redes Neurais Multi-Camadas Voltadas Concepo de Sistemas Autnomos Inteligentes. 2003. Dissertao (Mestrado em Informtica) - Universidade Federal do Paran, Curitiba.

RESUMO

Um modelo de rede neural artificial proposto. A rede neural possui mltiplas camadas. Cada camada da rede neural formada por uma grade quadrangular de neurnios (em um espao toroidal). As conexes sinpticas de cada neurnio abrangem trs tipos: excitatrias inter-camadas, laterais inibitrias intra-camada e laterais excitatrias intra-camada. A disposio espacial das conexes do tipo Gaussiana e especfica para cada tipo de sinapse. Cada neurnio estabelece um nmero restrito de conexes. O modelo de arquitetura contribui para eliminar restries apresentadas por arquiteturas em que entradas e conexes so distribudas a todos os neurnios de cada camada. O modelo do neurnio apresenta dinmica interna, proporcionando uma memria da atividade recente e assumindo papel importante na aprendizagem. A aprendizagem baseada na seleo pelas conseqncias, conforme princpios de aprendizagem por reforo. Em particular, a de aprendizagem por reforo utilizada do tipo clssico. Os experimentos definidos para investigao e confirmao das capacidades da rede neural consideram um ambiente simulado, condizente com o modelo de Seleo pelas Conseqncias. Os resultados obtidos em simulaes mostram que o modelo capaz de reproduzir diversos fenmenos comportamentais, que so: aquisio de comportamento respondente, extino de comportamento respondente, aquisio de comportamento operante, extino de comportamento operante, capacidade de generalizao de estmulos, habilidade no controle da intensidade das respostas, capacidade de controle de mltiplas respostas e fuso de sensores. Experimentos tambm ilustram o importante papel das conexes laterais inibitrias e das conexes laterais excitatrias na modelagem da formao de grupos neurais em nvel operante. Entende-se que a capacidade de aprendizagem alcanada pela rede neural proposta torna-a vivel para a concepo de sistemas autnomos inteligentes com potencialidades superiores queles divulgados na literatura especializada.

X

HAYDU, Nicholas Bender. A Selection by Consequences Approach for Learning in Multi-Layer Neural Networks Directed to the Conception of Intelligent Autonomous Systems. 2003. Dissertao (Mestrado em Informtica) -Universidade Federal do Paran, Curitiba.

ABSTRACT

A model of an artificial neural network is proposed. The neural network has multiple layers. Each network layer is formed by a quadrangular grid of neurons (on a toroidal space). The synaptic connections that every neuron has are defined between tree types: inter-layer excitatory, lateral intra-layer inhibitory and lateral intra-layer excitatory. The spatial disposition of connections is of a Gaussian type and specific for each type of synapse. Each neuron has a limited number of connections. The model contributes to eliminate restrictions presented by other architectures in witch connections are distributed to all of the neurons of each layer. The neuron model presents an internal dynamic, working as a memory of its recent activity and having important role in the learning process. The learning procedure is based on the selection by consequences according to reinforcement learning principles. Particularly the reinforcement learning approach used is of the classical type. The experiments defined for the investigation and confirmation of the capacities of the neural network consider a simulated environment that works according to the Selection by Consequences model. The simulation results show that the model is capable of reproducing several behavioral phenomena that are: acquisition of respondent behavior, extinction of respondent behavior, acquisition of operant behavior, extinction of operant behavior, stimulus generalization capacity, ability to control the response intensity, capacity to control multiple responses and sensor fusion. Besides that, the experiments also illustrate the important role of the lateral inhibitory and lateral excitatory connections for a correct shaping of operant level responses and neural groups. It is understood that the learning capacities that the proposed neural network exhibits make it viable for the conception of intelligent autonomous systems with potentialities superior to those already presented in the specialized literature.

1 INTRODUO

1.1 Motivao

Autonomia

Os progressos no campo da Inteligncia Artificial vm demarcando

grandes ciclos, caso o ponto de vista adotado leve em conta as metas, expectativas

e resultados alcanados.

Entende-se que um primeiro ciclo estaria associado aos esforos de

pesquisa motivados pela possibilidade de reproduzir capacidades inteligentes

humanas sofisticadas em mquinas computacionais. Aps se constatar as imensas

disparidades presentes entre as potencialidades das mquinas desenvolvidas e das

anunciadas a partir das expectativas iniciais, este ciclo se extingue. Os resultados da

pesquisa neste ciclo podem no ter sido satisfatrios, entretanto serviram para gerar

uma noo mais realista das dificuldades gigantes que seriam enfrentadas para

reproduzir um sistema artificial inteligente imaginado.

As frustraes segundo a perspectiva mais ficcionista no impediu

que os progressos e resultados alcanados merecessem o reconhecimento por todo

o esforo despendido. As potencialidades dos sistemas inteligentes propostos

poderiam no satisfazer as metas iniciais, mas se tinham tornado suficientes para

produzirem resultados relevantes em aplicaes prticas. Esta nova leitura para o

papel dos resultados alcanados pela pesquisa em Inteligncia Artificial

caracterizaria um segundo ciclo. A pesquisa no campo da Inteligncia Artificial se

consolidou e foi reconhecida como extremamente relevante para o progresso

tecnolgico, invadindo reas que antes se mostravam avessas, e.g., controle

automtico. Neste ciclo os sistemas inteligentes passam a assumir uma importncia

crescente junto ao segmento tecnolgico. O segundo ciclo desencadeou avanos

tericos notveis e talvez seja aceitvel admitir que, enquanto o primeiro ciclo esteve

motivado por expectativas calcadas na fico, o segundo foi fortemente guiado pelas

demandas presentes no segmento tecnolgico.

possvel que a pesquisa no campo da Inteligncia Artificial esteja

iniciando um terceiro ciclo. As demandas tecnolgicas continuam exercendo

2

presses constantes no que diz respeito s demandas cada vez mais sofisticadas e

exigentes em desempenho. Entretanto tambm se nota uma forte preocupao dos

pesquisadores em tornar os sistemas inteligentes artificiais mais semelhantes aos

sistemas biolgicos sofisticadamente inteligentes. Observa-se que, em vista das

potencialidades demonstradas pelos sistemas biolgicos e artificiais, as

semelhanas que podem ser admitidas so pouco significativas. Desta forma,

argumenta-se que a insatisfao presente seja motivo suficiente para incrementar

pesquisas e reduzir as diferenas entre estes dois sistemas.

Assim, atualmente, de um lado observa-se a consolidao e origem

de teorias ousadas, tais como: sistemas imunolgicos artificiais (de Castro e Timmis,

2002), sistemas de inteligncia coletiva (Bonabeau, Dorigo e Theraulaz, 1999),

sistemas classificadores (Lanzi, 2000), e da evoluo de teorias mais tradicionais

relacionadas s redes neurais, sistemas nebulosos, computao evolutiva,

aprendizagem artificial (Vapnik, 1999)(Sutton e Barto, 1998), sistemas simblicos

inteligentes bem representados pelos agentes inteligentes (Russel e Norvig, 1995).

De outro lado ressurgem as reflexes em termos das limitaes dos

atuais sistemas inteligentes. As crticas podem ser resumidas no problema do "a

priori", abordado por vrios autores (Brooks, 1990)(Brooks, 1991)(Figueiredo, 1999)

eem especial porVerschure (Verschure, 1993)(Verschure, 1996).

O problema do "a priori" diz respeito ao fato de um sistema simblico

requerer uma representao do mundo em termos de smbolos discretos para

operar, que s pode ser fornecida pelos projetistas do sistema. Mesmo que o

sistema possua a capacidade de aprender por meio da incorporao de novos

smbolos e regras sua base de conhecimentos, necessrio um conjunto bsico

inicial que permita a operao do sistema. Esse conjunto inicial definido, portanto,

"a priori" e requer dos projetistas a definio da essncia do sistema. A partir deste

problema principal Vershure reuniu quatro outros tambm de grande importncia,

que sero vistos resumidamente a seguir:

1. Problema da Falta de Fundamento Simblico (Symbol Grounding Problem): est relacionado questo do valor verdade

de uma proposio ser derivado de outras proposies, criando

uma teia de relaes que, no entanto, no possuem base com

relao ao mundo real supostamente descrito pelo sistema;

J

2. Problema do Enquadramento (Frame Problem): aborda a

questo do tempo necessrio para a atualizao do modelo lgico

que cresceria exponencialmente e logo tornaria impossvel a

atuao do sistema, ficando este confinado a rotinas de

atualizao;

3. Problemas da Viso de Referncia (Frame-of-reference

Problem): trata do fator subjetivo quando da escolha de um

modelo lgico para a representao de um domnio. Cada pessoa

pode escolher um modelo lgico e uma forma diferente de

relacionar os smbolos do sistema lgico com o problema que se

deseja abordar. No entanto, nada garante que essa escolha seja

a melhor;

4. Problema da Contextualizao (Situatedness Problem):

sistemas inteligentes deveriam ser contextualizados, isto ,

deveriam levar em considerao apenas fatores de importncia

imediata, caso contrrio sofreriam do problema do

enquadramento. Entretanto os sistemas existentes abordam o

conhecimento de uma maneira global e que ainda dependente de

interpretao humana.

Uma interpretao simplificada (no entanto poderosa) do problema

do "a priori" bem como dos problemas subseqentes pode ser feita da seguinte

forma: um sistema simblico capaz de exibir inteligncia necessita que em sua base

existam smbolos representando verdades absolutas e atmicas sobre a inteligncia,

a partir dos quais pudessem ser deduzidas todas as implicaes necessrias para

um sistema inteligente. Como muito bem abordado por Penrose (1997), tais

verdades absolutas provavelmente escondem-se em locais como o mundo

subatmico entre outros. Assim sendo, extra-las seria como extrair os tomos de

conhecimentos necessrios para deduzir todo o universo.

Tendo em vista as dificuldades existentes no contexto apresentado

possvel justificar a crescente ateno voltada para o conceito de autonomia no

contexto de sistemas artificiais inteligentes.

Autonomia e inteligncia tm sido considerados conceitos

fortemente relacionados (Steels, 1995). Prope-se que a autonomia seja uma

4

capacidade que se manifeste segundo uma escala contnua, proporcionando, ento,

uma medida para o grau de inteligncia de um sistema artificial (Figueiredo, 1999).

Alm disso, sistemas artificiais, nos quais a ausncia de autonomia tenha sido

constatada, tornam-se passveis de crticas severas no que tange a sua natureza

inteligente (Vershure, 1996).

Por sua vez, a autonomia vinculada capacidade de

aprendizagem, particularmente quando a aquisio de conhecimento ocorre a partir

da interao com o ambiente (Steels, 1995) (Figueiredo, 1997) (Figueiredo, 1999)

(Russell&Norvig, 1995). Um sistema autnomo capaz de aprender atravs da

interao com o ambiente, recebendo estmulos e gerando comportamentos

(respostas) que alteram este ambiente, aprimorando suas capacidades e adaptando-

se s caractersticas do mesmo. Tanto a aprendizagem quanto os comportamentos

e ou respostas geradas podem ser independentes de auxlios externos.

Assim, dentre as diversas possibilidades de aplicao de sistemas

inteligentes, a presena de autonomia torna-se particularmente interessante

naquelas em que o sistema atua em ambientes desconhecidos, e.g., navegao

autnoma de robs. Tais reas de aplicao tm sido intensamente investigadas,

no s devido ao claro interesse tecnolgico, mas tambm por proporcionar um

ambiente profcuo para a pesquisa dos sistemas autnomos inteligentes.

Redes Neurais

entre os sistemas biolgicos que exclusivamente se encontram os

mais representativos sistemas autnomos inteligentes. Reconhece-se que o poder

de autonomia de tais sistemas advm preponderantemente de seus sistemas

nervosos. Por esta razo, alguns pesquisadores defendem que a melhor estratgia

para a concepo de tais sistemas inteligentes concentrar esforos na modelagem

dos sistemas biolgicos (Edelman, 1987).

Coerentemente com esta argumentao, as redes neurais artificiais

so adotadas neste trabalho, dentre as diversas tcnicas presentes na rea de

Inteligncia Artificial, visto que so inspiradas em seus pares biolgicos.

Particularmente, o presente trabalho adota o princpio da mxima plausibilidade

biolgica para as propostas apresentadas, ou seja, as trajetrias definidas durante o

5

desenvolvimento do trabalho esto associadas s escolhas que favorecessem o

modelo de RNA que melhor espelhasse o modelo biolgico.

As redes neurais artificiais (RNAs) geram de forma qualitativa muitas

das caractersticas de seus pares biolgicos, alm da capacidade de aprendizagem,

essencial para a autonomia: tolerncia a falhas, generalizao, memria acessada

por contedo e robustez ao rudo.

Embora os modelos de redes neurais existentes tm demonstrado

tais caractersticas em variadas reas de aplicao, muitas deficincias gerais

podem ser apontadas, dentre elas: limitaes de capacidade da memria associativa

e recuperao de seu contedo, restries quanto convergncia em aprendizagem

supervisionada, limitaes quanto aprendizagem em ambientes desconhecidos.

Esta ltima deficincia est intimamente relacionada ao foco de estudo do presente

trabalho, pois reduzindo-a possvel alcanar potencialidades satisfatrias para a

concepo de sistemas autnomos.

Aprendizagem

Sendo a aprendizagem algo fundamental para se alcanar a

autonomia, desejvel que o modelo possua uma estratgia para realizar tal tarefa,

que seja coerente com as idias propostas.

Nesse contexto utiliza-se o modelo da Seleo pelas Conseqncias

(Skinner, 1981) como base para um princpio de aprendizagem. A aprendizagem

segundo essa viso ocorre a partir de variaes no repertrio de comportamentos

dos organismos, as quais por sua vez so selecionados pelo ambiente com base

nas conseqncias que produzem. No caso de produzir conseqncias favorveis

ao organismo, o comportamento selecionado e passa a fazer parte de seu

repertrio. Caso produza conseqncias desfavorveis a tendncia que o

comportamento seja extinguido, deixando de existir. A variabilidade de

comportamentos e a forma especfica como estes so selecionados ocorre segundo

trs estratgias bsicas, produzindo trs tipos de comportamentos: comportamento

reflexo, comportamento respondente e comportamento operante.

A primeira estratgia aborda os comportamentos do tipo reflexo que

so filogeneticamente selecionados, ou seja, segundo sua capacidade ou no de

permitir ao organismo transmitir seus genes com sucesso. razovel assumir que a

6

variabilidade para este tipo de comportamento introduzida por fatores genticos

como mutaes e cruzamentos.

O segundo tipo de comportamento conhecido pelo termo

respondente e trata de associar estmulos quaisquer (S), presentes no ambiente, aos

comportamentos do tipo reflexo. Para tanto, o processo de seleo depende da

existncia de uma correlao temporal entre estmulos S com os estmulos

responsveis por eliciar o comportamento reflexo. A seleo mediada por um

estmulo reforador que normalmente o prprio eliciador (estmulo que inicia) do

reflexo. Note que comportamentos do tipo reflexo so selecionados segundo a

histria de vida do organismo e no mais ao longo de inmeras geraes.

O ltimo tipo de aprendizagem diz respeito ao assim denominado

comportamento operante. Comportamentos operantes so selecionados segundo a

conseqncia que suas respostas produzem no ambiente e no apenas de acordo

com uma correlao temporal, como o caso dos respondentes. No entanto, assim

como o comportamento respondente, o comportamento operante tambm

selecionado atravs da apresentao, por parte do ambiente, de um estmulo

reforador. Assim a conseqncia que a emisso da resposta produz no ambiente

a apresentao do estmulo reforador. O efeito do reforador neste caso

selecionar as respostas emitidas pelo organismo em situaes adequadas,

tornando-as mais provveis no futuro. Tambm no caso de comportamentos

operante o repertrio desenvolvido ao longo da histria de vida do organismo.

Devido ao fato da aprendizagem ser mediada por um estmulo

reforador, este princpio de aprendizagem denominado de aprendizagem por

reforo. Existem, no entanto, diversas teorias consideradas como modelos de

aprendizagem por reforo. Para este trabalho, a no ser quando indicado o

contrrio, a interpretao deve ser de acordo com o modelo de Seleo pelas

Conseqncias.

Diferentemente de outras estratgias, a estratgia de aprendizagem

por reforo oferece mecanismos para a adaptao do sistema autnomo enquanto

este interage com um ambiente desconhecido. Por esta razo torna-se muito til

para o treinamento de tais sistemas, em especial para aplicaes associadas a

controle autnomo. Assim, em todos os instantes em que o sistema se depara com

eventos discrepantes (situaes desconhecidas, situaes de sucesso ou falha); o

sistema recebe um sinal de avaliao (reforo) associado ao seu desempenho, sinal

7

esse no qual baseado o processo de aprendizagem (Donahoe & Palmer, 1994)

(Skinner, 1981).

1.2 Objetivos e Contribuies

Um sistema artificial capaz de operar de forma satisfatria em

ambientes do cotidiano requer caractersticas comportamentais complexas que

seriam comumente denominadas de inteligentes. As capacidades de tal sistema

devem ser as mais diversas possveis, por exemplo, a habilidade de navegar de

forma autnoma por um ambiente em constante modificao, o uso de ferramentas

em situaes especficas, a coordenao e cooperao com outros sistemas

artificiais e tambm com seres humanos. Com o objetivo de dotar sistemas artificiais

com tais capacidades, so investigados os processos fundamentais que

proporcionam o surgimento de tais comportamentos em sistemas biolgicos, para

ento buscar reproduzi-los em um sistema artificial.

O objetivo geral desenvolver um sistema artificial inteligente capaz

de adquirir conhecimento sobre o ambiente no qual este se encontra e utilizar tal

conhecimento para agir no ambiente de forma autnoma, ou seja, um sistema

autnomo inteligente. Entretanto tal meta deve ser alcanada seguindo-se alguns

requisitos especficos, discutidos ao longo do texto (Captulo 2), que so:

Utilizar um sistema baseado em um modelo de redes neurais;

A arquitetura neural deve buscar reproduzir tanto estruturalmente

quanto funcionalmente sistemas biolgicos nervosos;

A aprendizagem do sistema deve seguir um modelo compatvel

com o modelo de Seleo pelas Conseqncias (Skinner, 1981);

O sistema artificial deve ser capaz de reproduzir fenmenos

comportamentais de que trata a teoria da Seleo pelas

Conseqncias (Skinner, 1981).

O emprego de tais requisitos, como fica claro ao longo do trabalho,

no se deve pelo fato de que se deseja provar a relevncia ou no de cada um deles

para o problema sugerido, mas sim por se acreditar que fornecem propostas

concretas e importantes para a soluo do mesmo.

8

Em termos prticos o trabalho prope um modelo neural cuja

arquitetura, operao e aprendizagem funcionam segundo os requisitos

apresentados. A fundamentao do trabalho feita com trabalhos especficos de

cada rea, bem como propostas que integram as mesmas, destaca-se neste ponto o

trabalho de Donahoe, Burgos e Palmer (1993).

A principal contribuio do trabalho ser mostrar que uma estratgia

de aprendizagem por reforo pode ser empregada com sucesso no treinamento de

redes multicamadas de diferentes dimenses. O modelo de aprendizagem por sua

vez, atuando juntamente com a operao da rede capaz de reproduzir,

sintticamente, fenmenos comportamentais observados em seres biolgicos e que

so normalmente tidos como indicadores de autonomia e inteligncia. De forma

secundria, mas no menos importante, o modelo apresenta princpios para a

formao dinmica de grupos neurais e a estabilizao da atividade neural a partir

de um estado inicial variante.

Especificamente, os resultados mostram que o modelo capaz de

reproduzir diversos fenmenos comportamentais particularmente interessantes para

um sistema autnomo inteligente. So eles:

Aquisio de comportamento respondente;

Extino de comportamento respondente;

Aquisio de comportamento operante;

Extino de comportamento operante;

Capacidade de generalizao de estmulos;

Habilidade de controle de intensidade da resposta emitida;

Capacidade de controle de mltiplas respostas;

Fuso de sensores.

Alm dos fenmenos de aprendizagem, o modelo tambm apresenta

resultados decorrentes da arquitetura neural empregada. Particularmente mostra-se

a importncia das conexes inibitrias para uma correta modelagem do

comportamento de nvel operante (Seo 2.2). Alm disso, em conjunto com as

conexes laterais excitatrias, as conexes inibitrias so responsveis pela

9

formao dos grupos neurais. Os grupos neurais por sua vez formam a base para a

anlise da operao da rede.

Do ponto de vista das redes neurais artificiais o modelo contribui

apresentando uma soluo para o problema de atribuio de crdito que utiliza

aprendizagem por reforo.

1.3 Organizao do Trabalho

O Capitulo 2 trata de revisar os temas, conceitos e fundamentos que

nos quais o trabalho baseado. Primeiramente tratando de redes neurais artificiais

(Seo 2.1), apresentando um breve histrico, discutindo os principais conceitos e

modelos. Logo aps discute-se o modelo de aprendizagem de seleo pelas

conseqncias (Seo 2.2), como visto pela psicologia. Em seguida a Seo 2.3 traz

uma reviso de conceitos como autonomia (Seo 2.3.1), aprendizagem por reforo

segundo a viso atual e mais difundida da IA (Seo 2.3.2), aprendizagem por

reforo e redes neurais (Seo 2.3.3) onde se busca um modelo que integre redes

neurais e o modelo de Seleo pelas Conseqncias.

No Captulo 3 descreve-se o modelo de rede neural proposto neste

trabalho, apresentando sua arquitetura (Seo 3.1), os mecanismos de raciocnio

(Seo 3.2) e o algoritmo de aprendizagem (Seo 3.3).

O Captulo 4 apresenta os resultados obtidos em simulao do

modelo proposto. Os resultados apresentados so de dois tipos: operacional (Seo

4.1 ) e de aprendizagem (Seo 4.2).

Ao final do trabalho so apresentadas as concluses, seguida pelas

referncias e pelos anexos.

2 FUNDAMENTAO TERICA

Devido s questes envolvidas, trabalhos com sistemas autnomos

possuem a caracterstica de serem multidisciplinares. Isso torna ainda mais

importante uma reviso dos assuntos abordados.

Esta seo apresenta de forma resumida as principais teorias e

conceitos necessrios para um bom entendimento da proposta deste trabalho, entre

elas, Redes Neurais Artificiais (Seo 2.1) e teoria da Seleo por Conseqncias

(Seo 2.2). A Seo 2.3 aborda vrios fundamentos e traz uma reviso bibliogrfica

de diversos trabalhos que investigam temas similares ao deste trabalho, fornecendo

uma perspectiva atual da pesquisa na rea.

2.1 Redes Neurais Artificiais

As redes neurais tm sido destaque em diversas pesquisas de

sistemas autnomos. Autores como Brooks (1991), Verschure (1996) e Verschure

(1993) destacam sua contribuio para o chamado problema do "a priori". Tal

questo, como destacado na introduo deste trabalho, aborda o fato de que

extremamente difcil definir a priori regras gerais capazes de descrever problemas

como, por exemplo, o de navegao autnoma, nos quais o rob precisa deslocar-

se de forma autnoma pelo ambiente, basicamente desviando de obstculos e

buscando alvos, alm de outros objetivos mais complexos. Problemas como este

requerem que o sistema adquira o conhecimento para a soluo do problema

diretamente atravs da interao com o ambiente, fazendo uso, portanto, de

aprendizagem. justamente na capacidade de aprendizagem que reside o poder

das redes neurais.

Alm da capacidade intrnseca de aprendizagem as redes neurais

possuem outras caractersticas interessantes para a concepo de sistemas

autnomos, entre as quais destacam-se:

No-linearidade: o modelo dos neurnios pode ser linear ou no-

linear. Ser no-linear concede ao neurnio, e conseqentemente

rede, a capacidade de processamento no-linear. Esta

11

capacidade desejada sempre que o sistema deve adotar

determinadas estratgias de interao com o ambiente de acordo

com as variaes dos estmulos (a estratgia para um estmulo

mais intenso diferente da estratgia para um menos intenso);

Processamento paralelo: a atividade simultnea dos diversos

elementos de uma rede neural faz com que essa seja capaz de

processar grande quantidade de informao de forma veloz, algo

indispensvel para sistemas que devem operar em tempo real;

Memria acessada por contedo: a forma particular com que

uma rede neural armazena informao, e o prprio mecanismo de

operao fazem com que esta seja um sistema de memria

acessada por contedo. Assim a rede neural capaz de

recuperar um padro previamente armazenado, mediante a

apresentao de parte desse padro;

Tolerncia a falhas: por se tratar de um sistema maciamente

paralelizado, cada elemento da rede responsvel apenas por

uma pequena parte da computao realizada. Assim, a remoo

ou falha de elementos isolados impacta de forma suave no

desempenho da rede;

Generalizao: vrios modelos de redes neurais tm por objetivo

extrair caractersticas dos estmulos aos quais so apresentados.

Devido ao seu modo de operao, mesmo quando um estmulo

desconhecido for apresentado, a rede neural classifica segundo

sua similaridade aos estmulos com os quais possui experincia.

Essa uma qualidade importante do comportamento dos seres

vivos e reconhecidamente interpretada indispensvel em sistemas

inteligentes;

Robustez a rudos: uma rede neural possui grande robustez a

rudos contaminando os estmulos de interesse, conseguindo

operar normalmente com desempenho satisfatrio. Essa

caracterstica muito til, pois na prtica, sensores

inevitavelmente esto associados a rudo.

12

Este captulo discorre de maneira breve a respeito dos principais

tpicos relacionados s redes neurais, visando oferecer uma viso da rea e alguns

fundamentos que facilitem a compreenso dos captulos seguintes. Textos mais

aprofundados no tema podem ser encontrados em obras de referncia como Haykin

(2001) e Rssel e Norvig (1995).

2.1.1 Modelo Bsico Biolgico

Uma rede neural constituda por neurnios (Figura 1), as unidades

bsicas de computao, que interconectados formam a rede propriamente dita. Os

neurnios operam recebendo os estmulos em suas sinapses (Figura 2), agregando

tais estmulos no soma e quando o valor resultante da agregao ultrapassa um

certo valor limiar, o neurnio emite (dispara) uma seqncia de pulsos eltricos,

gerados no cone do axnio. O sinal eltrico emitido flui pelo axnio at atingir sua

extremidade onde, atravs de trocas qumicas nas sinapses, transmitido aos

prximos neurnios. Este esquema relativamente simples repetido desde a

entrada da rede at sua sada, tal qual acontece em algumas redes biolgicas, por

exemplo, em redes cujas entradas correspondem aos campos sensorials (olhos,

ouvidos, etc.) e aos rgos motores (braos e msculos em geral) e/ou demais

rgos.

13

As sinapses (Figura 2) consistem de uma regio de intercmbio de

informao, mais precisamente, so os locais onde os neurnios recebem e emitem

neurotransmissores (substncias qumicas utilizadas para transmitir a informao)

convertendo, portanto, um sinal eltrico (disparo do neurnio) em qumico

(neurotransmissores) e vice-versa. Atravs de processos complexos as sinapses

podem alterar sua eficincia, tornado-se mais ou menos eficazes na propagao do

estmulo. Dessa forma, cada sinapse pode alterar a intensidade do estmulo que

recebe e passa para frente, intensificando-o ou suprimindo-o, sendo, portanto, a

unidade bsica de memria, onde a informao pode ser armazenada e manipulada.

Esta caracterstica das sinapses tida como a principal responsvel pela

capacidade de aprendizagem das redes neurais.

Uma rede neural pode ser descrita como possuindo uma arquitetura,

um mecanismo de processamento e sistema de aprendizado. A arquitetura de uma

rede neural descreve como esto conectados os neurnios. A forma pela qual o

sinal de entrada evolui ( processado) para um sinal de sada ser tratada como o

raciocnio2. J o processo responsvel por modificar as sinapses responsvel pela

aprendizagem. Operando de forma integrada e nas mais diversas configuraes

possveis, estes elementos so capazes de processar e produzir resultados

1 Adaptado de: http://research.haifa.ac.il/~imjaffe/mind/lecnotes/week7.html. junho 2003

2 A termo "raciocnio" segundo essa interpretao refere-se aos processos internos de uma rede neural, desencadeados por um estmulo, que evoluem at produzir uma resposta. De forma simplificado o processamento da informao.
http://research.haifa.ac.il/~imjaffe/mind/lecnotes/week7.html

14

absolutamente no triviais. Os melhores exemplos so os prprios organismos

biolgicos.

*" -Neurotransmissores t m .4

f ; Neuroreceptores

Figura 2 - Esquema da sinapse.1

2.1.2 Fundamentos

Modelos Clssicos

O primeiro passo para o desenvolvimento da teoria de redes neurais

artificiais surgiu em 1943 com o trabalho de McCulloch e Pitts que propuseram uma

descrio matemtica para um neurnio (Haykin, 2001). A Figura 3 apresenta um

modelo atual de um neurnio artificial simples que embora mais recente retm as

linhas gerais originais.

1 Adaptado de: http://research.haifa.ac.il/~imiaffe/mind/lecnotes/week7.html. junho 2003.
http://research.haifa.ac.il/~imiaffe/mind/lecnotes/week7.html

15

N

y = F ( J ] x w i ~wo) o ) 7=1

Neste modelo os sinais de entrada x; i = 1, ..., N; ao chegarem ao

neurnio so ponderados pelos pesos sinpticos w; i = 1, ..., N; x, we9 (conjunto

dos nmeros reais). Estes so, ento, enviados ao soma atravs dos dendritos onde

so adicionados. Em seguida uma transformao no linear F(.) (funo de ativao

do neurnio) age sobre o sinal resultante da agregao gerando o sinal de sada y

conforme a Equao 1. A funo F(.) por sua vez tipicamente qualquer funo do

tipo sigmide, por exemplo (Figura 4):

F(x) = 1

1 + ex p ( - / ? x )

F(x)

Figura 4 - Funo sigmide.

Outro importante avano para as RNAs foi a descrio feita por

Hebb em 1949 de um mecanismo fisiolgico de modificao sinptica. Sua regra de

aprendizagem prev que a eficincia de uma sinapse deva ser aumentada quando

h atividade em ambos os neurnios que a formam (neurnio pr e o ps-sinptico)

e que tal atividade tenha se propagado atravs dessa sinapse (Haykin, 2001). Em

sua forma mais simples, tal regra pode ser expressa matematicamente segundo a

Equao 2.

A wfl{T) = i1ai(T)ai{T) (2) onde: Aw;, ( r ) o ajuste da sinapse no tempo T; q a taxa de aprendizagem; a{T)

a atividade (sinal de sada) no neurnio pr-sinaptico j no tempo Te a^T) a

atividade do neurnio ps-sinptico / na iterao T.

16

Arquiteturas Bsicas

A arquitetura de uma rede neural consiste de um conjunto de

neurnios e suas conexes. H vrias combinaes possveis para estes elementos

o que por sua vez d origem a vrias topologas possveis. Entretanto, trs

configuraes so bsicas. A primeira delas a rede alimentada adiante de uma

nica camada (Figura 5).

Figura 5 - Arquitetura de rede neural de uma nica camada.

A segunda arquitetura, uma das mais difundidas, a multicamadas,

nas quais os neurnios so conectados por conjuntos de neurnios (camada). Neste

tipo de topologia, as camadas podem ser numeradas naturalmente desde a entrada

da rede (x) at sua sada (y), de tal forma que as conexes ocorrem somente entre

camadas sucessivas. A Figura 6 ilustra um exemplo de uma rede neural com este

tipo arquitetura, de fato, uma arquitetura de 4 camadas: Ci, C2, C3 e C4.

17

Figura 6 - Arquitetura de rede neural de quatro camadas.

Outro esquema de arquitetura bem conhecido o recorrente. So

consideradas recorrentes as redes que possuam conexes provenientes de um

neurnio que possam, direta (conexo vermelha) ou indiretamente (conexo azul),

influenciar a entrada do mesmo (Figura 7).

Figura 7 - Arquitetura de rede neural recorrente.

Em contraste com as redes de arquitetura em camadas, a sada da

rede recorrente evolui ao longo do tempo indefinidamente (a menos que a rede

esteja em um estado estvel) mesmo com ausncia de estmulos.

Estratgias de Aprendizagem

Para a concepo de redes neurais existem trs principais

estratgias de aprendizagem, a saber: no-supervisionada, supervisionada e por

18

reforo. Cada uma destas estratgias est associada a classes especficas de

sinais, por meio das quais a aprendizagem se processa: (a) apenas entradas, (b)

pares entrada-sada; e (c) entradas e sinais de avaliao (emitidos pelo ambiente),

respectivamente.

A estratgia de aprendizagem no-supervisionada diz respeito

somente a entradas, ou seja, o sistema aprendiz se auto-organiza de acordo com as

caractersticas das entradas. Desde que aplicaes de controle so associadas com

um mapeamento entrada-sada, a estratgia de aprendizagem no-supervisionada

no adequada, a menos que juntamente com esta seja considerada outra

estratgia.

A aprendizagem supervisionada depende do conhecimento do

problema, pois necessrio um conjunto de pares de entrada-sada, representantes

da soluo desejada para o problema, para que a aprendizagem se processe. Esta

estratgia pode ser adequada para diversas aplicaes, mas no associadas a

controle autnomo. Dificuldades surgem se o ambiente altera suas caractersticas,

tornando invlidos os pares de entrada-sada usados durante o perodo de

aprendizagem.

Na estratgia por reforo, entra em jogo um outro sinal (sinal de

reforo) apresentado pelo ambiente. O ambiente apresenta o sinal somente aps a

rede ter apresentado sua sada. Este sinal corresponde a uma avaliao da rede,

feita pelo ambiente, com respeito resposta apresentada e utilizado no processo

de aprendizagem da rede. Na verdade o que ocorre que as respostas (aes)

executadas pela rede modificam o ambiente, uma vez modificado o ambiente pode

conter estmulos reforadores, que se tornam disponveis para os elementos

sensoriais da rede. No existe, portanto, nenhum mdulo de avaliao ou qualquer

outro dispositivo similar que funciona como um avaliador. Vale lembrar que a

aprendizagem por reforo est diretamente ligada teoria de Seleo por

Conseqncias (Donahoe e Palmer, 1994), tema da Seo 2.2.

2.1.3 Modelos Clssicos de Redes Neurais Artificiais

Uma introduo sobre redes neurais no estaria completa sem

alguns exemplos de modelos de redes que aplicam os conceitos de arquitetura,

19

raciocnio e aprendizagem apresentados anteriormente. De fato, devido sua ampla

divulgao, tais exemplos so muitas vezes tidos como sinnimos dos prprios

conceitos que aplicam.

Perceptron de Mltiplas Camadas

Exemplo tpico de uma rede de vrias camadas, o perceptron de

mltiplas camadas (MLP, multilayer perceptron) tornou-se famoso principalmente

devido ao algoritmo de aprendizagem por correo de erro utilizado em seu

treinamento. Atravs de um processo conhecido por retropropagao de erro, o MLP

tornou-se um dos primeiros modelos de RNA a possuir um mtodo eficiente de

treinamento para redes de mltiplas camadas. O algoritmo de retropropagao

tornou-se famoso pela publicao de Rumelhart e McClelland (1985), Parallel

Distributed Processing. O algoritmo tambm foi responsvel por reacender o nimo

na pesquisa de RNA ao demonstrar que as redes de mltiplas camadas no eram

to limitadas como haviam sugerido Minsky e Papert (1969).

Utilizando uma estratgia supervisionada, o algoritmo de

retropropagao consiste basicamente de dois passos:

1. Passo para frente: um padro de entrada aplicado camada

sensorial da rede e a atividade da mesma se desenvolve

(propaga) a partir destes, produzindo ao final um vetor de

respostas na camada de sada;

2. Passo para trs: a sada computada pela rede comparada com a sada desejada (estratgia supervisionada) e um sinal de erro

produzido de acordo com a diferena entre os dois. O sinal de

erro ento utilizado para ajustar os pesos sinpticos da rede em

um processo de retropropagao (do final para o comeo da rede)

de forma a minimizar o erro, aproximando a sada computada da

sada desejada. O processo de retropropagao envolve o clculo

da parcela de contribuio de cada neurnio para gerar a sada

da rede, tornando possvel o ajuste (atravs de derivadas

parciais) de cada sinapse segundo sua contribuio especfica.

2 0

O perceptron de mltiplas camadas utilizado em conjunto com o

algoritmo de retropropagao comumente empregado, entre outras, em tarefas de

classificao de padres e aproximao de funes. No entanto o fato de utilizar

uma aprendizagem supervisionada consiste em um grave ponto negativo para sua

aplicao em sistemas autnomos, tendo em vista que seu treinamento seria

impossvel pelo fato do ambiente de operao no ser totalmente conhecido.

Embora os algoritmos de correo de erro (incluindo o de

retropropagao) aparentemente tenham sido originados de trabalhos matemticos,

sem qualquer inspirao biolgica, existe forte evidncia de que pelo menos uma

rea do crebro opere de forma semelhante. O cerebelo est envolvido no controle

de preciso de movimentos e responsvel, entre outros, por produzir movimentos

suaves e bem coordenados. Evidncias neurobiologies (Rolls e Treves, 1998)

(Rolls, 1999) demonstram que o cerebelo recebe realimentao neural dos sistemas

motores que controla e que utiliza esse sinal (na prtica um sinal de erro) para

corrigir eventuais imprecises.

Mapa de Kohonen

Quando se fala de sistemas auto-organizveis (aprendizagem no-

supervisionada) a referncia principal o modelo de Kohonen (Kohonen, 1982).

Dentre suas aplicaes, talvez aquela de maior destaque seja sua utilizao como

ferramenta para modelagem e compreenso de mapas corticais no crebro. Estes

resultados remetem aos objetivos iniciais que levaram ao desenvolvimento de toda a

teoria de redes neurais e justificam grande parte do entusiasmo em relao ao

modelo.

Tipicamente o Mapa de Kohonen consiste de uma grade uni ou

bidimensional de elementos computacionais (neurnios) cujos pesos sinpticos

esto, inicialmente, distribudos de forma aleatria sobre o espao de entrada.

Durante a fase de treinamento, so selecionadas ao acaso elementos do espao de

entrada e estes so ento apresentados rede. A partir de ento, para cada

apresentao ocorrem trs processos distintos:

1. Competio: os neurnios da grade competem entre si pelo

direito de responder ao sinal de entrada apresentado, atravs do

21

clculo de uma funo discriminante. 0 neurnio cujo vetor de

pesos for mais similar (ex: menor distncia Euclidiana) ao vetor de

entrada o vencedor. Este processo conhecido como o

"vencedor-leva-tudo" ou winner-take-all;

2. Cooperao: o neurnio vencedor estabelece uma vizinhana

topolgica dentro da qual os neurnios possuem o direito de

ajustar suas sinapses;

3. Adaptao Sinptica: os neurnios localizados dentro da

vizinhana estabelecida no passo 2 tm suas sinapses ajustadas

de modo a melhorar o valor de sua funo discriminante. Na

prtica, isso resulta em aproximar o vetor de pesos do vetor de

entrada. Tal ajuste ponderado segundo a proximidade do

neurnio em questo com o neurnio vencedor. Estes ajustes

melhoram a eficcia da resposta dos neurnios ao estmulo.

Ao longo de vrias iteraes este processo ir "posicionar" os pesos

sinpticos sobre o espao de entradas, de forma que os respectivos neurnios

correspondem a um domnio ou sub conjunto de caracterstica particular do espao

de entrada (Kohonen, 1992). Operando dessa forma, o Mapa de Kohonen realiza

uma reduo de dimensionalidade no espao de entrada, extraindo suas

caractersticas principais e assemelhando-se tanto em forma como em funo aos

primeiros estgios da maquinaria cerebral, responsvel pelo processamento

sensorial.

Embora o Mapa de Kohonen ilumine o caminho para a construo

de mquinas semelhantes ao crebro e conseqentemente ao desenvolvimento de

sistemas autnomos, ele consiste de apenas uma parte do sistema necessrio. A

reduo de dimensionalidade e extrao de caractersticas proporcionada pelo

modelo serve para tomar o problema da percepo algo tratvel. No entanto, ainda

faz-se necessrio um mecanismo que associe as caractersticas identificadas com

aes a serem tomadas.

2 2

Rede de Hopfield

A rede de Hopfield um sistema dinmico, ou seja, possui uma

representao na forma de um sistema de equaes diferenciais; sendo, portanto

um sistema em que entradas provocam a evoluo de estados internos e suas

sadas ao longo do tempo. Algumas caractersticas deste sistema atraem a ateno

dos pesquisadores, inclusive fazendo com que contribussem fortemente com a

revitalizao das redes neurais artificiais (Haykin, 2001) (Hopfield, 1982):

1. O sistema estvel no sentido de Liapunov (Haykin, 2001);

2. O sistema exibe plausibilidade biolgica, ou seja, o sistema de

equaes pode ser deduzido de modelos (simplificados) de

neurnios e de redes neurais biolgicas;

3. Existem procedimentos simples para configurao dos

parmetros do sistema, visando definir as caractersticas do seu

espao de fases. Estes procedimentos podem ser interpretados

como o processo de aprendizagem.

A rede neural de Hopfield exibe interessantes resultados em duas

aplicaes principais: na modelagem de uma memria associativa e na soluo de

problemas de otimizao. Os instigantes resultados alcanados nestas aplicaes

podem ser compreendidos a partir de suas caractersticas.

Considere a aplicao de modelagem de uma memria associativa.

O espao de fase do sistema representado pela rede de Hopfield apresenta diversas

bacias de atrao. Supondo que cada padro a ser registrado pela memria seja um

ponto crtico estvel no espao de fase, ento este seria alcanado sempre que o

estado inicial estivesse na bacia associada ao padro memorizado. Os

procedimentos de configurao de parmetros possuem o objetivo de fazer com que

os padres memorizados sejam exatamente os pontos crticos estveis do sistema.

A estabilidade da rede de Hopfield garantida por uma funo de

Liapunov associada. Problemas de otimizao so solucionados pela rede caso sua

funo de Liapunov possa descrever a funo a ser otimizada. Neste caso, iguala-se

a funo a ser otimizada funo de Liapunov associada rede. A manipulao

dessa igualdade resulta em um conjunto de pesos sinpticos para a rede neural. A

23

evoluo da rede neural, configurada com tais pesos, leva o sistema a estabilizar-se

em estados correspondentes soluo do problema de otimizao.

2.2 Aprendizagem e Comportamento Inteligente

Conforme visto, a aprendizagem de essencial importncia para a

autonomia. , portanto, desejvel que o modelo de aprendizagem empregado utilize

uma estratgia que seja coerente com as idias propostas.

De acordo com o modelo de Seleo pelas Conseqncias (Skinner,

1981) a aprendizagem ocorre a partir de variaes no repertrio de comportamentos

dos organismos. Os comportamentos produzidos por tais variaes desencadeiam

modificaes no ambiente, que atuam de forma a selecionar os mesmos. No caso de

produzir conseqncias favorveis ao organismo, o comportamento retido e passa

a fazer parte do repertrio de ao. Caso produza conseqncias desfavorveis, a

tendncia que o comportamento seja extinguido.

Visando reunir conceitos fundamentais relacionados ao modelo de

Seleo pela Conseqncias, o presente captulo dedica-se ao estudo de alguns de

seus aspectos segundo a viso da Anlise do Comportamento, rea de pesquisa da

psicologia. Segundo o ponto de vista dessa rea, aprendizagem e comportamento

so totalmente dependentes um do outro (Millenson, 1967) e, portanto, toma-se

possvel investigar a aprendizagem estudando-se o comportamento.

2.2.1 Reflexos e Reflexos Condicionados

O tipo de comportamento mais simples exibido por um ser vivo o

reflexo. Este tipo de comportamento definido filogeneticamente, ou seja, j nasce

com o organismo e resultado de uma histria de seleo pelo ambiente ao longo

de vrias geraes (seleo natural). Um reflexo uma contingncia simples,

envolvendo um estmulo especfico e uma resposta especfica. Diz-se que a

presena do estmulo elicia a resposta, ou seja, desencadeia um processo cuja

conseqncia a emisso da resposta. Exemplos desse tipo de comportamento

so: o reflexo patelar, o reflexo pupilar e o reflexo salivar.

24

Embora de extrema importncia para os seres vivos em seus

primeiros momentos de existncia, os reflexos so insuficientes para formar um

repertrio comportamental adequado para toda a sua vida. Eles so frutos de uma

histria de seleo gentica ao longo da evoluo e, por este motivo, limitam-se a

comportamentos essenciais relacionados manuteno da espcie e sobrevivncia

dos indivduos.

Para a formao de um repertrio comportamental adequado

diversidade ambiental, os seres vivos exibem outros mecanismos de aprendizagem

capazes de gerar comportamentos adicionais (alm do comportamento reflexo), ou

seja, capazes de construir um repertrio mais amplo e que permita ao ser vivo uma

melhor adaptao ao meio. Um destes mecanismos chamado condicionamento

respondente (ou Pavloviano, em homenagem ao pesquisador, Ivan Pavlov, que

primeiro descreveu cientificamente tal fenmeno (Millenson, 1967)).

Condicionamento neste contexto, e ao longo do restante do texto, se refere ao

mecanismo responsvel por formar o comportamento. A principal caracterstica

destes mecanismos a capacidade de estabelecer gradualmente associaes entre

estmulos e respostas, sendo um deles parte componente de um comportamento

reflexo. Tais associaes ocorrem quando existe uma correlao temporal adequada

entre a ocorrncia dos estmulos. Aps vrias ocorrncias de um estmulo neutro

(que inicialmente no est associado a nenhuma resposta) seguido do estmulo que

dispara o reflexo, o estmulo neutro torna-se capaz de produzir o comportamento

reflexo (passando a ser chamado de estmulo condicionado). Desta forma, a

resposta reflexa original, filogeneticamente especificada, passa a estar condicionada

a um novo estmulo, sendo esta nova relao estmulo-resposta conhecida como

reflexo condicionado (Millenson, 1967).

Um exemplo tpico de um condicionamento respondente a

associao que se estabelece, por exemplo, entre a viso de um alimento e o reflexo

salivar. O reflexo salivar filogeneticamente relacionado mucosa bucal, quando do

contato desta com o alimento. No entanto, comum a ocorrncia deste reflexo

mediante a simples viso do alimento, algo que conseqncia de um

comportamento respondente que se estabelece.

De forma semelhante aos reflexos, o condicionamento respondente

conseqncia de uma seleo. A diferena que neste caso a seleo realizada

ao longo da vida do organismo e se desenvolve atravs de ocorrncias repetidas e

25

correlacionadas (emparelhamento) de um estmulo neutro (que vir a se tornar o

estmulo condicionado) e o estmulo eliciador (responsvel pela ocorrncia do

comportamento reflexo incondicional).

O condicionamento respondente responsvel por fornecer aos

organismos uma forma de adaptar seu repertrio comportamental frente a um

ambiente dinmico, visivelmente dotando-os de capacidades autnomas. No

entanto, um comportamento respondente ainda est limitado s mesmas respostas

reflexas com as quais o indivduo nasceu e, conseqentemente, no produz novos

comportamentos complexos.

2.2.2 Comportamento Operante

Uma forma de aprendizagem adicional e relevante para a adaptao

dos organismos ao ambiente o chamado condicionamento operante. No caso de

comportamentos do tipo reflexo e reflexo condicionado, estmulos do ambiente

elidam respostas do organismo (respostas reflexas e respondentes,

respectivamente) sendo que as conseqncias dessas respostas no ambiente no

influem nas prprias respostas ou comportamentos correspondentes. J o

condicionamento operante se desenvolve por meio do efeito da ao do organismo

sobre o ambiente. Quando as conseqncias de um comportamento so favorveis

ao desempenho, torna-se maior a probabilidade de que este comportamento ocorra

novamente no futuro. O comportamento operante formado pela seleo das aes

do organismo para interagir com o ambiente. Essa seleo feita atravs da

apresentao de um reforador gerado pelo ambiente. Assim, sempre que o

organismo emitir a resposta desejada, o reforador associado apresentado. Esta

relao causai tende a selecionar a resposta em questo. Este processo

denominado de fortalecimento operante (Skinner, 1981) (Millenson, 1976) e

caracteriza-se pelo fato do comportamento especifico desejado ser gradualmente

selecionado, pela apresentao de um estmulo reforador, em meio a todo o

repertrio de respostas que o organismo apresenta.

Um exemplo de fortalecimento operante ocorre quando um animal

de estimao, ao realizar um truque especfico, recebe de seu dono uma

recompensa. Isso faz com que o animal tenda a repetir o truque no futuro.

2 6

Um aspecto que faz parte importante do mecanismo de

condicionamento operante reside na capacidade de gerar uma gama extremamente

grande de aes possveis. Segundo essa teoria, os sistemas biolgicos apresentam

um nvel operante caracterizado por um conjunto indiferenciado de respostas

aleatrias emitidas pelo organismo, sem qualquer expectativa sobre suas

conseqncias associadas (Millenson, 1967).

Exemplos de respostas em nvel operante so: o conjunto de

fonemas que recm nascidos so capazes de balbuciar; e os movimentos

indiferenciados de braos e pernas. a partir destas respostas simples, inicialmente

aleatrias, que comportamentos complexos so selecionados.

O condicionamento operante no s possibilita o aumento na

freqncia da resposta, mas tambm a sua reduo. Quando um comportamento

produz no ambiente conseqncias aversivas, a probabilidade de que ele ocorra

novamente reduzida (Skinner, 1981).

Assim, quando o mesmo animal de estimao entrar em casa e

mastigar algum objeto de seu dono, este comportamento provavelmente produzir

uma reao do dono desagradvel. Dessa maneira, a probabilidade de ocorrncia

do comportamento indesejado reduzida, sendo esse procedimento denominado de

punio. importante ressaltar que o termo reforo usado de forma abrangente

para designar tanto o processo de fortalecimento quanto o de reduo. Existe, no

entanto, uma terminologia mais especfica para identificar diferentes formas

(procedimentos) de fortalecer e enfraquecer comportamentos. Assim, tem-se o

reforo positivo e negativo e a punio positiva e negativa. A descrio destas

classes de procedimentos esta fora do escopo deste texto e pode ser encontrada em

Baum (1999).

Uma outra forma de reduzir a probabilidade de ocorrncia de

respostas operantes a extino. A extino ocorre quando um comportamento

anteriormente reforado passa a no produzir mais a conseqncia reforadora

(Skinner, 1981), (Millenson, 1967). Voltando ao exemplo do animal de estimao,

considere que este tenha aprendido a executar um truque sempre quando do retorno

de seu dono, sempre recebendo uma recompensa como reforo. No entanto,

considere que as recompensas passam a serem negadas. No existindo

recompensas, gradualmente o truque deixa de ser reproduzido.

2 7

Embora didaticamente estudados em separado, os comportamentos

reflexo, respondente e operante no esto sujeitos a esse tipo de separao. Assim

sendo, estes comportamentos ocorrem paralelamente e seus mecanismos so

interdependentes. Suponha, por exemplo, o comportamento de pressionar uma

alavanca, reforado com comida. Embora esse comportamento seja um operante,

inevitavelmente algum estmulo (e.g. o som da alavanca) torna-se presente no

momento que a cobaia obtiver o alimento, o que fornece as condies necessrias

para o condicionamento do tipo respondente.

Os processos de condicionamento respondente e operante atuam

em conjunto e em vrios nveis, produzindo comportamentos complexos. Assim, os

movimentos indiferenciados so gradualmente modificados pelas conseqncias,

passando a se caracterizar como aes coordenadas que permitem apanhar

objetos, caminhar etc. As vocalizaes so diferenciadas de tal forma que balbucios

acabam se tornando palavras e finalmente em um complexo repertrio verbal. As

palavras e aes em geral no ocorrem, no entanto, de forma aleatria. Elas tendem

a ter uma relao precisa com eventos antecedentes. Estes eventos so chamados

de estmulos discriminativos (SD). Estmulos deste tipo permitem ao ser vivo

distinguir a situao na qual a resposta adequada (R), produz o estmulo reforador

(S+).

Um esquema geral de como funciona o paradigma operante o

seguinte:

SD

Inicialmente os estmulos que tm funo de reforo ou de punio

so reduzidos em nmero e so conhecidos como reforadores primrios. Sabor

doce, calor (conforto trmico), dor, sabor amargo so exemplos de reforadores

primrios, isto , tm esta propriedade filogeneticamente determinada. Outros

eventos do ambiente podem adquirir as caractersticas de um reforador, ou seja, a

capacidade de fortalecer o comportamento por meio do emparelhamento com

reforadores primrios. Um estmulo deste tipo chamado de reforador adquirido

ou reforador condicional. exatamente neste ponto que os condicionamentos

respondente e operante esto relacionados, j que o condicionamento respondente

2 8

faz justamente com que se estabeleam relaes entre estmulos inicialmente

neutros e estmulos reforadores primrios. Talvez o melhor exemplo deste tipo de

estmulo seja o dinheiro que altamente reforador para muitos indivduos de

diversas sociedades, mas insignificante para outros, demonstrando que sua

capacidade reforadora adquirida e que isso depende da histria de vida de cada

indivduo.

Reforadores adquiridos esto envolvidos em um fenmeno

conhecido como encadeamento de resposta, em que as conseqncias de um

determinado comportamento exibido pelo organismo, so estmulos que indicam a

ocasio para um outro comportamento. Voltando ao exemplo anterior, trabalha-se

para se obter dinheiro apenas para que ento seja possvel, entre outras coisas,

comprar alimento. Dessa forma, estabelece-se uma cadeia de estmulos e respostas

que no caso do exemplo fornecido : trabalho=>dinheiro=>compras=>alimento.

Atuando desse modo, o fenmeno de encadeamento capaz de formar cadeias

comportamentais extremamente complexas e conseqentemente tem grande

participao na construo de repertrios comportamentais complexos.

Uma conseqncia importante do condicionamento operante o fato

deste aumentar a estereotipia da resposta, ou seja, o padro de respostas que

compe o comportamento tende a se tornar bem especfico e peculiar. Considere

que inicialmente o organismo emite um conjunto variado de respostas, ou seja,

esteja em nvel operante. medida que esta ou aquela resposta em particular for

reforada, a probabilidade de sua ocorrncia aumenta enquanto a probabilidade das

demais respostas, comparativamente, diminui. Alm disso, a resposta em questo

passa a ocorrer de uma maneira particularmente especfica. Por exemplo, considere

uma cobaia que aprende a pressionar uma alavanca para obter alimento.

Inicialmente ela pressiona a alavanca ao acaso e de diversas formas diferentes, isto

, com variaes na topografia da resposta. medida que o procedimento de

reforo realizado a cobaia passa a pressionar a alavanca com uma freqncia

cada vez maior e restringindo a topografia da mesma (passando a executar a ao

de forma bem especfica, por exemplo, apenas com a pata esquerda).

29

2.3 Reviso Bibliogrfica

2.3.1 Autonomia

Brevemente introduzido no primeiro captulo, o conceito de

autonomia fundamental para este trabalho e define a essncia do que se entende

por um sistema artificial inteligente. Entretanto a interpretao adotada de tal

conceito no consenso entre pesquisadores de Inteligncia Artificial, inclusive

existindo controvrsias sobre seu entendimento, motivo pelo qual tal tema

aprofundado nesta seo.

Um dicionrio, (Fernandes et al., 1991 ), traz o termo autnomo como

sendo algo regido por leis prprias, um sistema independente. No caso especfico de

robs autnomos, esse termo possui um significado preciso, como foi destacado por

Russell e Norvig (1995) e Figueiredo (1999). Segundo os autores, um rob

autnomo quando possui a capacidade de alterar seu comportamento, baseando-se

em suas prprias experincias e com o objetivo de aprimorar seu desempenho. Esta

definio perfeitamente aplicvel a sistemas autnomos em geral; e semelhante

abordagem de autores como Dorigo (1996), Krose (1995), bem como Steels

(1995).

Autonomia, assim definida, introduz diversos pontos importantes a

serem analisados. Uma das primeiras implicaes que para "alterar seu

comportamento, baseando-se em suas prprias experincias" necessrio que o

sistema possua capacidade de aprendizagem, ou seja, que ele seja capaz de alterar

seu comportamento (autogoverno) de forma a maximizar seu desempenho.

De outra forma, tambm comum na literatura a utilizao do termo

autnomo para referir-se a robs que simplesmente no precisam de auxlio externo,

sem que eles possuam necessariamente capacidades de aprendizagem. Robs que

no dependem de auxlio externo podem prescindir da capacidade de aprendizagem

em casos nos quais o ambiente e demais fatores permitam. Entretanto, neste caso,

suas aes seriam repetitivas e/ou totalmente programadas. Segundo o ponto de

vista adotado, tais robs so denominados de automticos (Steels, 1995).

3 0

2.3.2 Aprendizagem por Reforo e Inteligncia Artificial

As teorias sobre aprendizagem descritas so de grande interesse

para pesquisadores de Inteligncia Artificial, particularmente aquela sobre

comportamento operante. Com o objetivo de fornecer um panorama geral da

pesquisa de aprendizagem por reforo apresenta-se a seguir uma sntese da

questo, bem como de duas tcnicas bastante conhecidas da rea: Temporal

Differences e Q-Learning. Uma abordagem bem mais aprofundada pode ser

encontrada no trabalho de Sutton e Barto (Sutton e Barto, 1988).

De forma geral, o modelo formal visto na IA sobre a aprendizagem

por reforo consiste de:

1. Um nmero discreto de estados ambientais;

2. Um nmero discreto de aes possveis;

3. Um conjunto de sinais de reforo (e.g. {0,1});

4. Uma poltica de aes.

Assim, o objetivo do sistema encontrar uma poltica de aes que

mapeie as entradas do sistema (estados ambientais) para as sadas (aes

possveis) de modo a maximizar os sinais de reforo obtidos.

O problema da aprendizagem tambm pode ser visto como um

problema de previso. Deste ponto de vista, o sistema artificial inteligente toma uma

determinada ao com base em uma previso das conseqncias (reforo) dessa

ao. Para escolher a melhor ao necessrio algum tipo de avaliao das

possibilidades. Uma das tcnicas utilizada para realizar tal avaliao chamada

Temporal Differences (TD) (Sutton e Barto, 1988). Enquanto a maioria dos mtodos

avalia o desempenho do sistema com base na diferena do resultado previsto e

daquele realmente obtido, o mtodo TD atribui crdito s possibilidades a partir de

uma seqncia de previses sucessivas no tempo. A ttulo de ilustrao, tome-se o

exemplo extrado de (Sutton e Barto, 1988). Imagine uma previso do tempo feita

durante toda a semana sobre a possibilidade de chover no sbado. Enquanto a

maioria das tcnicas compara a previso feita em cada dia da semana com o

resultado observado no sbado, usando um valor obtido dessa comparao para

realizar a aprendizagem do sistema; o mtodo TD utiliza uma comparao

31

incremental em que a previso de cada dia influi na do dia seguinte. Assim, uma

previso de, por exemplo, 75% de probabilidade de chuva na tera, influi na

probabilidade de que chova na quarta.

A tcnica de TD fundamentalmente visa avaliar os custos de uma

determinada poltica de aes (Ribeiro, 2002). No entanto, ela no aborda a questo

da aprendizagem dessas polticas. Uma tcnica que aborda tal aprendizagem,

inclusive bastante utilizada no desenvolvimento de robs autnomos, a chamada

Q-learning. Basicamente a aprendizagem consiste de um mtodo iterativo que se

baseia em avaliar a ao (Q) segundo seu valor (Q(x,a)) e que definido como o

desconto obtido no custo ao adotar-se a ao "a", quando no estado "x", seguindo

uma poltica ideal de ao (Ribeiro, 2002).

Obviamente, esses assuntos so extensos e abord-los mais a

fundo foge ao escopo deste trabalho. O objetivo aqui somente oferecer uma breve

sntese sobre a viso da IA sobre comportamento operante e, com isso, denunciar

as relaes entre as teorias da Anlise do Comportamento e a da Inteligncia

Artificial.

2.3.3 Aprendizagem por Reforo e Redes Neurais Artificiais

Em se tratando de aprendizagem por reforo aplicada a redes

neurais, existem basicamente dois tipos de abordagens possveis (Haykin, 2001):

1. Clssica: a aprendizagem acontece atravs de sinais de

recompensas e punies, ou seja, segundo a teoria da Seleo

por Conseqncias;

2. Moderna: trata de uma tcnica matemtica que visa prever e avaliar as possveis aes para ento escolher qual delas a

melhor a ser tomada, enfatizando, portanto, o planejamento.

A Seo anterior (2.3.2) fornece um panorama geral da teoria e dos

trabalhos que utilizam tcnicas que se enquadram em uma abordagem moderna. Tal

reviso interessante para construir um embasamento terico que favorece a

discusso e possibilita a comparao de resultados. No entanto, o presente trabalho

32

segue uma linha diferente e suas propostas enquadram-se em um panorama

clssico.

Embora a teoria moderna, assim como a teoria clssica, tenha se

originado de estudos em psicologia, em certa altura sua formulao desviou-se,

deixando de lado sua inspirao, evoluindo em direo a solucionar problemas

especficos da IA. Por outro lado, pesquisas experimentais no contexto da

aprendizagem clssica demonstram que a aprendizagem por reforo ocorre em

organismos para os quais no existe evidncia alguma sugerindo o planejamento

das aes futuras (Brooks, 1990) (Brooks, 1991). Dessa forma impossibilita-se

explicar os comportamentos complexos exibidos por tais organismos com base na

teoria moderna. Pesquisas como essas levam a crer que a teoria original possui

potencial para produzir resultados concretos. Alm disso, sua utilizao favorece

todo o processo de aprendizagem medida em que torna mais intuitivo o processo

de interao do sistema com o ambiente.

Apresenta-se a seguir um modelo de rede neural que utiliza uma

abordagem clssica para sua aprendizagem por reforo, servindo de base para o

desenvolvimento das propostas do Captulo 3.

Fundamentos Neurobiolgicos

O modelo proposto neste trabalho baseia-se em conceitos

caractersticos derivados da neurobiologia. Devido natureza pouco comum desse

tema, pelo menos no mbito da Inteligncia Artificial, primeiramente estes conceitos

sero introduzidos para na seqncia ser apresentado o modelo.

Sabe-se que o crebro dos animais, incluindo o humano, possui

regies nas quais a atividade eltrica desencadeada quando estmulos especficos

so apresentados. Sabe-se tambm que tais estmulos so reforadores primrios e

que o circuito neural envolvido capaz de operar logo aps o nascimento sendo,

portanto, filogeneticamente determinado. Uma dessas regies, como destacam

autores como Donahoe e Rolls, a Ventral Tegmental Area (rea Ventral

Tegumentar ou VTA) (Figura 8) (Donahoe, Burgos e Palmer, 1993) (Rolls, 1999).

A partir da VTA, projetam-se, de forma distribuda, vrias

ramificaes em direo ao cortex motor e lbulos frontais, que so do tipo

dopaminrgico, isto , provocam a liberao de dopamina quando estimuladas. A

33

dopamina um neuromodulador capaz de fortalecer as sinapses entre neurnios pr

e ps-sinpticos, imediatamente aps a ativao da sinapse em questo. Estmulos

reforadores primrios possuem capacidade filogeneticamente pr-determinada de

iniciar atividade na VTA, assim a VTA capaz de mediar relaes entre aes

geradas no crtex motor.

Alm dos caminhos neurais filogeneticamente definidos, capazes de

iniciar atividade na regio VTA a partir de reforadores primrios, alguns dos

neurnios do crtex frontal associativo tambm so capazes de estimular a VTA pois

possuem axnios que se projetam, atravs do "mediai forebrain bundle" (MFB)

(Figura 8), at a prpria VTA. Tal estrutura possibilita o desenvolvimento de

reforadores adquiridos, tendo em vista que estmulos discriminativos, cuja

informao viaja at os lbulos frontais atravs dos cortices sensorials, podem

adquirir, por meio de realimentao pelo MFB, a capacidade de estimular o sistema

de fortalecimento dopaminrgico. Concluindo, a Figura 8 ilustra, portanto, um

mecanismo neural capaz de ajustar conexes sinpticas com base em reforadores

primrios, cujos estmulos viajam por caminhos neurais filogeneticamente

selecionados, e reforadores adquiridos, cujos estmulos viajam atravs da regio

conhecida como MFB.

3 4

Figura 8 - Estruturas neurais de seleo pelas conseqncias1.

interessante notar que grande parte da teoria da Seleo pelas

Conseqncias, desenvolvida a partir de observaes comportamentais feitas em

animais, possui uma correspondncia com estudos da neurobiologia. Tudo indica

que tais correspondncias tendem a aumentar conforme novas descobertas forem

sendo feitas em cada rea.

Modelo de Redes Neurais Artificiais

O modelo proposto por Donahoe, Burgos & Palmer (1993) busca

espelhar os mecanismos neurais que acabam de ser apresentados (no tpico

anterior), utilizando-se tcnicas de RNAs. O objetivo reproduzir fenmenos

comportamentais de que trata a teoria de Seleo por Conseqncias, fornecendo

ao mesmo tempo um modelo neural e uma explicao biolgica correspondente.

Neste modelo, a questo da aprendizagem tratada sob o ponto de

vista do princpio unificado do reforo, ou seja, considerando que os

condicionamentos respondente e operante so tratados em conjunto sob as mesmas

1 Adaptado de: Donahoe e Palmer (1994).

35

regras. Entretanto, as conseqncias de ambos os tipos de aprendizagem

permanecem distintas. Tal como enfatizado anteriormente, essa diviso entre

condicionamento respondente e operante mais uma questo didtica do que

prtica e a abordagem do modelo ajuda a consolidar tal proposta.

Uma simulao do sistema ilustrada na Figura 9. O exemplo

refere-se ao mecanismo de aprendizagem baseado no condicionamento operante,

tendo em vista que a apresentao do estmulo US (unconditioned stimulus ou

reforador primrio) dependente da emisso da resposta R. Considere que o

ambiente no tenha provocado qualquer reforo sobre o indivduo. Desta forma, as

respostas emitidas pelo mesmo ocorrem de forma equiprovvel, em conseqncia

do estado de nvel operante em que se encontra. Considere que a resposta R tenha

sido emitida a partir do estmulo S1. A resposta R altera o ambiente que, por sua

vez, gera um estmulo US. O estmulo US dispara a resposta UR (unconditioned

response ou resposta reflexa). A resposta UR por sua vez est ligada ao sistema

difusor de dopamina e, portanto, provoca um reforo de todas as conexes

sinpticas recentemente utilizadas. Assim, ao longo de vrias apresentaes de S1,

emisses de R e apresentaes de US, as conexes favorveis emisso de R e

UR, a partir do estmulo S1, so gradualmente estabelecidas. Quando as ligaes

estiverem fortemente estabelecidas, o estmulo S1 passa, seguramente, a evocar a

resposta R e tambm a resposta UR, passando a ser um estmulo discriminativo.

A resposta UR em particular, quando emitida a partir da estimulao

de S1 e no do estmulo US chamada de CR (conditioned response ou resposta

condicionada) e conseqncia do condicionamento respondente. Lembre-se de

que este condicionamento capaz de estabelecer relaes entre diversos estmulos

e respostas reflexas. Alm disso, a sada CR tambm representa um reforador

adquirido, pois torna possvel a ativao do mecanismo neural de reforo, por meio

de um estmulo qualquer que no o US.

3 6

Embora a Figura 9 ilustre o mecanismo de aprendizagem associado

ao condicionamento operante, o modelo tambm ilustra o mecanismo de

aprendizagem associado ao condicionamento respondente (fortalecimento das

ligaes com UR/CR). De fato, ambos ocorrem juntos. A Figura 10 mostra que a

1 Fonte: Donahoe e Palmer (1994).

3 7

diferena entre os dois tipos de condicionamento reside apenas na dependncia da

ocorrncia do estmulo US (linha tracejada). O desenvolvimento da rede

(fortalecimento das conexes) acontece de forma similar em ambos os casos.

Diferenas ocorrem apenas no caso de um condicionamento puramente

respondente, pois nenhuma conexo com a sada R estabelecida, uma vez que

sua importncia para a ocorrncia do estmulo US nula, ao passo que um

condicionamento operante sempre envolve um condicionamento respondente

associado.

Figura 10 - Contingncia respondente e operante1.

Note-se que a liberao de dopamina depende de um reforo do

ambiente em relao resposta emitida pelo organismo, sendo que tal reforo no

imediato. Assim, utiliza-se um trao de atividade que decai com o tempo e que

permite ao sistema registrar quais sinapses foram utilizadas na emisso do

comportamento e que, conseqentemente, devem ser fortalecidas quando o reforo

for aplicado, podendo ser modelado por meio de uma memria.

Os resultados apresentados por Donahoe, Burgos e Palmer (1993)

em simulaes foram bastante promissores ao reproduzirem diversos princpios

comportamentais, entre eles:

1. Aquisio de comportamento respondente;

1 Fonte: Donahoe e Palmer (1994).

3 8

2. Extino de comportamento respondente;

3. Aquisio de comportamento operante;

4. Extino de comportamento operante;

5. Reaquisio de comportamento operante;

Embora apresentem resultados interessantes, as simulaes

utilizaram estmulos e respostas bem simples, sendo que apenas um ou dois

neurnios ativos eram utilizados como estmulo e apenas um neurnio de sada era

considerado como resposta. As prprias dimenses da rede tambm so bem

reduzidas, pouco diferente, em nmero de neurnios, daquelas exibidas nas Figura

9 e Figura 10. Alm disso, apesar de descrever em teoria o funcionamento de

unidades inibitrias, nas simulaes tais unidades no foram empregadas, o que

obviamente deixa muitas questes em aberto com relao sua importncia e

possveis contribuies.

Assim embora demonstre o funcionamento de princpios

interessantes, a capacidade reduzida do modelo em termos do nmero de

contingncias que pode armazenar, bem como possveis contribuies de fatores

como inibio lateral, representam fatores limitantes para a implementao de

sistemas autnomos mais complexos. Para o desenvolvimento de tais sistemas, os

princpios que o modelo introduz devem primeiramente ser verificados em uma

arquitetura mais complexa e com maior capacidade de armazenamento.

3 MODELO DE REDE NEURAL ARTIFICIAL

Neste captulo, apresenta-se a rede neural cujo modelo a proposta

principal desse trabalho. O modelo baseado no j discutido trabalho de Donahoe,

Burgos e Palmer (1993) e Donahoe e Palmer (1994) cuja teoria foi apresentada no

Captulo 2 (Seo 2.2.3). O captulo divide-se em trs partes, apresentando

arquitetura, raciocnio e aprendizagem.

3.1 Arquitetura

A rede neural consiste de M camadas. Existe uma camada sensorial

ou camada de entrada (a camada inferior). Os neurnios sensores desta camada

podem pertencer a diferentes classes, definidas segundo a natureza do estmulo que

detectam. H uma camada de sada que define alteraes no estado do ambiente.

As demais camadas so internas. As camadas consistem de neurnios dispostos em

uma estrutura retangular NxN (Figura 11). Existe ainda uma estrutura adjunta,

formada por um conjunto de neurnios sensores denominados US. Os neurnios US

so conectados diretamente a neurnios da camada de sada, denominados

respondentes (na Figura 11 os neurnios US so representados por um nico

elemento). Os neurnios respondentes so aqueles que codificam a resposta

reflexa. Tal resposta, segundo a teoria do condicionamento, quando emitida devido

ao estmulo US definida como UR (unconditioned response). Caso ela seja emitida

devido s ligaes sinpticas que se formaram desde a camada de entrada at os

neurnios respondentes, passando pelo interior da rede, ento chamada de CR

(conditioned response).

4 0

Camada de Sada

Camadas Internas

Camada Sensorial

Figura 11 - Arquitetura de rede neural para quatro camadas.

Cada neurnio estabelece conexes sinpticas segundo trs classes

distintas, a saber: excitatrias inter-camadas, inibitrias e excitatrias intra-camadas.

Conforme as denominaes j deixam claro, as classes definem sinapses de

caractersticas especficas. Para um dado neurnio (no pertencente a camada de

entrada) as sinapses excitatrias inter-camadas ocorrem com neurnios pr-

sinpticos da camada anterior, situados em uma vizinhana cujo centro corresponde

ao neurnio de posio relativa idntica ao neurnio ps-sinptico. Assim, as

conexes excitatrias inter-camadas, a partir de neurnios pr-sinpticos para um

nico neurnio ps-sinptico, definem uma figura espacial em forma de cone, tal

como ilustra a Figura 11. A distribuio espacial de neurnios pr-sinpticos que

estabelecem tais conexes segue uma distribuio de probabilidades Gaussiana

(Figura 12). Por meio das sinapses excitatrias inter-camadas, os sinais fluem de

camada em camada. As sinapses inibitrias esto presentes em conexes

estabelecidas entre neurnios da mesma camada de forma que a distncia ao

neurnio ps-sinptico maior que uma distncia mnima (vizinhana distante). Sua

funo primordial regular a atividade dos neurnios, impedindo que ocorra uma

exploso de atividade na rede, tendo tambm papel crucial na formao de grupos

neurais. As sinapses excitatrias intra-camadas existem em conexes entre

neurnios da mesma camada de forma que a distncia ao neurnio ps-sinptico

menor que uma distncia mxima (vizinhana prxima). Tais sina

d - haydu, nicholas bender.pdf

Documents