d - haydu, nicholas bender.pdf
TRANSCRIPT
-
NCHOLAS BENDER HAYDU
UMA ABORDAGEM BASEADA EM SELEO PELAS CONSEQNCIAS PARA APRENDIZAGEM DE REDES NEURAIS MULTI-CAMADAS
VOLTADAS CONCEPO DE SISTEMAS AUTNOMOS INTELIGENTES
Dissertao apresentada como requisito parcial obteno do grau de Mestre em Informtica pelo Curso de Ps-Graduao em Informtica, do Setor de Cincias Exatas da Universidade Federal do Paran, em convnio com o Departamento de Informtica da Universidade Estadual de Maring.
Orientador: Prof. Dr. Maurcio F. Figueiredo
CURITIBA
2003
-
UFPR Ministrio da Educao Universidade Federal do Paran Mestrado em Informtica
PARECER
Ns, abaixo assinados, membros da Banca Examinadora da defesa de Dissertao de Mestrado em Informtica, da aluno Nicholas Bender Haydu, avaliamos o trabalho intitulado, "L/ma Abordagem Baseada em Seleo pelas Conseqncias para Aprendizagem de Redes Neurais Multi-Camadas Voltadas Concepo de Sistemas Autnomos Inteligentes ", cuja defesa foi realizada no dia 15 de agosto de 2003, s dez e trinta horas, no Auditrio da Informtica da Universidade Federal do Paran. Aps a avaliao, decidimos pela aprovao do candidato. (Convnio nmero 279-00/UFPR de Ps-Graduao entre a UFPR e a UEM - rf. UEM nmero 1331/2000-UEM).
Curitiba, 15 de agosto de 2003.
Prof. Dr. Maurcio Fernandes Figueiredo DIN/UEM (Orientador)
Prof. Dr. Fernando Jos Von Zuben FEED/UNICAMP - Membro Externo
Prof. Dra ad Ramirez Pozo DINF/UFPR
-
Ao esprito cientfico e ao desejo homem por saber mais.
-
AGRADECIMENTOS
IV
Ao meu orientador, Prof. Dr. Maurcio Fernandes Figueiredo, por ter
me guiado ao longo de mais essa etapa com dedicao, conhecimento e,
principalmente, imaginao.
minha famlia pelo apoio, incentivo e conversas inteligentes. Em
especial para o meu pai, com sua imaginao frtil, e para minha me, pela ajuda
terica, dicas e conselhos extremamente teis.
Aos professores do programa de Ps-Graduao, em especial ao
Prof. Dr. Lus Augusto Consularo, pela ajuda e tambm pela versatilidade em
conversar sobre diversos assuntos interessantes.
Aos meus amigos e colegas pela amizade, companheirismo e
distrao nos momentos de lazer.
Ao resto do mundo por no interferir de forma decisiva.
-
V
LISTA DE FIGURAS
Figura 1 - Esquema de neurnios e suas ligaes 13 Figura 2 - Esquema da sinapse 14 Figura 3 - Modelo bsico de neurnio artificial 14 Figura 4 - Funo sigmide 15 Figura 5 - Arquitetura de rede neural de urna nica carnada 16 Figura 6 - Arquitetura de rede neural de quatro camadas 17 Figura 7 - Arquitetura de rede neural recorrente 17 Figura 8 - Estruturas neurais de seleo pelas conseqncias 34 Figura 9 - Exemplo de condicionamento operante na rede de seleo pelas
conseqncias 36 Figura 10 - Contingncia respondente e operante 37 Figura 11 - Arquitetura de rede neural para quatro camadas 40 Figura 12 - Conexes sinpticas tpicas e respectivas distribuies 41 Figura 13 - Representao da rede 50 Figura 14 - Propagao da atividade neural por conexes excitatrias inter-camadas
(com cone de alcance mnimo) 53 Figura 15 - Propagao da atividade neural por conexes excitatrias inter-camadas
(sem cone de alcance mnimo) 53 Figura 16 - Atividade neural com conexes laterais inibitrias 54 Figura 17 - Atividade neural com conexes laterais inibitrias e excitao
predominante 55 Figura 18 - Atividade inicial ainda sem grupos neurais definidos 57 Figura 19 - Atividade intermediria com surgimento dos grupos neurais 57 Figura 20 - Atividade final com grupos neurais formados 58 Figura 21 - Atividade neural do estmulo CS anterior ao treinamento respondente. 61 Figura 22 - Atividade neural do estmulo US anterior ao treinamento respondente. 61 Figura 23 - Resposta do estmulo CS aps treinamento respondente 61 Figura 24 - Atividade neural anterior extino do comportamento respondente. .. 63 Figura 25 - Atividade neural aps extino do comportamento respondente 63 Figura 26 - Atividade neural anterior ao treinamento operante 64 Figura 27 - Atividade neural aps treinamento operante 64 Figura 28 - Atividade neural aps treinamento operante para um estmulo no
reforado 65 Figura 29 - Atividade neural anterior ao treinamento operante (exemplo 2) 66 Figura 30 - Atividade neural aps treinamento operante (exemplo 2) 66 Figura 31 - Atividade neural anterior extino do comportamento operante 67 Figura 32 - Atividade neural aps extino do comportamento operante 67 Figura 33 - Atividade neural anterior ao treinamento operante (exemplo de
generalizao) 68 Figura 34 - Atividade neural aps treinamento operante com estmulo original 68 Figura 35 - Atividade neural aps treinamento operante com degradao do
estmulo (exemplo 1 ) 68 Figura 36 - Atividade neural aps treinamento operante com degradao do
estmulo (exemplo 2) 69 Figura 37 - Atividade neural aps treinamento operante com degradao do
estmulo (exemplo 3) 69 Figura 38 - Atividade neural anterior ao treinamento de controle da intensidade da
resposta (estmulo 1 ) 70
-
vii
Figura 39 - Atividade neural anterior ao treinamento de controle da intensidade da resposta (estmulo 2) 70
Figura 40 - Atividade neural aps treinamento de controle da intensidade da resposta (estmulo 1 ) 71
Figura 41 - Atividade neural aps treinamento de controle da intensidade da resposta (estmulo 2) 71
Figura 42 - Atividade neural anterior ao treinamento de controle de mltiplas respostas (estmulo 1 - resposta 1 ) 72
Figura 43 - Atividade neural anterior ao treinamento de controle de mltiplas respostas (estmulo 2 - resposta 2) 72
Figura 44 - Atividade neural aps treinamento de controle de mltiplas respostas (estmulo 1 - resposta 1 ) 73
Figura 45 - Atividade neural aps treinamento de controle de mltiplas respostas (estmulo 2 - resposta 2) 73
Figura 46 - Atividade neural anterior ao treinamento de fuso sensorial (estmulo discriminativo composto) 75
Figura 47 - Atividade neural anterior ao treinamento de fuso sensorial (componente 1 ) 75
Figura 48 - Atividade neural anterior ao treinamento de fuso sensorial (componente 2 ) 75
Figura 49 - Atividade neural aps treinamento de fuso sensorial (componente 1). 76 Figura 50 - Atividade neural aps treinamento de fuso sensorial (componente 2). 76 Figura 51 - Atividade neural aps treinamento de fuso sensorial (ocorrncia
conjunta dos estmulo 1 e 2) 76 Figura 52 - Atividade neural anterior ao treinamento operante em rede com camadas
20x20 78 Figura 53 - Atividade neural aps treinamento operante em rede com camadas
20x20 78 Figura 54 - Grfico de evoluo de um treinamento operante tpico 79 Figura 56 - Tela do simulador para ajuste de parmetros da rede neural 92 Figura 57 - Tela do simulador para configurar o ambiente de treinamento 93
-
vii
SUMRIO
1 INTRODUO 1
1.1 Motivao 1
1.2 Objetivos e Contribuies 7
1.3 Organizao do Trabalho 9
2 FUNDAMENTAO TERICA 10
2.1 Redes Neurais Artificiais 10
2.1.1 Modelo Bsico Biolgico 12
2.1.2 Fundamentos 14
2.1.3 Modelos Clssicos de Redes Neurais Artificiais 18
2.2 Aprendizagem e Comportamento Inteligente 23
2.2.1 Reflexos e Reflexos Condicionados 23
2.2.2 Comportamento Operante 25
2.3 Reviso Bibliogrfica 29
2.3.1 Autonomia 29
2.3.2 Aprendizagem por Reforo e Inteligncia Artificial 30
2.3.3 Aprendizagem por Reforo e Redes Neurais Artificiais 31
3 MODELO DE REDE NEURAL ARTIFICIAL 39
3.1 Arquitetura 39
3.2 Raciocnio 42
3.3 Aprendizagem 45
4 RESULTADOS 47
4.1 Experimentos Bsicos 51
4.1.1 Atividade Neural sem Conexes Laterais 52
-
vin
4.1.2 Atividade Neural com Conexes Laterais 54
4.1.3 Formao Dinmica de Grupos Neurais 56
4.1.4 Consideraes Sobre a Evoluo da Atividade Neural 58
4.2 Experimentos de Aprendizagem 59
4.2.1 Experimento 1 - Convergncia da Aprendizagem em Treinamento
Respondente 60
4.2.2 Experimento 2 - Extino de Comportamento Respondente 62
4.2.3 Experimento 3 - Convergncia da Aprendizagem em Treinamento Operante 63
4.2.4 Experimento 4 - Extino de Comportamento Operante 66
4.2.5 Experimento 5 - Capacidade de Generalizao 67
4.2.6 Experimento 6 - Controle de Intensidade da Resposta 69
4.2.7 Experimento 7 - Controle de Mltiplas Respostas 71
4.2.8 Experimento 8 - Fuso de Sensores 73
4.2.9 Experimento 9 -Treinamento Operante em uma Rede com Camadas de
Dimenso 20x20 77
4.2.10 Experimento 10 - Anlise da Aprendizagem Operante 78
5 CONCLUSES 80
REFERNCIAS BIBLIOGRFICAS 86
ANEXO 89
Anexo I - Ferramenta de Simulao 90
-
IX
HAYDU, Nicholas Bender. Uma Abordagem Baseada em Seleo pelas Conseqncias para Aprendizagem de Redes Neurais Multi-Camadas Voltadas Concepo de Sistemas Autnomos Inteligentes. 2003. Dissertao (Mestrado em Informtica) - Universidade Federal do Paran, Curitiba.
RESUMO
Um modelo de rede neural artificial proposto. A rede neural possui mltiplas camadas. Cada camada da rede neural formada por uma grade quadrangular de neurnios (em um espao toroidal). As conexes sinpticas de cada neurnio abrangem trs tipos: excitatrias inter-camadas, laterais inibitrias intra-camada e laterais excitatrias intra-camada. A disposio espacial das conexes do tipo Gaussiana e especfica para cada tipo de sinapse. Cada neurnio estabelece um nmero restrito de conexes. O modelo de arquitetura contribui para eliminar restries apresentadas por arquiteturas em que entradas e conexes so distribudas a todos os neurnios de cada camada. O modelo do neurnio apresenta dinmica interna, proporcionando uma memria da atividade recente e assumindo papel importante na aprendizagem. A aprendizagem baseada na seleo pelas conseqncias, conforme princpios de aprendizagem por reforo. Em particular, a de aprendizagem por reforo utilizada do tipo clssico. Os experimentos definidos para investigao e confirmao das capacidades da rede neural consideram um ambiente simulado, condizente com o modelo de Seleo pelas Conseqncias. Os resultados obtidos em simulaes mostram que o modelo capaz de reproduzir diversos fenmenos comportamentais, que so: aquisio de comportamento respondente, extino de comportamento respondente, aquisio de comportamento operante, extino de comportamento operante, capacidade de generalizao de estmulos, habilidade no controle da intensidade das respostas, capacidade de controle de mltiplas respostas e fuso de sensores. Experimentos tambm ilustram o importante papel das conexes laterais inibitrias e das conexes laterais excitatrias na modelagem da formao de grupos neurais em nvel operante. Entende-se que a capacidade de aprendizagem alcanada pela rede neural proposta torna-a vivel para a concepo de sistemas autnomos inteligentes com potencialidades superiores queles divulgados na literatura especializada.
-
X
HAYDU, Nicholas Bender. A Selection by Consequences Approach for Learning in Multi-Layer Neural Networks Directed to the Conception of Intelligent Autonomous Systems. 2003. Dissertao (Mestrado em Informtica) -Universidade Federal do Paran, Curitiba.
ABSTRACT
A model of an artificial neural network is proposed. The neural network has multiple layers. Each network layer is formed by a quadrangular grid of neurons (on a toroidal space). The synaptic connections that every neuron has are defined between tree types: inter-layer excitatory, lateral intra-layer inhibitory and lateral intra-layer excitatory. The spatial disposition of connections is of a Gaussian type and specific for each type of synapse. Each neuron has a limited number of connections. The model contributes to eliminate restrictions presented by other architectures in witch connections are distributed to all of the neurons of each layer. The neuron model presents an internal dynamic, working as a memory of its recent activity and having important role in the learning process. The learning procedure is based on the selection by consequences according to reinforcement learning principles. Particularly the reinforcement learning approach used is of the classical type. The experiments defined for the investigation and confirmation of the capacities of the neural network consider a simulated environment that works according to the Selection by Consequences model. The simulation results show that the model is capable of reproducing several behavioral phenomena that are: acquisition of respondent behavior, extinction of respondent behavior, acquisition of operant behavior, extinction of operant behavior, stimulus generalization capacity, ability to control the response intensity, capacity to control multiple responses and sensor fusion. Besides that, the experiments also illustrate the important role of the lateral inhibitory and lateral excitatory connections for a correct shaping of operant level responses and neural groups. It is understood that the learning capacities that the proposed neural network exhibits make it viable for the conception of intelligent autonomous systems with potentialities superior to those already presented in the specialized literature.
-
1 INTRODUO
1.1 Motivao
Autonomia
Os progressos no campo da Inteligncia Artificial vm demarcando
grandes ciclos, caso o ponto de vista adotado leve em conta as metas, expectativas
e resultados alcanados.
Entende-se que um primeiro ciclo estaria associado aos esforos de
pesquisa motivados pela possibilidade de reproduzir capacidades inteligentes
humanas sofisticadas em mquinas computacionais. Aps se constatar as imensas
disparidades presentes entre as potencialidades das mquinas desenvolvidas e das
anunciadas a partir das expectativas iniciais, este ciclo se extingue. Os resultados da
pesquisa neste ciclo podem no ter sido satisfatrios, entretanto serviram para gerar
uma noo mais realista das dificuldades gigantes que seriam enfrentadas para
reproduzir um sistema artificial inteligente imaginado.
As frustraes segundo a perspectiva mais ficcionista no impediu
que os progressos e resultados alcanados merecessem o reconhecimento por todo
o esforo despendido. As potencialidades dos sistemas inteligentes propostos
poderiam no satisfazer as metas iniciais, mas se tinham tornado suficientes para
produzirem resultados relevantes em aplicaes prticas. Esta nova leitura para o
papel dos resultados alcanados pela pesquisa em Inteligncia Artificial
caracterizaria um segundo ciclo. A pesquisa no campo da Inteligncia Artificial se
consolidou e foi reconhecida como extremamente relevante para o progresso
tecnolgico, invadindo reas que antes se mostravam avessas, e.g., controle
automtico. Neste ciclo os sistemas inteligentes passam a assumir uma importncia
crescente junto ao segmento tecnolgico. O segundo ciclo desencadeou avanos
tericos notveis e talvez seja aceitvel admitir que, enquanto o primeiro ciclo esteve
motivado por expectativas calcadas na fico, o segundo foi fortemente guiado pelas
demandas presentes no segmento tecnolgico.
possvel que a pesquisa no campo da Inteligncia Artificial esteja
iniciando um terceiro ciclo. As demandas tecnolgicas continuam exercendo
-
2
presses constantes no que diz respeito s demandas cada vez mais sofisticadas e
exigentes em desempenho. Entretanto tambm se nota uma forte preocupao dos
pesquisadores em tornar os sistemas inteligentes artificiais mais semelhantes aos
sistemas biolgicos sofisticadamente inteligentes. Observa-se que, em vista das
potencialidades demonstradas pelos sistemas biolgicos e artificiais, as
semelhanas que podem ser admitidas so pouco significativas. Desta forma,
argumenta-se que a insatisfao presente seja motivo suficiente para incrementar
pesquisas e reduzir as diferenas entre estes dois sistemas.
Assim, atualmente, de um lado observa-se a consolidao e origem
de teorias ousadas, tais como: sistemas imunolgicos artificiais (de Castro e Timmis,
2002), sistemas de inteligncia coletiva (Bonabeau, Dorigo e Theraulaz, 1999),
sistemas classificadores (Lanzi, 2000), e da evoluo de teorias mais tradicionais
relacionadas s redes neurais, sistemas nebulosos, computao evolutiva,
aprendizagem artificial (Vapnik, 1999)(Sutton e Barto, 1998), sistemas simblicos
inteligentes bem representados pelos agentes inteligentes (Russel e Norvig, 1995).
De outro lado ressurgem as reflexes em termos das limitaes dos
atuais sistemas inteligentes. As crticas podem ser resumidas no problema do "a
priori", abordado por vrios autores (Brooks, 1990)(Brooks, 1991)(Figueiredo, 1999)
eem especial porVerschure (Verschure, 1993)(Verschure, 1996).
O problema do "a priori" diz respeito ao fato de um sistema simblico
requerer uma representao do mundo em termos de smbolos discretos para
operar, que s pode ser fornecida pelos projetistas do sistema. Mesmo que o
sistema possua a capacidade de aprender por meio da incorporao de novos
smbolos e regras sua base de conhecimentos, necessrio um conjunto bsico
inicial que permita a operao do sistema. Esse conjunto inicial definido, portanto,
"a priori" e requer dos projetistas a definio da essncia do sistema. A partir deste
problema principal Vershure reuniu quatro outros tambm de grande importncia,
que sero vistos resumidamente a seguir:
1. Problema da Falta de Fundamento Simblico (Symbol Grounding Problem): est relacionado questo do valor verdade
de uma proposio ser derivado de outras proposies, criando
uma teia de relaes que, no entanto, no possuem base com
relao ao mundo real supostamente descrito pelo sistema;
-
J
2. Problema do Enquadramento (Frame Problem): aborda a
questo do tempo necessrio para a atualizao do modelo lgico
que cresceria exponencialmente e logo tornaria impossvel a
atuao do sistema, ficando este confinado a rotinas de
atualizao;
3. Problemas da Viso de Referncia (Frame-of-reference
Problem): trata do fator subjetivo quando da escolha de um
modelo lgico para a representao de um domnio. Cada pessoa
pode escolher um modelo lgico e uma forma diferente de
relacionar os smbolos do sistema lgico com o problema que se
deseja abordar. No entanto, nada garante que essa escolha seja
a melhor;
4. Problema da Contextualizao (Situatedness Problem):
sistemas inteligentes deveriam ser contextualizados, isto ,
deveriam levar em considerao apenas fatores de importncia
imediata, caso contrrio sofreriam do problema do
enquadramento. Entretanto os sistemas existentes abordam o
conhecimento de uma maneira global e que ainda dependente de
interpretao humana.
Uma interpretao simplificada (no entanto poderosa) do problema
do "a priori" bem como dos problemas subseqentes pode ser feita da seguinte
forma: um sistema simblico capaz de exibir inteligncia necessita que em sua base
existam smbolos representando verdades absolutas e atmicas sobre a inteligncia,
a partir dos quais pudessem ser deduzidas todas as implicaes necessrias para
um sistema inteligente. Como muito bem abordado por Penrose (1997), tais
verdades absolutas provavelmente escondem-se em locais como o mundo
subatmico entre outros. Assim sendo, extra-las seria como extrair os tomos de
conhecimentos necessrios para deduzir todo o universo.
Tendo em vista as dificuldades existentes no contexto apresentado
possvel justificar a crescente ateno voltada para o conceito de autonomia no
contexto de sistemas artificiais inteligentes.
Autonomia e inteligncia tm sido considerados conceitos
fortemente relacionados (Steels, 1995). Prope-se que a autonomia seja uma
-
4
capacidade que se manifeste segundo uma escala contnua, proporcionando, ento,
uma medida para o grau de inteligncia de um sistema artificial (Figueiredo, 1999).
Alm disso, sistemas artificiais, nos quais a ausncia de autonomia tenha sido
constatada, tornam-se passveis de crticas severas no que tange a sua natureza
inteligente (Vershure, 1996).
Por sua vez, a autonomia vinculada capacidade de
aprendizagem, particularmente quando a aquisio de conhecimento ocorre a partir
da interao com o ambiente (Steels, 1995) (Figueiredo, 1997) (Figueiredo, 1999)
(Russell&Norvig, 1995). Um sistema autnomo capaz de aprender atravs da
interao com o ambiente, recebendo estmulos e gerando comportamentos
(respostas) que alteram este ambiente, aprimorando suas capacidades e adaptando-
se s caractersticas do mesmo. Tanto a aprendizagem quanto os comportamentos
e ou respostas geradas podem ser independentes de auxlios externos.
Assim, dentre as diversas possibilidades de aplicao de sistemas
inteligentes, a presena de autonomia torna-se particularmente interessante
naquelas em que o sistema atua em ambientes desconhecidos, e.g., navegao
autnoma de robs. Tais reas de aplicao tm sido intensamente investigadas,
no s devido ao claro interesse tecnolgico, mas tambm por proporcionar um
ambiente profcuo para a pesquisa dos sistemas autnomos inteligentes.
Redes Neurais
entre os sistemas biolgicos que exclusivamente se encontram os
mais representativos sistemas autnomos inteligentes. Reconhece-se que o poder
de autonomia de tais sistemas advm preponderantemente de seus sistemas
nervosos. Por esta razo, alguns pesquisadores defendem que a melhor estratgia
para a concepo de tais sistemas inteligentes concentrar esforos na modelagem
dos sistemas biolgicos (Edelman, 1987).
Coerentemente com esta argumentao, as redes neurais artificiais
so adotadas neste trabalho, dentre as diversas tcnicas presentes na rea de
Inteligncia Artificial, visto que so inspiradas em seus pares biolgicos.
Particularmente, o presente trabalho adota o princpio da mxima plausibilidade
biolgica para as propostas apresentadas, ou seja, as trajetrias definidas durante o
-
5
desenvolvimento do trabalho esto associadas s escolhas que favorecessem o
modelo de RNA que melhor espelhasse o modelo biolgico.
As redes neurais artificiais (RNAs) geram de forma qualitativa muitas
das caractersticas de seus pares biolgicos, alm da capacidade de aprendizagem,
essencial para a autonomia: tolerncia a falhas, generalizao, memria acessada
por contedo e robustez ao rudo.
Embora os modelos de redes neurais existentes tm demonstrado
tais caractersticas em variadas reas de aplicao, muitas deficincias gerais
podem ser apontadas, dentre elas: limitaes de capacidade da memria associativa
e recuperao de seu contedo, restries quanto convergncia em aprendizagem
supervisionada, limitaes quanto aprendizagem em ambientes desconhecidos.
Esta ltima deficincia est intimamente relacionada ao foco de estudo do presente
trabalho, pois reduzindo-a possvel alcanar potencialidades satisfatrias para a
concepo de sistemas autnomos.
Aprendizagem
Sendo a aprendizagem algo fundamental para se alcanar a
autonomia, desejvel que o modelo possua uma estratgia para realizar tal tarefa,
que seja coerente com as idias propostas.
Nesse contexto utiliza-se o modelo da Seleo pelas Conseqncias
(Skinner, 1981) como base para um princpio de aprendizagem. A aprendizagem
segundo essa viso ocorre a partir de variaes no repertrio de comportamentos
dos organismos, as quais por sua vez so selecionados pelo ambiente com base
nas conseqncias que produzem. No caso de produzir conseqncias favorveis
ao organismo, o comportamento selecionado e passa a fazer parte de seu
repertrio. Caso produza conseqncias desfavorveis a tendncia que o
comportamento seja extinguido, deixando de existir. A variabilidade de
comportamentos e a forma especfica como estes so selecionados ocorre segundo
trs estratgias bsicas, produzindo trs tipos de comportamentos: comportamento
reflexo, comportamento respondente e comportamento operante.
A primeira estratgia aborda os comportamentos do tipo reflexo que
so filogeneticamente selecionados, ou seja, segundo sua capacidade ou no de
permitir ao organismo transmitir seus genes com sucesso. razovel assumir que a
-
6
variabilidade para este tipo de comportamento introduzida por fatores genticos
como mutaes e cruzamentos.
O segundo tipo de comportamento conhecido pelo termo
respondente e trata de associar estmulos quaisquer (S), presentes no ambiente, aos
comportamentos do tipo reflexo. Para tanto, o processo de seleo depende da
existncia de uma correlao temporal entre estmulos S com os estmulos
responsveis por eliciar o comportamento reflexo. A seleo mediada por um
estmulo reforador que normalmente o prprio eliciador (estmulo que inicia) do
reflexo. Note que comportamentos do tipo reflexo so selecionados segundo a
histria de vida do organismo e no mais ao longo de inmeras geraes.
O ltimo tipo de aprendizagem diz respeito ao assim denominado
comportamento operante. Comportamentos operantes so selecionados segundo a
conseqncia que suas respostas produzem no ambiente e no apenas de acordo
com uma correlao temporal, como o caso dos respondentes. No entanto, assim
como o comportamento respondente, o comportamento operante tambm
selecionado atravs da apresentao, por parte do ambiente, de um estmulo
reforador. Assim a conseqncia que a emisso da resposta produz no ambiente
a apresentao do estmulo reforador. O efeito do reforador neste caso
selecionar as respostas emitidas pelo organismo em situaes adequadas,
tornando-as mais provveis no futuro. Tambm no caso de comportamentos
operante o repertrio desenvolvido ao longo da histria de vida do organismo.
Devido ao fato da aprendizagem ser mediada por um estmulo
reforador, este princpio de aprendizagem denominado de aprendizagem por
reforo. Existem, no entanto, diversas teorias consideradas como modelos de
aprendizagem por reforo. Para este trabalho, a no ser quando indicado o
contrrio, a interpretao deve ser de acordo com o modelo de Seleo pelas
Conseqncias.
Diferentemente de outras estratgias, a estratgia de aprendizagem
por reforo oferece mecanismos para a adaptao do sistema autnomo enquanto
este interage com um ambiente desconhecido. Por esta razo torna-se muito til
para o treinamento de tais sistemas, em especial para aplicaes associadas a
controle autnomo. Assim, em todos os instantes em que o sistema se depara com
eventos discrepantes (situaes desconhecidas, situaes de sucesso ou falha); o
sistema recebe um sinal de avaliao (reforo) associado ao seu desempenho, sinal
-
7
esse no qual baseado o processo de aprendizagem (Donahoe & Palmer, 1994)
(Skinner, 1981).
1.2 Objetivos e Contribuies
Um sistema artificial capaz de operar de forma satisfatria em
ambientes do cotidiano requer caractersticas comportamentais complexas que
seriam comumente denominadas de inteligentes. As capacidades de tal sistema
devem ser as mais diversas possveis, por exemplo, a habilidade de navegar de
forma autnoma por um ambiente em constante modificao, o uso de ferramentas
em situaes especficas, a coordenao e cooperao com outros sistemas
artificiais e tambm com seres humanos. Com o objetivo de dotar sistemas artificiais
com tais capacidades, so investigados os processos fundamentais que
proporcionam o surgimento de tais comportamentos em sistemas biolgicos, para
ento buscar reproduzi-los em um sistema artificial.
O objetivo geral desenvolver um sistema artificial inteligente capaz
de adquirir conhecimento sobre o ambiente no qual este se encontra e utilizar tal
conhecimento para agir no ambiente de forma autnoma, ou seja, um sistema
autnomo inteligente. Entretanto tal meta deve ser alcanada seguindo-se alguns
requisitos especficos, discutidos ao longo do texto (Captulo 2), que so:
Utilizar um sistema baseado em um modelo de redes neurais;
A arquitetura neural deve buscar reproduzir tanto estruturalmente
quanto funcionalmente sistemas biolgicos nervosos;
A aprendizagem do sistema deve seguir um modelo compatvel
com o modelo de Seleo pelas Conseqncias (Skinner, 1981);
O sistema artificial deve ser capaz de reproduzir fenmenos
comportamentais de que trata a teoria da Seleo pelas
Conseqncias (Skinner, 1981).
O emprego de tais requisitos, como fica claro ao longo do trabalho,
no se deve pelo fato de que se deseja provar a relevncia ou no de cada um deles
para o problema sugerido, mas sim por se acreditar que fornecem propostas
concretas e importantes para a soluo do mesmo.
-
8
Em termos prticos o trabalho prope um modelo neural cuja
arquitetura, operao e aprendizagem funcionam segundo os requisitos
apresentados. A fundamentao do trabalho feita com trabalhos especficos de
cada rea, bem como propostas que integram as mesmas, destaca-se neste ponto o
trabalho de Donahoe, Burgos e Palmer (1993).
A principal contribuio do trabalho ser mostrar que uma estratgia
de aprendizagem por reforo pode ser empregada com sucesso no treinamento de
redes multicamadas de diferentes dimenses. O modelo de aprendizagem por sua
vez, atuando juntamente com a operao da rede capaz de reproduzir,
sintticamente, fenmenos comportamentais observados em seres biolgicos e que
so normalmente tidos como indicadores de autonomia e inteligncia. De forma
secundria, mas no menos importante, o modelo apresenta princpios para a
formao dinmica de grupos neurais e a estabilizao da atividade neural a partir
de um estado inicial variante.
Especificamente, os resultados mostram que o modelo capaz de
reproduzir diversos fenmenos comportamentais particularmente interessantes para
um sistema autnomo inteligente. So eles:
Aquisio de comportamento respondente;
Extino de comportamento respondente;
Aquisio de comportamento operante;
Extino de comportamento operante;
Capacidade de generalizao de estmulos;
Habilidade de controle de intensidade da resposta emitida;
Capacidade de controle de mltiplas respostas;
Fuso de sensores.
Alm dos fenmenos de aprendizagem, o modelo tambm apresenta
resultados decorrentes da arquitetura neural empregada. Particularmente mostra-se
a importncia das conexes inibitrias para uma correta modelagem do
comportamento de nvel operante (Seo 2.2). Alm disso, em conjunto com as
conexes laterais excitatrias, as conexes inibitrias so responsveis pela
-
9
formao dos grupos neurais. Os grupos neurais por sua vez formam a base para a
anlise da operao da rede.
Do ponto de vista das redes neurais artificiais o modelo contribui
apresentando uma soluo para o problema de atribuio de crdito que utiliza
aprendizagem por reforo.
1.3 Organizao do Trabalho
O Capitulo 2 trata de revisar os temas, conceitos e fundamentos que
nos quais o trabalho baseado. Primeiramente tratando de redes neurais artificiais
(Seo 2.1), apresentando um breve histrico, discutindo os principais conceitos e
modelos. Logo aps discute-se o modelo de aprendizagem de seleo pelas
conseqncias (Seo 2.2), como visto pela psicologia. Em seguida a Seo 2.3 traz
uma reviso de conceitos como autonomia (Seo 2.3.1), aprendizagem por reforo
segundo a viso atual e mais difundida da IA (Seo 2.3.2), aprendizagem por
reforo e redes neurais (Seo 2.3.3) onde se busca um modelo que integre redes
neurais e o modelo de Seleo pelas Conseqncias.
No Captulo 3 descreve-se o modelo de rede neural proposto neste
trabalho, apresentando sua arquitetura (Seo 3.1), os mecanismos de raciocnio
(Seo 3.2) e o algoritmo de aprendizagem (Seo 3.3).
O Captulo 4 apresenta os resultados obtidos em simulao do
modelo proposto. Os resultados apresentados so de dois tipos: operacional (Seo
4.1 ) e de aprendizagem (Seo 4.2).
Ao final do trabalho so apresentadas as concluses, seguida pelas
referncias e pelos anexos.
-
2 FUNDAMENTAO TERICA
Devido s questes envolvidas, trabalhos com sistemas autnomos
possuem a caracterstica de serem multidisciplinares. Isso torna ainda mais
importante uma reviso dos assuntos abordados.
Esta seo apresenta de forma resumida as principais teorias e
conceitos necessrios para um bom entendimento da proposta deste trabalho, entre
elas, Redes Neurais Artificiais (Seo 2.1) e teoria da Seleo por Conseqncias
(Seo 2.2). A Seo 2.3 aborda vrios fundamentos e traz uma reviso bibliogrfica
de diversos trabalhos que investigam temas similares ao deste trabalho, fornecendo
uma perspectiva atual da pesquisa na rea.
2.1 Redes Neurais Artificiais
As redes neurais tm sido destaque em diversas pesquisas de
sistemas autnomos. Autores como Brooks (1991), Verschure (1996) e Verschure
(1993) destacam sua contribuio para o chamado problema do "a priori". Tal
questo, como destacado na introduo deste trabalho, aborda o fato de que
extremamente difcil definir a priori regras gerais capazes de descrever problemas
como, por exemplo, o de navegao autnoma, nos quais o rob precisa deslocar-
se de forma autnoma pelo ambiente, basicamente desviando de obstculos e
buscando alvos, alm de outros objetivos mais complexos. Problemas como este
requerem que o sistema adquira o conhecimento para a soluo do problema
diretamente atravs da interao com o ambiente, fazendo uso, portanto, de
aprendizagem. justamente na capacidade de aprendizagem que reside o poder
das redes neurais.
Alm da capacidade intrnseca de aprendizagem as redes neurais
possuem outras caractersticas interessantes para a concepo de sistemas
autnomos, entre as quais destacam-se:
No-linearidade: o modelo dos neurnios pode ser linear ou no-
linear. Ser no-linear concede ao neurnio, e conseqentemente
rede, a capacidade de processamento no-linear. Esta
-
11
capacidade desejada sempre que o sistema deve adotar
determinadas estratgias de interao com o ambiente de acordo
com as variaes dos estmulos (a estratgia para um estmulo
mais intenso diferente da estratgia para um menos intenso);
Processamento paralelo: a atividade simultnea dos diversos
elementos de uma rede neural faz com que essa seja capaz de
processar grande quantidade de informao de forma veloz, algo
indispensvel para sistemas que devem operar em tempo real;
Memria acessada por contedo: a forma particular com que
uma rede neural armazena informao, e o prprio mecanismo de
operao fazem com que esta seja um sistema de memria
acessada por contedo. Assim a rede neural capaz de
recuperar um padro previamente armazenado, mediante a
apresentao de parte desse padro;
Tolerncia a falhas: por se tratar de um sistema maciamente
paralelizado, cada elemento da rede responsvel apenas por
uma pequena parte da computao realizada. Assim, a remoo
ou falha de elementos isolados impacta de forma suave no
desempenho da rede;
Generalizao: vrios modelos de redes neurais tm por objetivo
extrair caractersticas dos estmulos aos quais so apresentados.
Devido ao seu modo de operao, mesmo quando um estmulo
desconhecido for apresentado, a rede neural classifica segundo
sua similaridade aos estmulos com os quais possui experincia.
Essa uma qualidade importante do comportamento dos seres
vivos e reconhecidamente interpretada indispensvel em sistemas
inteligentes;
Robustez a rudos: uma rede neural possui grande robustez a
rudos contaminando os estmulos de interesse, conseguindo
operar normalmente com desempenho satisfatrio. Essa
caracterstica muito til, pois na prtica, sensores
inevitavelmente esto associados a rudo.
-
12
Este captulo discorre de maneira breve a respeito dos principais
tpicos relacionados s redes neurais, visando oferecer uma viso da rea e alguns
fundamentos que facilitem a compreenso dos captulos seguintes. Textos mais
aprofundados no tema podem ser encontrados em obras de referncia como Haykin
(2001) e Rssel e Norvig (1995).
2.1.1 Modelo Bsico Biolgico
Uma rede neural constituda por neurnios (Figura 1), as unidades
bsicas de computao, que interconectados formam a rede propriamente dita. Os
neurnios operam recebendo os estmulos em suas sinapses (Figura 2), agregando
tais estmulos no soma e quando o valor resultante da agregao ultrapassa um
certo valor limiar, o neurnio emite (dispara) uma seqncia de pulsos eltricos,
gerados no cone do axnio. O sinal eltrico emitido flui pelo axnio at atingir sua
extremidade onde, atravs de trocas qumicas nas sinapses, transmitido aos
prximos neurnios. Este esquema relativamente simples repetido desde a
entrada da rede at sua sada, tal qual acontece em algumas redes biolgicas, por
exemplo, em redes cujas entradas correspondem aos campos sensorials (olhos,
ouvidos, etc.) e aos rgos motores (braos e msculos em geral) e/ou demais
rgos.
-
13
As sinapses (Figura 2) consistem de uma regio de intercmbio de
informao, mais precisamente, so os locais onde os neurnios recebem e emitem
neurotransmissores (substncias qumicas utilizadas para transmitir a informao)
convertendo, portanto, um sinal eltrico (disparo do neurnio) em qumico
(neurotransmissores) e vice-versa. Atravs de processos complexos as sinapses
podem alterar sua eficincia, tornado-se mais ou menos eficazes na propagao do
estmulo. Dessa forma, cada sinapse pode alterar a intensidade do estmulo que
recebe e passa para frente, intensificando-o ou suprimindo-o, sendo, portanto, a
unidade bsica de memria, onde a informao pode ser armazenada e manipulada.
Esta caracterstica das sinapses tida como a principal responsvel pela
capacidade de aprendizagem das redes neurais.
Uma rede neural pode ser descrita como possuindo uma arquitetura,
um mecanismo de processamento e sistema de aprendizado. A arquitetura de uma
rede neural descreve como esto conectados os neurnios. A forma pela qual o
sinal de entrada evolui ( processado) para um sinal de sada ser tratada como o
raciocnio2. J o processo responsvel por modificar as sinapses responsvel pela
aprendizagem. Operando de forma integrada e nas mais diversas configuraes
possveis, estes elementos so capazes de processar e produzir resultados
1 Adaptado de: http://research.haifa.ac.il/~imjaffe/mind/lecnotes/week7.html. junho 2003
2 A termo "raciocnio" segundo essa interpretao refere-se aos processos internos de uma rede neural, desencadeados por um estmulo, que evoluem at produzir uma resposta. De forma simplificado o processamento da informao.
http://research.haifa.ac.il/~imjaffe/mind/lecnotes/week7.html -
14
absolutamente no triviais. Os melhores exemplos so os prprios organismos
biolgicos.
*" -Neurotransmissores t m .4
f ; Neuroreceptores
Figura 2 - Esquema da sinapse.1
2.1.2 Fundamentos
Modelos Clssicos
O primeiro passo para o desenvolvimento da teoria de redes neurais
artificiais surgiu em 1943 com o trabalho de McCulloch e Pitts que propuseram uma
descrio matemtica para um neurnio (Haykin, 2001). A Figura 3 apresenta um
modelo atual de um neurnio artificial simples que embora mais recente retm as
linhas gerais originais.
1 Adaptado de: http://research.haifa.ac.il/~imiaffe/mind/lecnotes/week7.html. junho 2003.
http://research.haifa.ac.il/~imiaffe/mind/lecnotes/week7.html -
15
N
y = F ( J ] x w i ~wo) o ) 7=1
Neste modelo os sinais de entrada x; i = 1, ..., N; ao chegarem ao
neurnio so ponderados pelos pesos sinpticos w; i = 1, ..., N; x, we9 (conjunto
dos nmeros reais). Estes so, ento, enviados ao soma atravs dos dendritos onde
so adicionados. Em seguida uma transformao no linear F(.) (funo de ativao
do neurnio) age sobre o sinal resultante da agregao gerando o sinal de sada y
conforme a Equao 1. A funo F(.) por sua vez tipicamente qualquer funo do
tipo sigmide, por exemplo (Figura 4):
F(x) = 1
1 + ex p ( - / ? x )
F(x)
Figura 4 - Funo sigmide.
Outro importante avano para as RNAs foi a descrio feita por
Hebb em 1949 de um mecanismo fisiolgico de modificao sinptica. Sua regra de
aprendizagem prev que a eficincia de uma sinapse deva ser aumentada quando
h atividade em ambos os neurnios que a formam (neurnio pr e o ps-sinptico)
e que tal atividade tenha se propagado atravs dessa sinapse (Haykin, 2001). Em
sua forma mais simples, tal regra pode ser expressa matematicamente segundo a
Equao 2.
A wfl{T) = i1ai(T)ai{T) (2) onde: Aw;, ( r ) o ajuste da sinapse no tempo T; q a taxa de aprendizagem; a{T)
a atividade (sinal de sada) no neurnio pr-sinaptico j no tempo Te a^T) a
atividade do neurnio ps-sinptico / na iterao T.
-
16
Arquiteturas Bsicas
A arquitetura de uma rede neural consiste de um conjunto de
neurnios e suas conexes. H vrias combinaes possveis para estes elementos
o que por sua vez d origem a vrias topologas possveis. Entretanto, trs
configuraes so bsicas. A primeira delas a rede alimentada adiante de uma
nica camada (Figura 5).
Figura 5 - Arquitetura de rede neural de uma nica camada.
A segunda arquitetura, uma das mais difundidas, a multicamadas,
nas quais os neurnios so conectados por conjuntos de neurnios (camada). Neste
tipo de topologia, as camadas podem ser numeradas naturalmente desde a entrada
da rede (x) at sua sada (y), de tal forma que as conexes ocorrem somente entre
camadas sucessivas. A Figura 6 ilustra um exemplo de uma rede neural com este
tipo arquitetura, de fato, uma arquitetura de 4 camadas: Ci, C2, C3 e C4.
-
17
Figura 6 - Arquitetura de rede neural de quatro camadas.
Outro esquema de arquitetura bem conhecido o recorrente. So
consideradas recorrentes as redes que possuam conexes provenientes de um
neurnio que possam, direta (conexo vermelha) ou indiretamente (conexo azul),
influenciar a entrada do mesmo (Figura 7).
Figura 7 - Arquitetura de rede neural recorrente.
Em contraste com as redes de arquitetura em camadas, a sada da
rede recorrente evolui ao longo do tempo indefinidamente (a menos que a rede
esteja em um estado estvel) mesmo com ausncia de estmulos.
Estratgias de Aprendizagem
Para a concepo de redes neurais existem trs principais
estratgias de aprendizagem, a saber: no-supervisionada, supervisionada e por
-
18
reforo. Cada uma destas estratgias est associada a classes especficas de
sinais, por meio das quais a aprendizagem se processa: (a) apenas entradas, (b)
pares entrada-sada; e (c) entradas e sinais de avaliao (emitidos pelo ambiente),
respectivamente.
A estratgia de aprendizagem no-supervisionada diz respeito
somente a entradas, ou seja, o sistema aprendiz se auto-organiza de acordo com as
caractersticas das entradas. Desde que aplicaes de controle so associadas com
um mapeamento entrada-sada, a estratgia de aprendizagem no-supervisionada
no adequada, a menos que juntamente com esta seja considerada outra
estratgia.
A aprendizagem supervisionada depende do conhecimento do
problema, pois necessrio um conjunto de pares de entrada-sada, representantes
da soluo desejada para o problema, para que a aprendizagem se processe. Esta
estratgia pode ser adequada para diversas aplicaes, mas no associadas a
controle autnomo. Dificuldades surgem se o ambiente altera suas caractersticas,
tornando invlidos os pares de entrada-sada usados durante o perodo de
aprendizagem.
Na estratgia por reforo, entra em jogo um outro sinal (sinal de
reforo) apresentado pelo ambiente. O ambiente apresenta o sinal somente aps a
rede ter apresentado sua sada. Este sinal corresponde a uma avaliao da rede,
feita pelo ambiente, com respeito resposta apresentada e utilizado no processo
de aprendizagem da rede. Na verdade o que ocorre que as respostas (aes)
executadas pela rede modificam o ambiente, uma vez modificado o ambiente pode
conter estmulos reforadores, que se tornam disponveis para os elementos
sensoriais da rede. No existe, portanto, nenhum mdulo de avaliao ou qualquer
outro dispositivo similar que funciona como um avaliador. Vale lembrar que a
aprendizagem por reforo est diretamente ligada teoria de Seleo por
Conseqncias (Donahoe e Palmer, 1994), tema da Seo 2.2.
2.1.3 Modelos Clssicos de Redes Neurais Artificiais
Uma introduo sobre redes neurais no estaria completa sem
alguns exemplos de modelos de redes que aplicam os conceitos de arquitetura,
-
19
raciocnio e aprendizagem apresentados anteriormente. De fato, devido sua ampla
divulgao, tais exemplos so muitas vezes tidos como sinnimos dos prprios
conceitos que aplicam.
Perceptron de Mltiplas Camadas
Exemplo tpico de uma rede de vrias camadas, o perceptron de
mltiplas camadas (MLP, multilayer perceptron) tornou-se famoso principalmente
devido ao algoritmo de aprendizagem por correo de erro utilizado em seu
treinamento. Atravs de um processo conhecido por retropropagao de erro, o MLP
tornou-se um dos primeiros modelos de RNA a possuir um mtodo eficiente de
treinamento para redes de mltiplas camadas. O algoritmo de retropropagao
tornou-se famoso pela publicao de Rumelhart e McClelland (1985), Parallel
Distributed Processing. O algoritmo tambm foi responsvel por reacender o nimo
na pesquisa de RNA ao demonstrar que as redes de mltiplas camadas no eram
to limitadas como haviam sugerido Minsky e Papert (1969).
Utilizando uma estratgia supervisionada, o algoritmo de
retropropagao consiste basicamente de dois passos:
1. Passo para frente: um padro de entrada aplicado camada
sensorial da rede e a atividade da mesma se desenvolve
(propaga) a partir destes, produzindo ao final um vetor de
respostas na camada de sada;
2. Passo para trs: a sada computada pela rede comparada com a sada desejada (estratgia supervisionada) e um sinal de erro
produzido de acordo com a diferena entre os dois. O sinal de
erro ento utilizado para ajustar os pesos sinpticos da rede em
um processo de retropropagao (do final para o comeo da rede)
de forma a minimizar o erro, aproximando a sada computada da
sada desejada. O processo de retropropagao envolve o clculo
da parcela de contribuio de cada neurnio para gerar a sada
da rede, tornando possvel o ajuste (atravs de derivadas
parciais) de cada sinapse segundo sua contribuio especfica.
-
2 0
O perceptron de mltiplas camadas utilizado em conjunto com o
algoritmo de retropropagao comumente empregado, entre outras, em tarefas de
classificao de padres e aproximao de funes. No entanto o fato de utilizar
uma aprendizagem supervisionada consiste em um grave ponto negativo para sua
aplicao em sistemas autnomos, tendo em vista que seu treinamento seria
impossvel pelo fato do ambiente de operao no ser totalmente conhecido.
Embora os algoritmos de correo de erro (incluindo o de
retropropagao) aparentemente tenham sido originados de trabalhos matemticos,
sem qualquer inspirao biolgica, existe forte evidncia de que pelo menos uma
rea do crebro opere de forma semelhante. O cerebelo est envolvido no controle
de preciso de movimentos e responsvel, entre outros, por produzir movimentos
suaves e bem coordenados. Evidncias neurobiologies (Rolls e Treves, 1998)
(Rolls, 1999) demonstram que o cerebelo recebe realimentao neural dos sistemas
motores que controla e que utiliza esse sinal (na prtica um sinal de erro) para
corrigir eventuais imprecises.
Mapa de Kohonen
Quando se fala de sistemas auto-organizveis (aprendizagem no-
supervisionada) a referncia principal o modelo de Kohonen (Kohonen, 1982).
Dentre suas aplicaes, talvez aquela de maior destaque seja sua utilizao como
ferramenta para modelagem e compreenso de mapas corticais no crebro. Estes
resultados remetem aos objetivos iniciais que levaram ao desenvolvimento de toda a
teoria de redes neurais e justificam grande parte do entusiasmo em relao ao
modelo.
Tipicamente o Mapa de Kohonen consiste de uma grade uni ou
bidimensional de elementos computacionais (neurnios) cujos pesos sinpticos
esto, inicialmente, distribudos de forma aleatria sobre o espao de entrada.
Durante a fase de treinamento, so selecionadas ao acaso elementos do espao de
entrada e estes so ento apresentados rede. A partir de ento, para cada
apresentao ocorrem trs processos distintos:
1. Competio: os neurnios da grade competem entre si pelo
direito de responder ao sinal de entrada apresentado, atravs do
-
21
clculo de uma funo discriminante. 0 neurnio cujo vetor de
pesos for mais similar (ex: menor distncia Euclidiana) ao vetor de
entrada o vencedor. Este processo conhecido como o
"vencedor-leva-tudo" ou winner-take-all;
2. Cooperao: o neurnio vencedor estabelece uma vizinhana
topolgica dentro da qual os neurnios possuem o direito de
ajustar suas sinapses;
3. Adaptao Sinptica: os neurnios localizados dentro da
vizinhana estabelecida no passo 2 tm suas sinapses ajustadas
de modo a melhorar o valor de sua funo discriminante. Na
prtica, isso resulta em aproximar o vetor de pesos do vetor de
entrada. Tal ajuste ponderado segundo a proximidade do
neurnio em questo com o neurnio vencedor. Estes ajustes
melhoram a eficcia da resposta dos neurnios ao estmulo.
Ao longo de vrias iteraes este processo ir "posicionar" os pesos
sinpticos sobre o espao de entradas, de forma que os respectivos neurnios
correspondem a um domnio ou sub conjunto de caracterstica particular do espao
de entrada (Kohonen, 1992). Operando dessa forma, o Mapa de Kohonen realiza
uma reduo de dimensionalidade no espao de entrada, extraindo suas
caractersticas principais e assemelhando-se tanto em forma como em funo aos
primeiros estgios da maquinaria cerebral, responsvel pelo processamento
sensorial.
Embora o Mapa de Kohonen ilumine o caminho para a construo
de mquinas semelhantes ao crebro e conseqentemente ao desenvolvimento de
sistemas autnomos, ele consiste de apenas uma parte do sistema necessrio. A
reduo de dimensionalidade e extrao de caractersticas proporcionada pelo
modelo serve para tomar o problema da percepo algo tratvel. No entanto, ainda
faz-se necessrio um mecanismo que associe as caractersticas identificadas com
aes a serem tomadas.
-
2 2
Rede de Hopfield
A rede de Hopfield um sistema dinmico, ou seja, possui uma
representao na forma de um sistema de equaes diferenciais; sendo, portanto
um sistema em que entradas provocam a evoluo de estados internos e suas
sadas ao longo do tempo. Algumas caractersticas deste sistema atraem a ateno
dos pesquisadores, inclusive fazendo com que contribussem fortemente com a
revitalizao das redes neurais artificiais (Haykin, 2001) (Hopfield, 1982):
1. O sistema estvel no sentido de Liapunov (Haykin, 2001);
2. O sistema exibe plausibilidade biolgica, ou seja, o sistema de
equaes pode ser deduzido de modelos (simplificados) de
neurnios e de redes neurais biolgicas;
3. Existem procedimentos simples para configurao dos
parmetros do sistema, visando definir as caractersticas do seu
espao de fases. Estes procedimentos podem ser interpretados
como o processo de aprendizagem.
A rede neural de Hopfield exibe interessantes resultados em duas
aplicaes principais: na modelagem de uma memria associativa e na soluo de
problemas de otimizao. Os instigantes resultados alcanados nestas aplicaes
podem ser compreendidos a partir de suas caractersticas.
Considere a aplicao de modelagem de uma memria associativa.
O espao de fase do sistema representado pela rede de Hopfield apresenta diversas
bacias de atrao. Supondo que cada padro a ser registrado pela memria seja um
ponto crtico estvel no espao de fase, ento este seria alcanado sempre que o
estado inicial estivesse na bacia associada ao padro memorizado. Os
procedimentos de configurao de parmetros possuem o objetivo de fazer com que
os padres memorizados sejam exatamente os pontos crticos estveis do sistema.
A estabilidade da rede de Hopfield garantida por uma funo de
Liapunov associada. Problemas de otimizao so solucionados pela rede caso sua
funo de Liapunov possa descrever a funo a ser otimizada. Neste caso, iguala-se
a funo a ser otimizada funo de Liapunov associada rede. A manipulao
dessa igualdade resulta em um conjunto de pesos sinpticos para a rede neural. A
-
23
evoluo da rede neural, configurada com tais pesos, leva o sistema a estabilizar-se
em estados correspondentes soluo do problema de otimizao.
2.2 Aprendizagem e Comportamento Inteligente
Conforme visto, a aprendizagem de essencial importncia para a
autonomia. , portanto, desejvel que o modelo de aprendizagem empregado utilize
uma estratgia que seja coerente com as idias propostas.
De acordo com o modelo de Seleo pelas Conseqncias (Skinner,
1981) a aprendizagem ocorre a partir de variaes no repertrio de comportamentos
dos organismos. Os comportamentos produzidos por tais variaes desencadeiam
modificaes no ambiente, que atuam de forma a selecionar os mesmos. No caso de
produzir conseqncias favorveis ao organismo, o comportamento retido e passa
a fazer parte do repertrio de ao. Caso produza conseqncias desfavorveis, a
tendncia que o comportamento seja extinguido.
Visando reunir conceitos fundamentais relacionados ao modelo de
Seleo pela Conseqncias, o presente captulo dedica-se ao estudo de alguns de
seus aspectos segundo a viso da Anlise do Comportamento, rea de pesquisa da
psicologia. Segundo o ponto de vista dessa rea, aprendizagem e comportamento
so totalmente dependentes um do outro (Millenson, 1967) e, portanto, toma-se
possvel investigar a aprendizagem estudando-se o comportamento.
2.2.1 Reflexos e Reflexos Condicionados
O tipo de comportamento mais simples exibido por um ser vivo o
reflexo. Este tipo de comportamento definido filogeneticamente, ou seja, j nasce
com o organismo e resultado de uma histria de seleo pelo ambiente ao longo
de vrias geraes (seleo natural). Um reflexo uma contingncia simples,
envolvendo um estmulo especfico e uma resposta especfica. Diz-se que a
presena do estmulo elicia a resposta, ou seja, desencadeia um processo cuja
conseqncia a emisso da resposta. Exemplos desse tipo de comportamento
so: o reflexo patelar, o reflexo pupilar e o reflexo salivar.
-
24
Embora de extrema importncia para os seres vivos em seus
primeiros momentos de existncia, os reflexos so insuficientes para formar um
repertrio comportamental adequado para toda a sua vida. Eles so frutos de uma
histria de seleo gentica ao longo da evoluo e, por este motivo, limitam-se a
comportamentos essenciais relacionados manuteno da espcie e sobrevivncia
dos indivduos.
Para a formao de um repertrio comportamental adequado
diversidade ambiental, os seres vivos exibem outros mecanismos de aprendizagem
capazes de gerar comportamentos adicionais (alm do comportamento reflexo), ou
seja, capazes de construir um repertrio mais amplo e que permita ao ser vivo uma
melhor adaptao ao meio. Um destes mecanismos chamado condicionamento
respondente (ou Pavloviano, em homenagem ao pesquisador, Ivan Pavlov, que
primeiro descreveu cientificamente tal fenmeno (Millenson, 1967)).
Condicionamento neste contexto, e ao longo do restante do texto, se refere ao
mecanismo responsvel por formar o comportamento. A principal caracterstica
destes mecanismos a capacidade de estabelecer gradualmente associaes entre
estmulos e respostas, sendo um deles parte componente de um comportamento
reflexo. Tais associaes ocorrem quando existe uma correlao temporal adequada
entre a ocorrncia dos estmulos. Aps vrias ocorrncias de um estmulo neutro
(que inicialmente no est associado a nenhuma resposta) seguido do estmulo que
dispara o reflexo, o estmulo neutro torna-se capaz de produzir o comportamento
reflexo (passando a ser chamado de estmulo condicionado). Desta forma, a
resposta reflexa original, filogeneticamente especificada, passa a estar condicionada
a um novo estmulo, sendo esta nova relao estmulo-resposta conhecida como
reflexo condicionado (Millenson, 1967).
Um exemplo tpico de um condicionamento respondente a
associao que se estabelece, por exemplo, entre a viso de um alimento e o reflexo
salivar. O reflexo salivar filogeneticamente relacionado mucosa bucal, quando do
contato desta com o alimento. No entanto, comum a ocorrncia deste reflexo
mediante a simples viso do alimento, algo que conseqncia de um
comportamento respondente que se estabelece.
De forma semelhante aos reflexos, o condicionamento respondente
conseqncia de uma seleo. A diferena que neste caso a seleo realizada
ao longo da vida do organismo e se desenvolve atravs de ocorrncias repetidas e
-
25
correlacionadas (emparelhamento) de um estmulo neutro (que vir a se tornar o
estmulo condicionado) e o estmulo eliciador (responsvel pela ocorrncia do
comportamento reflexo incondicional).
O condicionamento respondente responsvel por fornecer aos
organismos uma forma de adaptar seu repertrio comportamental frente a um
ambiente dinmico, visivelmente dotando-os de capacidades autnomas. No
entanto, um comportamento respondente ainda est limitado s mesmas respostas
reflexas com as quais o indivduo nasceu e, conseqentemente, no produz novos
comportamentos complexos.
2.2.2 Comportamento Operante
Uma forma de aprendizagem adicional e relevante para a adaptao
dos organismos ao ambiente o chamado condicionamento operante. No caso de
comportamentos do tipo reflexo e reflexo condicionado, estmulos do ambiente
elidam respostas do organismo (respostas reflexas e respondentes,
respectivamente) sendo que as conseqncias dessas respostas no ambiente no
influem nas prprias respostas ou comportamentos correspondentes. J o
condicionamento operante se desenvolve por meio do efeito da ao do organismo
sobre o ambiente. Quando as conseqncias de um comportamento so favorveis
ao desempenho, torna-se maior a probabilidade de que este comportamento ocorra
novamente no futuro. O comportamento operante formado pela seleo das aes
do organismo para interagir com o ambiente. Essa seleo feita atravs da
apresentao de um reforador gerado pelo ambiente. Assim, sempre que o
organismo emitir a resposta desejada, o reforador associado apresentado. Esta
relao causai tende a selecionar a resposta em questo. Este processo
denominado de fortalecimento operante (Skinner, 1981) (Millenson, 1976) e
caracteriza-se pelo fato do comportamento especifico desejado ser gradualmente
selecionado, pela apresentao de um estmulo reforador, em meio a todo o
repertrio de respostas que o organismo apresenta.
Um exemplo de fortalecimento operante ocorre quando um animal
de estimao, ao realizar um truque especfico, recebe de seu dono uma
recompensa. Isso faz com que o animal tenda a repetir o truque no futuro.
-
2 6
Um aspecto que faz parte importante do mecanismo de
condicionamento operante reside na capacidade de gerar uma gama extremamente
grande de aes possveis. Segundo essa teoria, os sistemas biolgicos apresentam
um nvel operante caracterizado por um conjunto indiferenciado de respostas
aleatrias emitidas pelo organismo, sem qualquer expectativa sobre suas
conseqncias associadas (Millenson, 1967).
Exemplos de respostas em nvel operante so: o conjunto de
fonemas que recm nascidos so capazes de balbuciar; e os movimentos
indiferenciados de braos e pernas. a partir destas respostas simples, inicialmente
aleatrias, que comportamentos complexos so selecionados.
O condicionamento operante no s possibilita o aumento na
freqncia da resposta, mas tambm a sua reduo. Quando um comportamento
produz no ambiente conseqncias aversivas, a probabilidade de que ele ocorra
novamente reduzida (Skinner, 1981).
Assim, quando o mesmo animal de estimao entrar em casa e
mastigar algum objeto de seu dono, este comportamento provavelmente produzir
uma reao do dono desagradvel. Dessa maneira, a probabilidade de ocorrncia
do comportamento indesejado reduzida, sendo esse procedimento denominado de
punio. importante ressaltar que o termo reforo usado de forma abrangente
para designar tanto o processo de fortalecimento quanto o de reduo. Existe, no
entanto, uma terminologia mais especfica para identificar diferentes formas
(procedimentos) de fortalecer e enfraquecer comportamentos. Assim, tem-se o
reforo positivo e negativo e a punio positiva e negativa. A descrio destas
classes de procedimentos esta fora do escopo deste texto e pode ser encontrada em
Baum (1999).
Uma outra forma de reduzir a probabilidade de ocorrncia de
respostas operantes a extino. A extino ocorre quando um comportamento
anteriormente reforado passa a no produzir mais a conseqncia reforadora
(Skinner, 1981), (Millenson, 1967). Voltando ao exemplo do animal de estimao,
considere que este tenha aprendido a executar um truque sempre quando do retorno
de seu dono, sempre recebendo uma recompensa como reforo. No entanto,
considere que as recompensas passam a serem negadas. No existindo
recompensas, gradualmente o truque deixa de ser reproduzido.
-
2 7
Embora didaticamente estudados em separado, os comportamentos
reflexo, respondente e operante no esto sujeitos a esse tipo de separao. Assim
sendo, estes comportamentos ocorrem paralelamente e seus mecanismos so
interdependentes. Suponha, por exemplo, o comportamento de pressionar uma
alavanca, reforado com comida. Embora esse comportamento seja um operante,
inevitavelmente algum estmulo (e.g. o som da alavanca) torna-se presente no
momento que a cobaia obtiver o alimento, o que fornece as condies necessrias
para o condicionamento do tipo respondente.
Os processos de condicionamento respondente e operante atuam
em conjunto e em vrios nveis, produzindo comportamentos complexos. Assim, os
movimentos indiferenciados so gradualmente modificados pelas conseqncias,
passando a se caracterizar como aes coordenadas que permitem apanhar
objetos, caminhar etc. As vocalizaes so diferenciadas de tal forma que balbucios
acabam se tornando palavras e finalmente em um complexo repertrio verbal. As
palavras e aes em geral no ocorrem, no entanto, de forma aleatria. Elas tendem
a ter uma relao precisa com eventos antecedentes. Estes eventos so chamados
de estmulos discriminativos (SD). Estmulos deste tipo permitem ao ser vivo
distinguir a situao na qual a resposta adequada (R), produz o estmulo reforador
(S+).
Um esquema geral de como funciona o paradigma operante o
seguinte:
SD
Inicialmente os estmulos que tm funo de reforo ou de punio
so reduzidos em nmero e so conhecidos como reforadores primrios. Sabor
doce, calor (conforto trmico), dor, sabor amargo so exemplos de reforadores
primrios, isto , tm esta propriedade filogeneticamente determinada. Outros
eventos do ambiente podem adquirir as caractersticas de um reforador, ou seja, a
capacidade de fortalecer o comportamento por meio do emparelhamento com
reforadores primrios. Um estmulo deste tipo chamado de reforador adquirido
ou reforador condicional. exatamente neste ponto que os condicionamentos
respondente e operante esto relacionados, j que o condicionamento respondente
-
2 8
faz justamente com que se estabeleam relaes entre estmulos inicialmente
neutros e estmulos reforadores primrios. Talvez o melhor exemplo deste tipo de
estmulo seja o dinheiro que altamente reforador para muitos indivduos de
diversas sociedades, mas insignificante para outros, demonstrando que sua
capacidade reforadora adquirida e que isso depende da histria de vida de cada
indivduo.
Reforadores adquiridos esto envolvidos em um fenmeno
conhecido como encadeamento de resposta, em que as conseqncias de um
determinado comportamento exibido pelo organismo, so estmulos que indicam a
ocasio para um outro comportamento. Voltando ao exemplo anterior, trabalha-se
para se obter dinheiro apenas para que ento seja possvel, entre outras coisas,
comprar alimento. Dessa forma, estabelece-se uma cadeia de estmulos e respostas
que no caso do exemplo fornecido : trabalho=>dinheiro=>compras=>alimento.
Atuando desse modo, o fenmeno de encadeamento capaz de formar cadeias
comportamentais extremamente complexas e conseqentemente tem grande
participao na construo de repertrios comportamentais complexos.
Uma conseqncia importante do condicionamento operante o fato
deste aumentar a estereotipia da resposta, ou seja, o padro de respostas que
compe o comportamento tende a se tornar bem especfico e peculiar. Considere
que inicialmente o organismo emite um conjunto variado de respostas, ou seja,
esteja em nvel operante. medida que esta ou aquela resposta em particular for
reforada, a probabilidade de sua ocorrncia aumenta enquanto a probabilidade das
demais respostas, comparativamente, diminui. Alm disso, a resposta em questo
passa a ocorrer de uma maneira particularmente especfica. Por exemplo, considere
uma cobaia que aprende a pressionar uma alavanca para obter alimento.
Inicialmente ela pressiona a alavanca ao acaso e de diversas formas diferentes, isto
, com variaes na topografia da resposta. medida que o procedimento de
reforo realizado a cobaia passa a pressionar a alavanca com uma freqncia
cada vez maior e restringindo a topografia da mesma (passando a executar a ao
de forma bem especfica, por exemplo, apenas com a pata esquerda).
-
29
2.3 Reviso Bibliogrfica
2.3.1 Autonomia
Brevemente introduzido no primeiro captulo, o conceito de
autonomia fundamental para este trabalho e define a essncia do que se entende
por um sistema artificial inteligente. Entretanto a interpretao adotada de tal
conceito no consenso entre pesquisadores de Inteligncia Artificial, inclusive
existindo controvrsias sobre seu entendimento, motivo pelo qual tal tema
aprofundado nesta seo.
Um dicionrio, (Fernandes et al., 1991 ), traz o termo autnomo como
sendo algo regido por leis prprias, um sistema independente. No caso especfico de
robs autnomos, esse termo possui um significado preciso, como foi destacado por
Russell e Norvig (1995) e Figueiredo (1999). Segundo os autores, um rob
autnomo quando possui a capacidade de alterar seu comportamento, baseando-se
em suas prprias experincias e com o objetivo de aprimorar seu desempenho. Esta
definio perfeitamente aplicvel a sistemas autnomos em geral; e semelhante
abordagem de autores como Dorigo (1996), Krose (1995), bem como Steels
(1995).
Autonomia, assim definida, introduz diversos pontos importantes a
serem analisados. Uma das primeiras implicaes que para "alterar seu
comportamento, baseando-se em suas prprias experincias" necessrio que o
sistema possua capacidade de aprendizagem, ou seja, que ele seja capaz de alterar
seu comportamento (autogoverno) de forma a maximizar seu desempenho.
De outra forma, tambm comum na literatura a utilizao do termo
autnomo para referir-se a robs que simplesmente no precisam de auxlio externo,
sem que eles possuam necessariamente capacidades de aprendizagem. Robs que
no dependem de auxlio externo podem prescindir da capacidade de aprendizagem
em casos nos quais o ambiente e demais fatores permitam. Entretanto, neste caso,
suas aes seriam repetitivas e/ou totalmente programadas. Segundo o ponto de
vista adotado, tais robs so denominados de automticos (Steels, 1995).
-
3 0
2.3.2 Aprendizagem por Reforo e Inteligncia Artificial
As teorias sobre aprendizagem descritas so de grande interesse
para pesquisadores de Inteligncia Artificial, particularmente aquela sobre
comportamento operante. Com o objetivo de fornecer um panorama geral da
pesquisa de aprendizagem por reforo apresenta-se a seguir uma sntese da
questo, bem como de duas tcnicas bastante conhecidas da rea: Temporal
Differences e Q-Learning. Uma abordagem bem mais aprofundada pode ser
encontrada no trabalho de Sutton e Barto (Sutton e Barto, 1988).
De forma geral, o modelo formal visto na IA sobre a aprendizagem
por reforo consiste de:
1. Um nmero discreto de estados ambientais;
2. Um nmero discreto de aes possveis;
3. Um conjunto de sinais de reforo (e.g. {0,1});
4. Uma poltica de aes.
Assim, o objetivo do sistema encontrar uma poltica de aes que
mapeie as entradas do sistema (estados ambientais) para as sadas (aes
possveis) de modo a maximizar os sinais de reforo obtidos.
O problema da aprendizagem tambm pode ser visto como um
problema de previso. Deste ponto de vista, o sistema artificial inteligente toma uma
determinada ao com base em uma previso das conseqncias (reforo) dessa
ao. Para escolher a melhor ao necessrio algum tipo de avaliao das
possibilidades. Uma das tcnicas utilizada para realizar tal avaliao chamada
Temporal Differences (TD) (Sutton e Barto, 1988). Enquanto a maioria dos mtodos
avalia o desempenho do sistema com base na diferena do resultado previsto e
daquele realmente obtido, o mtodo TD atribui crdito s possibilidades a partir de
uma seqncia de previses sucessivas no tempo. A ttulo de ilustrao, tome-se o
exemplo extrado de (Sutton e Barto, 1988). Imagine uma previso do tempo feita
durante toda a semana sobre a possibilidade de chover no sbado. Enquanto a
maioria das tcnicas compara a previso feita em cada dia da semana com o
resultado observado no sbado, usando um valor obtido dessa comparao para
realizar a aprendizagem do sistema; o mtodo TD utiliza uma comparao
-
31
incremental em que a previso de cada dia influi na do dia seguinte. Assim, uma
previso de, por exemplo, 75% de probabilidade de chuva na tera, influi na
probabilidade de que chova na quarta.
A tcnica de TD fundamentalmente visa avaliar os custos de uma
determinada poltica de aes (Ribeiro, 2002). No entanto, ela no aborda a questo
da aprendizagem dessas polticas. Uma tcnica que aborda tal aprendizagem,
inclusive bastante utilizada no desenvolvimento de robs autnomos, a chamada
Q-learning. Basicamente a aprendizagem consiste de um mtodo iterativo que se
baseia em avaliar a ao (Q) segundo seu valor (Q(x,a)) e que definido como o
desconto obtido no custo ao adotar-se a ao "a", quando no estado "x", seguindo
uma poltica ideal de ao (Ribeiro, 2002).
Obviamente, esses assuntos so extensos e abord-los mais a
fundo foge ao escopo deste trabalho. O objetivo aqui somente oferecer uma breve
sntese sobre a viso da IA sobre comportamento operante e, com isso, denunciar
as relaes entre as teorias da Anlise do Comportamento e a da Inteligncia
Artificial.
2.3.3 Aprendizagem por Reforo e Redes Neurais Artificiais
Em se tratando de aprendizagem por reforo aplicada a redes
neurais, existem basicamente dois tipos de abordagens possveis (Haykin, 2001):
1. Clssica: a aprendizagem acontece atravs de sinais de
recompensas e punies, ou seja, segundo a teoria da Seleo
por Conseqncias;
2. Moderna: trata de uma tcnica matemtica que visa prever e avaliar as possveis aes para ento escolher qual delas a
melhor a ser tomada, enfatizando, portanto, o planejamento.
A Seo anterior (2.3.2) fornece um panorama geral da teoria e dos
trabalhos que utilizam tcnicas que se enquadram em uma abordagem moderna. Tal
reviso interessante para construir um embasamento terico que favorece a
discusso e possibilita a comparao de resultados. No entanto, o presente trabalho
-
32
segue uma linha diferente e suas propostas enquadram-se em um panorama
clssico.
Embora a teoria moderna, assim como a teoria clssica, tenha se
originado de estudos em psicologia, em certa altura sua formulao desviou-se,
deixando de lado sua inspirao, evoluindo em direo a solucionar problemas
especficos da IA. Por outro lado, pesquisas experimentais no contexto da
aprendizagem clssica demonstram que a aprendizagem por reforo ocorre em
organismos para os quais no existe evidncia alguma sugerindo o planejamento
das aes futuras (Brooks, 1990) (Brooks, 1991). Dessa forma impossibilita-se
explicar os comportamentos complexos exibidos por tais organismos com base na
teoria moderna. Pesquisas como essas levam a crer que a teoria original possui
potencial para produzir resultados concretos. Alm disso, sua utilizao favorece
todo o processo de aprendizagem medida em que torna mais intuitivo o processo
de interao do sistema com o ambiente.
Apresenta-se a seguir um modelo de rede neural que utiliza uma
abordagem clssica para sua aprendizagem por reforo, servindo de base para o
desenvolvimento das propostas do Captulo 3.
Fundamentos Neurobiolgicos
O modelo proposto neste trabalho baseia-se em conceitos
caractersticos derivados da neurobiologia. Devido natureza pouco comum desse
tema, pelo menos no mbito da Inteligncia Artificial, primeiramente estes conceitos
sero introduzidos para na seqncia ser apresentado o modelo.
Sabe-se que o crebro dos animais, incluindo o humano, possui
regies nas quais a atividade eltrica desencadeada quando estmulos especficos
so apresentados. Sabe-se tambm que tais estmulos so reforadores primrios e
que o circuito neural envolvido capaz de operar logo aps o nascimento sendo,
portanto, filogeneticamente determinado. Uma dessas regies, como destacam
autores como Donahoe e Rolls, a Ventral Tegmental Area (rea Ventral
Tegumentar ou VTA) (Figura 8) (Donahoe, Burgos e Palmer, 1993) (Rolls, 1999).
A partir da VTA, projetam-se, de forma distribuda, vrias
ramificaes em direo ao cortex motor e lbulos frontais, que so do tipo
dopaminrgico, isto , provocam a liberao de dopamina quando estimuladas. A
-
33
dopamina um neuromodulador capaz de fortalecer as sinapses entre neurnios pr
e ps-sinpticos, imediatamente aps a ativao da sinapse em questo. Estmulos
reforadores primrios possuem capacidade filogeneticamente pr-determinada de
iniciar atividade na VTA, assim a VTA capaz de mediar relaes entre aes
geradas no crtex motor.
Alm dos caminhos neurais filogeneticamente definidos, capazes de
iniciar atividade na regio VTA a partir de reforadores primrios, alguns dos
neurnios do crtex frontal associativo tambm so capazes de estimular a VTA pois
possuem axnios que se projetam, atravs do "mediai forebrain bundle" (MFB)
(Figura 8), at a prpria VTA. Tal estrutura possibilita o desenvolvimento de
reforadores adquiridos, tendo em vista que estmulos discriminativos, cuja
informao viaja at os lbulos frontais atravs dos cortices sensorials, podem
adquirir, por meio de realimentao pelo MFB, a capacidade de estimular o sistema
de fortalecimento dopaminrgico. Concluindo, a Figura 8 ilustra, portanto, um
mecanismo neural capaz de ajustar conexes sinpticas com base em reforadores
primrios, cujos estmulos viajam por caminhos neurais filogeneticamente
selecionados, e reforadores adquiridos, cujos estmulos viajam atravs da regio
conhecida como MFB.
-
3 4
Figura 8 - Estruturas neurais de seleo pelas conseqncias1.
interessante notar que grande parte da teoria da Seleo pelas
Conseqncias, desenvolvida a partir de observaes comportamentais feitas em
animais, possui uma correspondncia com estudos da neurobiologia. Tudo indica
que tais correspondncias tendem a aumentar conforme novas descobertas forem
sendo feitas em cada rea.
Modelo de Redes Neurais Artificiais
O modelo proposto por Donahoe, Burgos & Palmer (1993) busca
espelhar os mecanismos neurais que acabam de ser apresentados (no tpico
anterior), utilizando-se tcnicas de RNAs. O objetivo reproduzir fenmenos
comportamentais de que trata a teoria de Seleo por Conseqncias, fornecendo
ao mesmo tempo um modelo neural e uma explicao biolgica correspondente.
Neste modelo, a questo da aprendizagem tratada sob o ponto de
vista do princpio unificado do reforo, ou seja, considerando que os
condicionamentos respondente e operante so tratados em conjunto sob as mesmas
1 Adaptado de: Donahoe e Palmer (1994).
-
35
regras. Entretanto, as conseqncias de ambos os tipos de aprendizagem
permanecem distintas. Tal como enfatizado anteriormente, essa diviso entre
condicionamento respondente e operante mais uma questo didtica do que
prtica e a abordagem do modelo ajuda a consolidar tal proposta.
Uma simulao do sistema ilustrada na Figura 9. O exemplo
refere-se ao mecanismo de aprendizagem baseado no condicionamento operante,
tendo em vista que a apresentao do estmulo US (unconditioned stimulus ou
reforador primrio) dependente da emisso da resposta R. Considere que o
ambiente no tenha provocado qualquer reforo sobre o indivduo. Desta forma, as
respostas emitidas pelo mesmo ocorrem de forma equiprovvel, em conseqncia
do estado de nvel operante em que se encontra. Considere que a resposta R tenha
sido emitida a partir do estmulo S1. A resposta R altera o ambiente que, por sua
vez, gera um estmulo US. O estmulo US dispara a resposta UR (unconditioned
response ou resposta reflexa). A resposta UR por sua vez est ligada ao sistema
difusor de dopamina e, portanto, provoca um reforo de todas as conexes
sinpticas recentemente utilizadas. Assim, ao longo de vrias apresentaes de S1,
emisses de R e apresentaes de US, as conexes favorveis emisso de R e
UR, a partir do estmulo S1, so gradualmente estabelecidas. Quando as ligaes
estiverem fortemente estabelecidas, o estmulo S1 passa, seguramente, a evocar a
resposta R e tambm a resposta UR, passando a ser um estmulo discriminativo.
A resposta UR em particular, quando emitida a partir da estimulao
de S1 e no do estmulo US chamada de CR (conditioned response ou resposta
condicionada) e conseqncia do condicionamento respondente. Lembre-se de
que este condicionamento capaz de estabelecer relaes entre diversos estmulos
e respostas reflexas. Alm disso, a sada CR tambm representa um reforador
adquirido, pois torna possvel a ativao do mecanismo neural de reforo, por meio
de um estmulo qualquer que no o US.
-
3 6
Embora a Figura 9 ilustre o mecanismo de aprendizagem associado
ao condicionamento operante, o modelo tambm ilustra o mecanismo de
aprendizagem associado ao condicionamento respondente (fortalecimento das
ligaes com UR/CR). De fato, ambos ocorrem juntos. A Figura 10 mostra que a
1 Fonte: Donahoe e Palmer (1994).
-
3 7
diferena entre os dois tipos de condicionamento reside apenas na dependncia da
ocorrncia do estmulo US (linha tracejada). O desenvolvimento da rede
(fortalecimento das conexes) acontece de forma similar em ambos os casos.
Diferenas ocorrem apenas no caso de um condicionamento puramente
respondente, pois nenhuma conexo com a sada R estabelecida, uma vez que
sua importncia para a ocorrncia do estmulo US nula, ao passo que um
condicionamento operante sempre envolve um condicionamento respondente
associado.
Figura 10 - Contingncia respondente e operante1.
Note-se que a liberao de dopamina depende de um reforo do
ambiente em relao resposta emitida pelo organismo, sendo que tal reforo no
imediato. Assim, utiliza-se um trao de atividade que decai com o tempo e que
permite ao sistema registrar quais sinapses foram utilizadas na emisso do
comportamento e que, conseqentemente, devem ser fortalecidas quando o reforo
for aplicado, podendo ser modelado por meio de uma memria.
Os resultados apresentados por Donahoe, Burgos e Palmer (1993)
em simulaes foram bastante promissores ao reproduzirem diversos princpios
comportamentais, entre eles:
1. Aquisio de comportamento respondente;
1 Fonte: Donahoe e Palmer (1994).
-
3 8
2. Extino de comportamento respondente;
3. Aquisio de comportamento operante;
4. Extino de comportamento operante;
5. Reaquisio de comportamento operante;
Embora apresentem resultados interessantes, as simulaes
utilizaram estmulos e respostas bem simples, sendo que apenas um ou dois
neurnios ativos eram utilizados como estmulo e apenas um neurnio de sada era
considerado como resposta. As prprias dimenses da rede tambm so bem
reduzidas, pouco diferente, em nmero de neurnios, daquelas exibidas nas Figura
9 e Figura 10. Alm disso, apesar de descrever em teoria o funcionamento de
unidades inibitrias, nas simulaes tais unidades no foram empregadas, o que
obviamente deixa muitas questes em aberto com relao sua importncia e
possveis contribuies.
Assim embora demonstre o funcionamento de princpios
interessantes, a capacidade reduzida do modelo em termos do nmero de
contingncias que pode armazenar, bem como possveis contribuies de fatores
como inibio lateral, representam fatores limitantes para a implementao de
sistemas autnomos mais complexos. Para o desenvolvimento de tais sistemas, os
princpios que o modelo introduz devem primeiramente ser verificados em uma
arquitetura mais complexa e com maior capacidade de armazenamento.
-
3 MODELO DE REDE NEURAL ARTIFICIAL
Neste captulo, apresenta-se a rede neural cujo modelo a proposta
principal desse trabalho. O modelo baseado no j discutido trabalho de Donahoe,
Burgos e Palmer (1993) e Donahoe e Palmer (1994) cuja teoria foi apresentada no
Captulo 2 (Seo 2.2.3). O captulo divide-se em trs partes, apresentando
arquitetura, raciocnio e aprendizagem.
3.1 Arquitetura
A rede neural consiste de M camadas. Existe uma camada sensorial
ou camada de entrada (a camada inferior). Os neurnios sensores desta camada
podem pertencer a diferentes classes, definidas segundo a natureza do estmulo que
detectam. H uma camada de sada que define alteraes no estado do ambiente.
As demais camadas so internas. As camadas consistem de neurnios dispostos em
uma estrutura retangular NxN (Figura 11). Existe ainda uma estrutura adjunta,
formada por um conjunto de neurnios sensores denominados US. Os neurnios US
so conectados diretamente a neurnios da camada de sada, denominados
respondentes (na Figura 11 os neurnios US so representados por um nico
elemento). Os neurnios respondentes so aqueles que codificam a resposta
reflexa. Tal resposta, segundo a teoria do condicionamento, quando emitida devido
ao estmulo US definida como UR (unconditioned response). Caso ela seja emitida
devido s ligaes sinpticas que se formaram desde a camada de entrada at os
neurnios respondentes, passando pelo interior da rede, ento chamada de CR
(conditioned response).
-
4 0
Camada de Sada
Camadas Internas
Camada Sensorial
Figura 11 - Arquitetura de rede neural para quatro camadas.
Cada neurnio estabelece conexes sinpticas segundo trs classes
distintas, a saber: excitatrias inter-camadas, inibitrias e excitatrias intra-camadas.
Conforme as denominaes j deixam claro, as classes definem sinapses de
caractersticas especficas. Para um dado neurnio (no pertencente a camada de
entrada) as sinapses excitatrias inter-camadas ocorrem com neurnios pr-
sinpticos da camada anterior, situados em uma vizinhana cujo centro corresponde
ao neurnio de posio relativa idntica ao neurnio ps-sinptico. Assim, as
conexes excitatrias inter-camadas, a partir de neurnios pr-sinpticos para um
nico neurnio ps-sinptico, definem uma figura espacial em forma de cone, tal
como ilustra a Figura 11. A distribuio espacial de neurnios pr-sinpticos que
estabelecem tais conexes segue uma distribuio de probabilidades Gaussiana
(Figura 12). Por meio das sinapses excitatrias inter-camadas, os sinais fluem de
camada em camada. As sinapses inibitrias esto presentes em conexes
estabelecidas entre neurnios da mesma camada de forma que a distncia ao
neurnio ps-sinptico maior que uma distncia mnima (vizinhana distante). Sua
funo primordial regular a atividade dos neurnios, impedindo que ocorra uma
exploso de atividade na rede, tendo tambm papel crucial na formao de grupos
neurais. As sinapses excitatrias intra-camadas existem em conexes entre
neurnios da mesma camada de forma que a distncia ao neurnio ps-sinptico
menor que uma distncia mxima (vizinhana prxima). Tais sina