d - haydu, nicholas bender.pdf

103
NÍCHOLAS BENDER HAYDU UMA ABORDAGEM BASEADA EM SELEÇÃO PELAS CONSEQÜÊNCIAS PARA APRENDIZAGEM DE REDES NEURAIS MULTI-CAMADAS VOLTADAS À CONCEPÇÃO DE SISTEMAS AUTÔNOMOS INTELIGENTES Dissertação apresentada como requisito parcial à obtenção do grau de Mestre em Informática pelo Curso de Pós-Graduação em Informática, do Setor de Ciências Exatas da Universidade Federal do Paraná, em convênio com o Departamento de Informática da Universidade Estadual de Maringá. Orientador: Prof. Dr. Maurício F. Figueiredo CURITIBA 2003

Upload: aline-porfiro

Post on 26-Sep-2015

251 views

Category:

Documents


3 download

TRANSCRIPT

  • NCHOLAS BENDER HAYDU

    UMA ABORDAGEM BASEADA EM SELEO PELAS CONSEQNCIAS PARA APRENDIZAGEM DE REDES NEURAIS MULTI-CAMADAS

    VOLTADAS CONCEPO DE SISTEMAS AUTNOMOS INTELIGENTES

    Dissertao apresentada como requisito parcial obteno do grau de Mestre em Informtica pelo Curso de Ps-Graduao em Informtica, do Setor de Cincias Exatas da Universidade Federal do Paran, em convnio com o Departamento de Informtica da Universidade Estadual de Maring.

    Orientador: Prof. Dr. Maurcio F. Figueiredo

    CURITIBA

    2003

  • UFPR Ministrio da Educao Universidade Federal do Paran Mestrado em Informtica

    PARECER

    Ns, abaixo assinados, membros da Banca Examinadora da defesa de Dissertao de Mestrado em Informtica, da aluno Nicholas Bender Haydu, avaliamos o trabalho intitulado, "L/ma Abordagem Baseada em Seleo pelas Conseqncias para Aprendizagem de Redes Neurais Multi-Camadas Voltadas Concepo de Sistemas Autnomos Inteligentes ", cuja defesa foi realizada no dia 15 de agosto de 2003, s dez e trinta horas, no Auditrio da Informtica da Universidade Federal do Paran. Aps a avaliao, decidimos pela aprovao do candidato. (Convnio nmero 279-00/UFPR de Ps-Graduao entre a UFPR e a UEM - rf. UEM nmero 1331/2000-UEM).

    Curitiba, 15 de agosto de 2003.

    Prof. Dr. Maurcio Fernandes Figueiredo DIN/UEM (Orientador)

    Prof. Dr. Fernando Jos Von Zuben FEED/UNICAMP - Membro Externo

    Prof. Dra ad Ramirez Pozo DINF/UFPR

  • Ao esprito cientfico e ao desejo homem por saber mais.

  • AGRADECIMENTOS

    IV

    Ao meu orientador, Prof. Dr. Maurcio Fernandes Figueiredo, por ter

    me guiado ao longo de mais essa etapa com dedicao, conhecimento e,

    principalmente, imaginao.

    minha famlia pelo apoio, incentivo e conversas inteligentes. Em

    especial para o meu pai, com sua imaginao frtil, e para minha me, pela ajuda

    terica, dicas e conselhos extremamente teis.

    Aos professores do programa de Ps-Graduao, em especial ao

    Prof. Dr. Lus Augusto Consularo, pela ajuda e tambm pela versatilidade em

    conversar sobre diversos assuntos interessantes.

    Aos meus amigos e colegas pela amizade, companheirismo e

    distrao nos momentos de lazer.

    Ao resto do mundo por no interferir de forma decisiva.

  • V

    LISTA DE FIGURAS

    Figura 1 - Esquema de neurnios e suas ligaes 13 Figura 2 - Esquema da sinapse 14 Figura 3 - Modelo bsico de neurnio artificial 14 Figura 4 - Funo sigmide 15 Figura 5 - Arquitetura de rede neural de urna nica carnada 16 Figura 6 - Arquitetura de rede neural de quatro camadas 17 Figura 7 - Arquitetura de rede neural recorrente 17 Figura 8 - Estruturas neurais de seleo pelas conseqncias 34 Figura 9 - Exemplo de condicionamento operante na rede de seleo pelas

    conseqncias 36 Figura 10 - Contingncia respondente e operante 37 Figura 11 - Arquitetura de rede neural para quatro camadas 40 Figura 12 - Conexes sinpticas tpicas e respectivas distribuies 41 Figura 13 - Representao da rede 50 Figura 14 - Propagao da atividade neural por conexes excitatrias inter-camadas

    (com cone de alcance mnimo) 53 Figura 15 - Propagao da atividade neural por conexes excitatrias inter-camadas

    (sem cone de alcance mnimo) 53 Figura 16 - Atividade neural com conexes laterais inibitrias 54 Figura 17 - Atividade neural com conexes laterais inibitrias e excitao

    predominante 55 Figura 18 - Atividade inicial ainda sem grupos neurais definidos 57 Figura 19 - Atividade intermediria com surgimento dos grupos neurais 57 Figura 20 - Atividade final com grupos neurais formados 58 Figura 21 - Atividade neural do estmulo CS anterior ao treinamento respondente. 61 Figura 22 - Atividade neural do estmulo US anterior ao treinamento respondente. 61 Figura 23 - Resposta do estmulo CS aps treinamento respondente 61 Figura 24 - Atividade neural anterior extino do comportamento respondente. .. 63 Figura 25 - Atividade neural aps extino do comportamento respondente 63 Figura 26 - Atividade neural anterior ao treinamento operante 64 Figura 27 - Atividade neural aps treinamento operante 64 Figura 28 - Atividade neural aps treinamento operante para um estmulo no

    reforado 65 Figura 29 - Atividade neural anterior ao treinamento operante (exemplo 2) 66 Figura 30 - Atividade neural aps treinamento operante (exemplo 2) 66 Figura 31 - Atividade neural anterior extino do comportamento operante 67 Figura 32 - Atividade neural aps extino do comportamento operante 67 Figura 33 - Atividade neural anterior ao treinamento operante (exemplo de

    generalizao) 68 Figura 34 - Atividade neural aps treinamento operante com estmulo original 68 Figura 35 - Atividade neural aps treinamento operante com degradao do

    estmulo (exemplo 1 ) 68 Figura 36 - Atividade neural aps treinamento operante com degradao do

    estmulo (exemplo 2) 69 Figura 37 - Atividade neural aps treinamento operante com degradao do

    estmulo (exemplo 3) 69 Figura 38 - Atividade neural anterior ao treinamento de controle da intensidade da

    resposta (estmulo 1 ) 70

  • vii

    Figura 39 - Atividade neural anterior ao treinamento de controle da intensidade da resposta (estmulo 2) 70

    Figura 40 - Atividade neural aps treinamento de controle da intensidade da resposta (estmulo 1 ) 71

    Figura 41 - Atividade neural aps treinamento de controle da intensidade da resposta (estmulo 2) 71

    Figura 42 - Atividade neural anterior ao treinamento de controle de mltiplas respostas (estmulo 1 - resposta 1 ) 72

    Figura 43 - Atividade neural anterior ao treinamento de controle de mltiplas respostas (estmulo 2 - resposta 2) 72

    Figura 44 - Atividade neural aps treinamento de controle de mltiplas respostas (estmulo 1 - resposta 1 ) 73

    Figura 45 - Atividade neural aps treinamento de controle de mltiplas respostas (estmulo 2 - resposta 2) 73

    Figura 46 - Atividade neural anterior ao treinamento de fuso sensorial (estmulo discriminativo composto) 75

    Figura 47 - Atividade neural anterior ao treinamento de fuso sensorial (componente 1 ) 75

    Figura 48 - Atividade neural anterior ao treinamento de fuso sensorial (componente 2 ) 75

    Figura 49 - Atividade neural aps treinamento de fuso sensorial (componente 1). 76 Figura 50 - Atividade neural aps treinamento de fuso sensorial (componente 2). 76 Figura 51 - Atividade neural aps treinamento de fuso sensorial (ocorrncia

    conjunta dos estmulo 1 e 2) 76 Figura 52 - Atividade neural anterior ao treinamento operante em rede com camadas

    20x20 78 Figura 53 - Atividade neural aps treinamento operante em rede com camadas

    20x20 78 Figura 54 - Grfico de evoluo de um treinamento operante tpico 79 Figura 56 - Tela do simulador para ajuste de parmetros da rede neural 92 Figura 57 - Tela do simulador para configurar o ambiente de treinamento 93

  • vii

    SUMRIO

    1 INTRODUO 1

    1.1 Motivao 1

    1.2 Objetivos e Contribuies 7

    1.3 Organizao do Trabalho 9

    2 FUNDAMENTAO TERICA 10

    2.1 Redes Neurais Artificiais 10

    2.1.1 Modelo Bsico Biolgico 12

    2.1.2 Fundamentos 14

    2.1.3 Modelos Clssicos de Redes Neurais Artificiais 18

    2.2 Aprendizagem e Comportamento Inteligente 23

    2.2.1 Reflexos e Reflexos Condicionados 23

    2.2.2 Comportamento Operante 25

    2.3 Reviso Bibliogrfica 29

    2.3.1 Autonomia 29

    2.3.2 Aprendizagem por Reforo e Inteligncia Artificial 30

    2.3.3 Aprendizagem por Reforo e Redes Neurais Artificiais 31

    3 MODELO DE REDE NEURAL ARTIFICIAL 39

    3.1 Arquitetura 39

    3.2 Raciocnio 42

    3.3 Aprendizagem 45

    4 RESULTADOS 47

    4.1 Experimentos Bsicos 51

    4.1.1 Atividade Neural sem Conexes Laterais 52

  • vin

    4.1.2 Atividade Neural com Conexes Laterais 54

    4.1.3 Formao Dinmica de Grupos Neurais 56

    4.1.4 Consideraes Sobre a Evoluo da Atividade Neural 58

    4.2 Experimentos de Aprendizagem 59

    4.2.1 Experimento 1 - Convergncia da Aprendizagem em Treinamento

    Respondente 60

    4.2.2 Experimento 2 - Extino de Comportamento Respondente 62

    4.2.3 Experimento 3 - Convergncia da Aprendizagem em Treinamento Operante 63

    4.2.4 Experimento 4 - Extino de Comportamento Operante 66

    4.2.5 Experimento 5 - Capacidade de Generalizao 67

    4.2.6 Experimento 6 - Controle de Intensidade da Resposta 69

    4.2.7 Experimento 7 - Controle de Mltiplas Respostas 71

    4.2.8 Experimento 8 - Fuso de Sensores 73

    4.2.9 Experimento 9 -Treinamento Operante em uma Rede com Camadas de

    Dimenso 20x20 77

    4.2.10 Experimento 10 - Anlise da Aprendizagem Operante 78

    5 CONCLUSES 80

    REFERNCIAS BIBLIOGRFICAS 86

    ANEXO 89

    Anexo I - Ferramenta de Simulao 90

  • IX

    HAYDU, Nicholas Bender. Uma Abordagem Baseada em Seleo pelas Conseqncias para Aprendizagem de Redes Neurais Multi-Camadas Voltadas Concepo de Sistemas Autnomos Inteligentes. 2003. Dissertao (Mestrado em Informtica) - Universidade Federal do Paran, Curitiba.

    RESUMO

    Um modelo de rede neural artificial proposto. A rede neural possui mltiplas camadas. Cada camada da rede neural formada por uma grade quadrangular de neurnios (em um espao toroidal). As conexes sinpticas de cada neurnio abrangem trs tipos: excitatrias inter-camadas, laterais inibitrias intra-camada e laterais excitatrias intra-camada. A disposio espacial das conexes do tipo Gaussiana e especfica para cada tipo de sinapse. Cada neurnio estabelece um nmero restrito de conexes. O modelo de arquitetura contribui para eliminar restries apresentadas por arquiteturas em que entradas e conexes so distribudas a todos os neurnios de cada camada. O modelo do neurnio apresenta dinmica interna, proporcionando uma memria da atividade recente e assumindo papel importante na aprendizagem. A aprendizagem baseada na seleo pelas conseqncias, conforme princpios de aprendizagem por reforo. Em particular, a de aprendizagem por reforo utilizada do tipo clssico. Os experimentos definidos para investigao e confirmao das capacidades da rede neural consideram um ambiente simulado, condizente com o modelo de Seleo pelas Conseqncias. Os resultados obtidos em simulaes mostram que o modelo capaz de reproduzir diversos fenmenos comportamentais, que so: aquisio de comportamento respondente, extino de comportamento respondente, aquisio de comportamento operante, extino de comportamento operante, capacidade de generalizao de estmulos, habilidade no controle da intensidade das respostas, capacidade de controle de mltiplas respostas e fuso de sensores. Experimentos tambm ilustram o importante papel das conexes laterais inibitrias e das conexes laterais excitatrias na modelagem da formao de grupos neurais em nvel operante. Entende-se que a capacidade de aprendizagem alcanada pela rede neural proposta torna-a vivel para a concepo de sistemas autnomos inteligentes com potencialidades superiores queles divulgados na literatura especializada.

  • X

    HAYDU, Nicholas Bender. A Selection by Consequences Approach for Learning in Multi-Layer Neural Networks Directed to the Conception of Intelligent Autonomous Systems. 2003. Dissertao (Mestrado em Informtica) -Universidade Federal do Paran, Curitiba.

    ABSTRACT

    A model of an artificial neural network is proposed. The neural network has multiple layers. Each network layer is formed by a quadrangular grid of neurons (on a toroidal space). The synaptic connections that every neuron has are defined between tree types: inter-layer excitatory, lateral intra-layer inhibitory and lateral intra-layer excitatory. The spatial disposition of connections is of a Gaussian type and specific for each type of synapse. Each neuron has a limited number of connections. The model contributes to eliminate restrictions presented by other architectures in witch connections are distributed to all of the neurons of each layer. The neuron model presents an internal dynamic, working as a memory of its recent activity and having important role in the learning process. The learning procedure is based on the selection by consequences according to reinforcement learning principles. Particularly the reinforcement learning approach used is of the classical type. The experiments defined for the investigation and confirmation of the capacities of the neural network consider a simulated environment that works according to the Selection by Consequences model. The simulation results show that the model is capable of reproducing several behavioral phenomena that are: acquisition of respondent behavior, extinction of respondent behavior, acquisition of operant behavior, extinction of operant behavior, stimulus generalization capacity, ability to control the response intensity, capacity to control multiple responses and sensor fusion. Besides that, the experiments also illustrate the important role of the lateral inhibitory and lateral excitatory connections for a correct shaping of operant level responses and neural groups. It is understood that the learning capacities that the proposed neural network exhibits make it viable for the conception of intelligent autonomous systems with potentialities superior to those already presented in the specialized literature.

  • 1 INTRODUO

    1.1 Motivao

    Autonomia

    Os progressos no campo da Inteligncia Artificial vm demarcando

    grandes ciclos, caso o ponto de vista adotado leve em conta as metas, expectativas

    e resultados alcanados.

    Entende-se que um primeiro ciclo estaria associado aos esforos de

    pesquisa motivados pela possibilidade de reproduzir capacidades inteligentes

    humanas sofisticadas em mquinas computacionais. Aps se constatar as imensas

    disparidades presentes entre as potencialidades das mquinas desenvolvidas e das

    anunciadas a partir das expectativas iniciais, este ciclo se extingue. Os resultados da

    pesquisa neste ciclo podem no ter sido satisfatrios, entretanto serviram para gerar

    uma noo mais realista das dificuldades gigantes que seriam enfrentadas para

    reproduzir um sistema artificial inteligente imaginado.

    As frustraes segundo a perspectiva mais ficcionista no impediu

    que os progressos e resultados alcanados merecessem o reconhecimento por todo

    o esforo despendido. As potencialidades dos sistemas inteligentes propostos

    poderiam no satisfazer as metas iniciais, mas se tinham tornado suficientes para

    produzirem resultados relevantes em aplicaes prticas. Esta nova leitura para o

    papel dos resultados alcanados pela pesquisa em Inteligncia Artificial

    caracterizaria um segundo ciclo. A pesquisa no campo da Inteligncia Artificial se

    consolidou e foi reconhecida como extremamente relevante para o progresso

    tecnolgico, invadindo reas que antes se mostravam avessas, e.g., controle

    automtico. Neste ciclo os sistemas inteligentes passam a assumir uma importncia

    crescente junto ao segmento tecnolgico. O segundo ciclo desencadeou avanos

    tericos notveis e talvez seja aceitvel admitir que, enquanto o primeiro ciclo esteve

    motivado por expectativas calcadas na fico, o segundo foi fortemente guiado pelas

    demandas presentes no segmento tecnolgico.

    possvel que a pesquisa no campo da Inteligncia Artificial esteja

    iniciando um terceiro ciclo. As demandas tecnolgicas continuam exercendo

  • 2

    presses constantes no que diz respeito s demandas cada vez mais sofisticadas e

    exigentes em desempenho. Entretanto tambm se nota uma forte preocupao dos

    pesquisadores em tornar os sistemas inteligentes artificiais mais semelhantes aos

    sistemas biolgicos sofisticadamente inteligentes. Observa-se que, em vista das

    potencialidades demonstradas pelos sistemas biolgicos e artificiais, as

    semelhanas que podem ser admitidas so pouco significativas. Desta forma,

    argumenta-se que a insatisfao presente seja motivo suficiente para incrementar

    pesquisas e reduzir as diferenas entre estes dois sistemas.

    Assim, atualmente, de um lado observa-se a consolidao e origem

    de teorias ousadas, tais como: sistemas imunolgicos artificiais (de Castro e Timmis,

    2002), sistemas de inteligncia coletiva (Bonabeau, Dorigo e Theraulaz, 1999),

    sistemas classificadores (Lanzi, 2000), e da evoluo de teorias mais tradicionais

    relacionadas s redes neurais, sistemas nebulosos, computao evolutiva,

    aprendizagem artificial (Vapnik, 1999)(Sutton e Barto, 1998), sistemas simblicos

    inteligentes bem representados pelos agentes inteligentes (Russel e Norvig, 1995).

    De outro lado ressurgem as reflexes em termos das limitaes dos

    atuais sistemas inteligentes. As crticas podem ser resumidas no problema do "a

    priori", abordado por vrios autores (Brooks, 1990)(Brooks, 1991)(Figueiredo, 1999)

    eem especial porVerschure (Verschure, 1993)(Verschure, 1996).

    O problema do "a priori" diz respeito ao fato de um sistema simblico

    requerer uma representao do mundo em termos de smbolos discretos para

    operar, que s pode ser fornecida pelos projetistas do sistema. Mesmo que o

    sistema possua a capacidade de aprender por meio da incorporao de novos

    smbolos e regras sua base de conhecimentos, necessrio um conjunto bsico

    inicial que permita a operao do sistema. Esse conjunto inicial definido, portanto,

    "a priori" e requer dos projetistas a definio da essncia do sistema. A partir deste

    problema principal Vershure reuniu quatro outros tambm de grande importncia,

    que sero vistos resumidamente a seguir:

    1. Problema da Falta de Fundamento Simblico (Symbol Grounding Problem): est relacionado questo do valor verdade

    de uma proposio ser derivado de outras proposies, criando

    uma teia de relaes que, no entanto, no possuem base com

    relao ao mundo real supostamente descrito pelo sistema;

  • J

    2. Problema do Enquadramento (Frame Problem): aborda a

    questo do tempo necessrio para a atualizao do modelo lgico

    que cresceria exponencialmente e logo tornaria impossvel a

    atuao do sistema, ficando este confinado a rotinas de

    atualizao;

    3. Problemas da Viso de Referncia (Frame-of-reference

    Problem): trata do fator subjetivo quando da escolha de um

    modelo lgico para a representao de um domnio. Cada pessoa

    pode escolher um modelo lgico e uma forma diferente de

    relacionar os smbolos do sistema lgico com o problema que se

    deseja abordar. No entanto, nada garante que essa escolha seja

    a melhor;

    4. Problema da Contextualizao (Situatedness Problem):

    sistemas inteligentes deveriam ser contextualizados, isto ,

    deveriam levar em considerao apenas fatores de importncia

    imediata, caso contrrio sofreriam do problema do

    enquadramento. Entretanto os sistemas existentes abordam o

    conhecimento de uma maneira global e que ainda dependente de

    interpretao humana.

    Uma interpretao simplificada (no entanto poderosa) do problema

    do "a priori" bem como dos problemas subseqentes pode ser feita da seguinte

    forma: um sistema simblico capaz de exibir inteligncia necessita que em sua base

    existam smbolos representando verdades absolutas e atmicas sobre a inteligncia,

    a partir dos quais pudessem ser deduzidas todas as implicaes necessrias para

    um sistema inteligente. Como muito bem abordado por Penrose (1997), tais

    verdades absolutas provavelmente escondem-se em locais como o mundo

    subatmico entre outros. Assim sendo, extra-las seria como extrair os tomos de

    conhecimentos necessrios para deduzir todo o universo.

    Tendo em vista as dificuldades existentes no contexto apresentado

    possvel justificar a crescente ateno voltada para o conceito de autonomia no

    contexto de sistemas artificiais inteligentes.

    Autonomia e inteligncia tm sido considerados conceitos

    fortemente relacionados (Steels, 1995). Prope-se que a autonomia seja uma

  • 4

    capacidade que se manifeste segundo uma escala contnua, proporcionando, ento,

    uma medida para o grau de inteligncia de um sistema artificial (Figueiredo, 1999).

    Alm disso, sistemas artificiais, nos quais a ausncia de autonomia tenha sido

    constatada, tornam-se passveis de crticas severas no que tange a sua natureza

    inteligente (Vershure, 1996).

    Por sua vez, a autonomia vinculada capacidade de

    aprendizagem, particularmente quando a aquisio de conhecimento ocorre a partir

    da interao com o ambiente (Steels, 1995) (Figueiredo, 1997) (Figueiredo, 1999)

    (Russell&Norvig, 1995). Um sistema autnomo capaz de aprender atravs da

    interao com o ambiente, recebendo estmulos e gerando comportamentos

    (respostas) que alteram este ambiente, aprimorando suas capacidades e adaptando-

    se s caractersticas do mesmo. Tanto a aprendizagem quanto os comportamentos

    e ou respostas geradas podem ser independentes de auxlios externos.

    Assim, dentre as diversas possibilidades de aplicao de sistemas

    inteligentes, a presena de autonomia torna-se particularmente interessante

    naquelas em que o sistema atua em ambientes desconhecidos, e.g., navegao

    autnoma de robs. Tais reas de aplicao tm sido intensamente investigadas,

    no s devido ao claro interesse tecnolgico, mas tambm por proporcionar um

    ambiente profcuo para a pesquisa dos sistemas autnomos inteligentes.

    Redes Neurais

    entre os sistemas biolgicos que exclusivamente se encontram os

    mais representativos sistemas autnomos inteligentes. Reconhece-se que o poder

    de autonomia de tais sistemas advm preponderantemente de seus sistemas

    nervosos. Por esta razo, alguns pesquisadores defendem que a melhor estratgia

    para a concepo de tais sistemas inteligentes concentrar esforos na modelagem

    dos sistemas biolgicos (Edelman, 1987).

    Coerentemente com esta argumentao, as redes neurais artificiais

    so adotadas neste trabalho, dentre as diversas tcnicas presentes na rea de

    Inteligncia Artificial, visto que so inspiradas em seus pares biolgicos.

    Particularmente, o presente trabalho adota o princpio da mxima plausibilidade

    biolgica para as propostas apresentadas, ou seja, as trajetrias definidas durante o

  • 5

    desenvolvimento do trabalho esto associadas s escolhas que favorecessem o

    modelo de RNA que melhor espelhasse o modelo biolgico.

    As redes neurais artificiais (RNAs) geram de forma qualitativa muitas

    das caractersticas de seus pares biolgicos, alm da capacidade de aprendizagem,

    essencial para a autonomia: tolerncia a falhas, generalizao, memria acessada

    por contedo e robustez ao rudo.

    Embora os modelos de redes neurais existentes tm demonstrado

    tais caractersticas em variadas reas de aplicao, muitas deficincias gerais

    podem ser apontadas, dentre elas: limitaes de capacidade da memria associativa

    e recuperao de seu contedo, restries quanto convergncia em aprendizagem

    supervisionada, limitaes quanto aprendizagem em ambientes desconhecidos.

    Esta ltima deficincia est intimamente relacionada ao foco de estudo do presente

    trabalho, pois reduzindo-a possvel alcanar potencialidades satisfatrias para a

    concepo de sistemas autnomos.

    Aprendizagem

    Sendo a aprendizagem algo fundamental para se alcanar a

    autonomia, desejvel que o modelo possua uma estratgia para realizar tal tarefa,

    que seja coerente com as idias propostas.

    Nesse contexto utiliza-se o modelo da Seleo pelas Conseqncias

    (Skinner, 1981) como base para um princpio de aprendizagem. A aprendizagem

    segundo essa viso ocorre a partir de variaes no repertrio de comportamentos

    dos organismos, as quais por sua vez so selecionados pelo ambiente com base

    nas conseqncias que produzem. No caso de produzir conseqncias favorveis

    ao organismo, o comportamento selecionado e passa a fazer parte de seu

    repertrio. Caso produza conseqncias desfavorveis a tendncia que o

    comportamento seja extinguido, deixando de existir. A variabilidade de

    comportamentos e a forma especfica como estes so selecionados ocorre segundo

    trs estratgias bsicas, produzindo trs tipos de comportamentos: comportamento

    reflexo, comportamento respondente e comportamento operante.

    A primeira estratgia aborda os comportamentos do tipo reflexo que

    so filogeneticamente selecionados, ou seja, segundo sua capacidade ou no de

    permitir ao organismo transmitir seus genes com sucesso. razovel assumir que a

  • 6

    variabilidade para este tipo de comportamento introduzida por fatores genticos

    como mutaes e cruzamentos.

    O segundo tipo de comportamento conhecido pelo termo

    respondente e trata de associar estmulos quaisquer (S), presentes no ambiente, aos

    comportamentos do tipo reflexo. Para tanto, o processo de seleo depende da

    existncia de uma correlao temporal entre estmulos S com os estmulos

    responsveis por eliciar o comportamento reflexo. A seleo mediada por um

    estmulo reforador que normalmente o prprio eliciador (estmulo que inicia) do

    reflexo. Note que comportamentos do tipo reflexo so selecionados segundo a

    histria de vida do organismo e no mais ao longo de inmeras geraes.

    O ltimo tipo de aprendizagem diz respeito ao assim denominado

    comportamento operante. Comportamentos operantes so selecionados segundo a

    conseqncia que suas respostas produzem no ambiente e no apenas de acordo

    com uma correlao temporal, como o caso dos respondentes. No entanto, assim

    como o comportamento respondente, o comportamento operante tambm

    selecionado atravs da apresentao, por parte do ambiente, de um estmulo

    reforador. Assim a conseqncia que a emisso da resposta produz no ambiente

    a apresentao do estmulo reforador. O efeito do reforador neste caso

    selecionar as respostas emitidas pelo organismo em situaes adequadas,

    tornando-as mais provveis no futuro. Tambm no caso de comportamentos

    operante o repertrio desenvolvido ao longo da histria de vida do organismo.

    Devido ao fato da aprendizagem ser mediada por um estmulo

    reforador, este princpio de aprendizagem denominado de aprendizagem por

    reforo. Existem, no entanto, diversas teorias consideradas como modelos de

    aprendizagem por reforo. Para este trabalho, a no ser quando indicado o

    contrrio, a interpretao deve ser de acordo com o modelo de Seleo pelas

    Conseqncias.

    Diferentemente de outras estratgias, a estratgia de aprendizagem

    por reforo oferece mecanismos para a adaptao do sistema autnomo enquanto

    este interage com um ambiente desconhecido. Por esta razo torna-se muito til

    para o treinamento de tais sistemas, em especial para aplicaes associadas a

    controle autnomo. Assim, em todos os instantes em que o sistema se depara com

    eventos discrepantes (situaes desconhecidas, situaes de sucesso ou falha); o

    sistema recebe um sinal de avaliao (reforo) associado ao seu desempenho, sinal

  • 7

    esse no qual baseado o processo de aprendizagem (Donahoe & Palmer, 1994)

    (Skinner, 1981).

    1.2 Objetivos e Contribuies

    Um sistema artificial capaz de operar de forma satisfatria em

    ambientes do cotidiano requer caractersticas comportamentais complexas que

    seriam comumente denominadas de inteligentes. As capacidades de tal sistema

    devem ser as mais diversas possveis, por exemplo, a habilidade de navegar de

    forma autnoma por um ambiente em constante modificao, o uso de ferramentas

    em situaes especficas, a coordenao e cooperao com outros sistemas

    artificiais e tambm com seres humanos. Com o objetivo de dotar sistemas artificiais

    com tais capacidades, so investigados os processos fundamentais que

    proporcionam o surgimento de tais comportamentos em sistemas biolgicos, para

    ento buscar reproduzi-los em um sistema artificial.

    O objetivo geral desenvolver um sistema artificial inteligente capaz

    de adquirir conhecimento sobre o ambiente no qual este se encontra e utilizar tal

    conhecimento para agir no ambiente de forma autnoma, ou seja, um sistema

    autnomo inteligente. Entretanto tal meta deve ser alcanada seguindo-se alguns

    requisitos especficos, discutidos ao longo do texto (Captulo 2), que so:

    Utilizar um sistema baseado em um modelo de redes neurais;

    A arquitetura neural deve buscar reproduzir tanto estruturalmente

    quanto funcionalmente sistemas biolgicos nervosos;

    A aprendizagem do sistema deve seguir um modelo compatvel

    com o modelo de Seleo pelas Conseqncias (Skinner, 1981);

    O sistema artificial deve ser capaz de reproduzir fenmenos

    comportamentais de que trata a teoria da Seleo pelas

    Conseqncias (Skinner, 1981).

    O emprego de tais requisitos, como fica claro ao longo do trabalho,

    no se deve pelo fato de que se deseja provar a relevncia ou no de cada um deles

    para o problema sugerido, mas sim por se acreditar que fornecem propostas

    concretas e importantes para a soluo do mesmo.

  • 8

    Em termos prticos o trabalho prope um modelo neural cuja

    arquitetura, operao e aprendizagem funcionam segundo os requisitos

    apresentados. A fundamentao do trabalho feita com trabalhos especficos de

    cada rea, bem como propostas que integram as mesmas, destaca-se neste ponto o

    trabalho de Donahoe, Burgos e Palmer (1993).

    A principal contribuio do trabalho ser mostrar que uma estratgia

    de aprendizagem por reforo pode ser empregada com sucesso no treinamento de

    redes multicamadas de diferentes dimenses. O modelo de aprendizagem por sua

    vez, atuando juntamente com a operao da rede capaz de reproduzir,

    sintticamente, fenmenos comportamentais observados em seres biolgicos e que

    so normalmente tidos como indicadores de autonomia e inteligncia. De forma

    secundria, mas no menos importante, o modelo apresenta princpios para a

    formao dinmica de grupos neurais e a estabilizao da atividade neural a partir

    de um estado inicial variante.

    Especificamente, os resultados mostram que o modelo capaz de

    reproduzir diversos fenmenos comportamentais particularmente interessantes para

    um sistema autnomo inteligente. So eles:

    Aquisio de comportamento respondente;

    Extino de comportamento respondente;

    Aquisio de comportamento operante;

    Extino de comportamento operante;

    Capacidade de generalizao de estmulos;

    Habilidade de controle de intensidade da resposta emitida;

    Capacidade de controle de mltiplas respostas;

    Fuso de sensores.

    Alm dos fenmenos de aprendizagem, o modelo tambm apresenta

    resultados decorrentes da arquitetura neural empregada. Particularmente mostra-se

    a importncia das conexes inibitrias para uma correta modelagem do

    comportamento de nvel operante (Seo 2.2). Alm disso, em conjunto com as

    conexes laterais excitatrias, as conexes inibitrias so responsveis pela

  • 9

    formao dos grupos neurais. Os grupos neurais por sua vez formam a base para a

    anlise da operao da rede.

    Do ponto de vista das redes neurais artificiais o modelo contribui

    apresentando uma soluo para o problema de atribuio de crdito que utiliza

    aprendizagem por reforo.

    1.3 Organizao do Trabalho

    O Capitulo 2 trata de revisar os temas, conceitos e fundamentos que

    nos quais o trabalho baseado. Primeiramente tratando de redes neurais artificiais

    (Seo 2.1), apresentando um breve histrico, discutindo os principais conceitos e

    modelos. Logo aps discute-se o modelo de aprendizagem de seleo pelas

    conseqncias (Seo 2.2), como visto pela psicologia. Em seguida a Seo 2.3 traz

    uma reviso de conceitos como autonomia (Seo 2.3.1), aprendizagem por reforo

    segundo a viso atual e mais difundida da IA (Seo 2.3.2), aprendizagem por

    reforo e redes neurais (Seo 2.3.3) onde se busca um modelo que integre redes

    neurais e o modelo de Seleo pelas Conseqncias.

    No Captulo 3 descreve-se o modelo de rede neural proposto neste

    trabalho, apresentando sua arquitetura (Seo 3.1), os mecanismos de raciocnio

    (Seo 3.2) e o algoritmo de aprendizagem (Seo 3.3).

    O Captulo 4 apresenta os resultados obtidos em simulao do

    modelo proposto. Os resultados apresentados so de dois tipos: operacional (Seo

    4.1 ) e de aprendizagem (Seo 4.2).

    Ao final do trabalho so apresentadas as concluses, seguida pelas

    referncias e pelos anexos.

  • 2 FUNDAMENTAO TERICA

    Devido s questes envolvidas, trabalhos com sistemas autnomos

    possuem a caracterstica de serem multidisciplinares. Isso torna ainda mais

    importante uma reviso dos assuntos abordados.

    Esta seo apresenta de forma resumida as principais teorias e

    conceitos necessrios para um bom entendimento da proposta deste trabalho, entre

    elas, Redes Neurais Artificiais (Seo 2.1) e teoria da Seleo por Conseqncias

    (Seo 2.2). A Seo 2.3 aborda vrios fundamentos e traz uma reviso bibliogrfica

    de diversos trabalhos que investigam temas similares ao deste trabalho, fornecendo

    uma perspectiva atual da pesquisa na rea.

    2.1 Redes Neurais Artificiais

    As redes neurais tm sido destaque em diversas pesquisas de

    sistemas autnomos. Autores como Brooks (1991), Verschure (1996) e Verschure

    (1993) destacam sua contribuio para o chamado problema do "a priori". Tal

    questo, como destacado na introduo deste trabalho, aborda o fato de que

    extremamente difcil definir a priori regras gerais capazes de descrever problemas

    como, por exemplo, o de navegao autnoma, nos quais o rob precisa deslocar-

    se de forma autnoma pelo ambiente, basicamente desviando de obstculos e

    buscando alvos, alm de outros objetivos mais complexos. Problemas como este

    requerem que o sistema adquira o conhecimento para a soluo do problema

    diretamente atravs da interao com o ambiente, fazendo uso, portanto, de

    aprendizagem. justamente na capacidade de aprendizagem que reside o poder

    das redes neurais.

    Alm da capacidade intrnseca de aprendizagem as redes neurais

    possuem outras caractersticas interessantes para a concepo de sistemas

    autnomos, entre as quais destacam-se:

    No-linearidade: o modelo dos neurnios pode ser linear ou no-

    linear. Ser no-linear concede ao neurnio, e conseqentemente

    rede, a capacidade de processamento no-linear. Esta

  • 11

    capacidade desejada sempre que o sistema deve adotar

    determinadas estratgias de interao com o ambiente de acordo

    com as variaes dos estmulos (a estratgia para um estmulo

    mais intenso diferente da estratgia para um menos intenso);

    Processamento paralelo: a atividade simultnea dos diversos

    elementos de uma rede neural faz com que essa seja capaz de

    processar grande quantidade de informao de forma veloz, algo

    indispensvel para sistemas que devem operar em tempo real;

    Memria acessada por contedo: a forma particular com que

    uma rede neural armazena informao, e o prprio mecanismo de

    operao fazem com que esta seja um sistema de memria

    acessada por contedo. Assim a rede neural capaz de

    recuperar um padro previamente armazenado, mediante a

    apresentao de parte desse padro;

    Tolerncia a falhas: por se tratar de um sistema maciamente

    paralelizado, cada elemento da rede responsvel apenas por

    uma pequena parte da computao realizada. Assim, a remoo

    ou falha de elementos isolados impacta de forma suave no

    desempenho da rede;

    Generalizao: vrios modelos de redes neurais tm por objetivo

    extrair caractersticas dos estmulos aos quais so apresentados.

    Devido ao seu modo de operao, mesmo quando um estmulo

    desconhecido for apresentado, a rede neural classifica segundo

    sua similaridade aos estmulos com os quais possui experincia.

    Essa uma qualidade importante do comportamento dos seres

    vivos e reconhecidamente interpretada indispensvel em sistemas

    inteligentes;

    Robustez a rudos: uma rede neural possui grande robustez a

    rudos contaminando os estmulos de interesse, conseguindo

    operar normalmente com desempenho satisfatrio. Essa

    caracterstica muito til, pois na prtica, sensores

    inevitavelmente esto associados a rudo.

  • 12

    Este captulo discorre de maneira breve a respeito dos principais

    tpicos relacionados s redes neurais, visando oferecer uma viso da rea e alguns

    fundamentos que facilitem a compreenso dos captulos seguintes. Textos mais

    aprofundados no tema podem ser encontrados em obras de referncia como Haykin

    (2001) e Rssel e Norvig (1995).

    2.1.1 Modelo Bsico Biolgico

    Uma rede neural constituda por neurnios (Figura 1), as unidades

    bsicas de computao, que interconectados formam a rede propriamente dita. Os

    neurnios operam recebendo os estmulos em suas sinapses (Figura 2), agregando

    tais estmulos no soma e quando o valor resultante da agregao ultrapassa um

    certo valor limiar, o neurnio emite (dispara) uma seqncia de pulsos eltricos,

    gerados no cone do axnio. O sinal eltrico emitido flui pelo axnio at atingir sua

    extremidade onde, atravs de trocas qumicas nas sinapses, transmitido aos

    prximos neurnios. Este esquema relativamente simples repetido desde a

    entrada da rede at sua sada, tal qual acontece em algumas redes biolgicas, por

    exemplo, em redes cujas entradas correspondem aos campos sensorials (olhos,

    ouvidos, etc.) e aos rgos motores (braos e msculos em geral) e/ou demais

    rgos.

  • 13

    As sinapses (Figura 2) consistem de uma regio de intercmbio de

    informao, mais precisamente, so os locais onde os neurnios recebem e emitem

    neurotransmissores (substncias qumicas utilizadas para transmitir a informao)

    convertendo, portanto, um sinal eltrico (disparo do neurnio) em qumico

    (neurotransmissores) e vice-versa. Atravs de processos complexos as sinapses

    podem alterar sua eficincia, tornado-se mais ou menos eficazes na propagao do

    estmulo. Dessa forma, cada sinapse pode alterar a intensidade do estmulo que

    recebe e passa para frente, intensificando-o ou suprimindo-o, sendo, portanto, a

    unidade bsica de memria, onde a informao pode ser armazenada e manipulada.

    Esta caracterstica das sinapses tida como a principal responsvel pela

    capacidade de aprendizagem das redes neurais.

    Uma rede neural pode ser descrita como possuindo uma arquitetura,

    um mecanismo de processamento e sistema de aprendizado. A arquitetura de uma

    rede neural descreve como esto conectados os neurnios. A forma pela qual o

    sinal de entrada evolui ( processado) para um sinal de sada ser tratada como o

    raciocnio2. J o processo responsvel por modificar as sinapses responsvel pela

    aprendizagem. Operando de forma integrada e nas mais diversas configuraes

    possveis, estes elementos so capazes de processar e produzir resultados

    1 Adaptado de: http://research.haifa.ac.il/~imjaffe/mind/lecnotes/week7.html. junho 2003

    2 A termo "raciocnio" segundo essa interpretao refere-se aos processos internos de uma rede neural, desencadeados por um estmulo, que evoluem at produzir uma resposta. De forma simplificado o processamento da informao.

    http://research.haifa.ac.il/~imjaffe/mind/lecnotes/week7.html
  • 14

    absolutamente no triviais. Os melhores exemplos so os prprios organismos

    biolgicos.

    *" -Neurotransmissores t m .4

    f ; Neuroreceptores

    Figura 2 - Esquema da sinapse.1

    2.1.2 Fundamentos

    Modelos Clssicos

    O primeiro passo para o desenvolvimento da teoria de redes neurais

    artificiais surgiu em 1943 com o trabalho de McCulloch e Pitts que propuseram uma

    descrio matemtica para um neurnio (Haykin, 2001). A Figura 3 apresenta um

    modelo atual de um neurnio artificial simples que embora mais recente retm as

    linhas gerais originais.

    1 Adaptado de: http://research.haifa.ac.il/~imiaffe/mind/lecnotes/week7.html. junho 2003.

    http://research.haifa.ac.il/~imiaffe/mind/lecnotes/week7.html
  • 15

    N

    y = F ( J ] x w i ~wo) o ) 7=1

    Neste modelo os sinais de entrada x; i = 1, ..., N; ao chegarem ao

    neurnio so ponderados pelos pesos sinpticos w; i = 1, ..., N; x, we9 (conjunto

    dos nmeros reais). Estes so, ento, enviados ao soma atravs dos dendritos onde

    so adicionados. Em seguida uma transformao no linear F(.) (funo de ativao

    do neurnio) age sobre o sinal resultante da agregao gerando o sinal de sada y

    conforme a Equao 1. A funo F(.) por sua vez tipicamente qualquer funo do

    tipo sigmide, por exemplo (Figura 4):

    F(x) = 1

    1 + ex p ( - / ? x )

    F(x)

    Figura 4 - Funo sigmide.

    Outro importante avano para as RNAs foi a descrio feita por

    Hebb em 1949 de um mecanismo fisiolgico de modificao sinptica. Sua regra de

    aprendizagem prev que a eficincia de uma sinapse deva ser aumentada quando

    h atividade em ambos os neurnios que a formam (neurnio pr e o ps-sinptico)

    e que tal atividade tenha se propagado atravs dessa sinapse (Haykin, 2001). Em

    sua forma mais simples, tal regra pode ser expressa matematicamente segundo a

    Equao 2.

    A wfl{T) = i1ai(T)ai{T) (2) onde: Aw;, ( r ) o ajuste da sinapse no tempo T; q a taxa de aprendizagem; a{T)

    a atividade (sinal de sada) no neurnio pr-sinaptico j no tempo Te a^T) a

    atividade do neurnio ps-sinptico / na iterao T.

  • 16

    Arquiteturas Bsicas

    A arquitetura de uma rede neural consiste de um conjunto de

    neurnios e suas conexes. H vrias combinaes possveis para estes elementos

    o que por sua vez d origem a vrias topologas possveis. Entretanto, trs

    configuraes so bsicas. A primeira delas a rede alimentada adiante de uma

    nica camada (Figura 5).

    Figura 5 - Arquitetura de rede neural de uma nica camada.

    A segunda arquitetura, uma das mais difundidas, a multicamadas,

    nas quais os neurnios so conectados por conjuntos de neurnios (camada). Neste

    tipo de topologia, as camadas podem ser numeradas naturalmente desde a entrada

    da rede (x) at sua sada (y), de tal forma que as conexes ocorrem somente entre

    camadas sucessivas. A Figura 6 ilustra um exemplo de uma rede neural com este

    tipo arquitetura, de fato, uma arquitetura de 4 camadas: Ci, C2, C3 e C4.

  • 17

    Figura 6 - Arquitetura de rede neural de quatro camadas.

    Outro esquema de arquitetura bem conhecido o recorrente. So

    consideradas recorrentes as redes que possuam conexes provenientes de um

    neurnio que possam, direta (conexo vermelha) ou indiretamente (conexo azul),

    influenciar a entrada do mesmo (Figura 7).

    Figura 7 - Arquitetura de rede neural recorrente.

    Em contraste com as redes de arquitetura em camadas, a sada da

    rede recorrente evolui ao longo do tempo indefinidamente (a menos que a rede

    esteja em um estado estvel) mesmo com ausncia de estmulos.

    Estratgias de Aprendizagem

    Para a concepo de redes neurais existem trs principais

    estratgias de aprendizagem, a saber: no-supervisionada, supervisionada e por

  • 18

    reforo. Cada uma destas estratgias est associada a classes especficas de

    sinais, por meio das quais a aprendizagem se processa: (a) apenas entradas, (b)

    pares entrada-sada; e (c) entradas e sinais de avaliao (emitidos pelo ambiente),

    respectivamente.

    A estratgia de aprendizagem no-supervisionada diz respeito

    somente a entradas, ou seja, o sistema aprendiz se auto-organiza de acordo com as

    caractersticas das entradas. Desde que aplicaes de controle so associadas com

    um mapeamento entrada-sada, a estratgia de aprendizagem no-supervisionada

    no adequada, a menos que juntamente com esta seja considerada outra

    estratgia.

    A aprendizagem supervisionada depende do conhecimento do

    problema, pois necessrio um conjunto de pares de entrada-sada, representantes

    da soluo desejada para o problema, para que a aprendizagem se processe. Esta

    estratgia pode ser adequada para diversas aplicaes, mas no associadas a

    controle autnomo. Dificuldades surgem se o ambiente altera suas caractersticas,

    tornando invlidos os pares de entrada-sada usados durante o perodo de

    aprendizagem.

    Na estratgia por reforo, entra em jogo um outro sinal (sinal de

    reforo) apresentado pelo ambiente. O ambiente apresenta o sinal somente aps a

    rede ter apresentado sua sada. Este sinal corresponde a uma avaliao da rede,

    feita pelo ambiente, com respeito resposta apresentada e utilizado no processo

    de aprendizagem da rede. Na verdade o que ocorre que as respostas (aes)

    executadas pela rede modificam o ambiente, uma vez modificado o ambiente pode

    conter estmulos reforadores, que se tornam disponveis para os elementos

    sensoriais da rede. No existe, portanto, nenhum mdulo de avaliao ou qualquer

    outro dispositivo similar que funciona como um avaliador. Vale lembrar que a

    aprendizagem por reforo est diretamente ligada teoria de Seleo por

    Conseqncias (Donahoe e Palmer, 1994), tema da Seo 2.2.

    2.1.3 Modelos Clssicos de Redes Neurais Artificiais

    Uma introduo sobre redes neurais no estaria completa sem

    alguns exemplos de modelos de redes que aplicam os conceitos de arquitetura,

  • 19

    raciocnio e aprendizagem apresentados anteriormente. De fato, devido sua ampla

    divulgao, tais exemplos so muitas vezes tidos como sinnimos dos prprios

    conceitos que aplicam.

    Perceptron de Mltiplas Camadas

    Exemplo tpico de uma rede de vrias camadas, o perceptron de

    mltiplas camadas (MLP, multilayer perceptron) tornou-se famoso principalmente

    devido ao algoritmo de aprendizagem por correo de erro utilizado em seu

    treinamento. Atravs de um processo conhecido por retropropagao de erro, o MLP

    tornou-se um dos primeiros modelos de RNA a possuir um mtodo eficiente de

    treinamento para redes de mltiplas camadas. O algoritmo de retropropagao

    tornou-se famoso pela publicao de Rumelhart e McClelland (1985), Parallel

    Distributed Processing. O algoritmo tambm foi responsvel por reacender o nimo

    na pesquisa de RNA ao demonstrar que as redes de mltiplas camadas no eram

    to limitadas como haviam sugerido Minsky e Papert (1969).

    Utilizando uma estratgia supervisionada, o algoritmo de

    retropropagao consiste basicamente de dois passos:

    1. Passo para frente: um padro de entrada aplicado camada

    sensorial da rede e a atividade da mesma se desenvolve

    (propaga) a partir destes, produzindo ao final um vetor de

    respostas na camada de sada;

    2. Passo para trs: a sada computada pela rede comparada com a sada desejada (estratgia supervisionada) e um sinal de erro

    produzido de acordo com a diferena entre os dois. O sinal de

    erro ento utilizado para ajustar os pesos sinpticos da rede em

    um processo de retropropagao (do final para o comeo da rede)

    de forma a minimizar o erro, aproximando a sada computada da

    sada desejada. O processo de retropropagao envolve o clculo

    da parcela de contribuio de cada neurnio para gerar a sada

    da rede, tornando possvel o ajuste (atravs de derivadas

    parciais) de cada sinapse segundo sua contribuio especfica.

  • 2 0

    O perceptron de mltiplas camadas utilizado em conjunto com o

    algoritmo de retropropagao comumente empregado, entre outras, em tarefas de

    classificao de padres e aproximao de funes. No entanto o fato de utilizar

    uma aprendizagem supervisionada consiste em um grave ponto negativo para sua

    aplicao em sistemas autnomos, tendo em vista que seu treinamento seria

    impossvel pelo fato do ambiente de operao no ser totalmente conhecido.

    Embora os algoritmos de correo de erro (incluindo o de

    retropropagao) aparentemente tenham sido originados de trabalhos matemticos,

    sem qualquer inspirao biolgica, existe forte evidncia de que pelo menos uma

    rea do crebro opere de forma semelhante. O cerebelo est envolvido no controle

    de preciso de movimentos e responsvel, entre outros, por produzir movimentos

    suaves e bem coordenados. Evidncias neurobiologies (Rolls e Treves, 1998)

    (Rolls, 1999) demonstram que o cerebelo recebe realimentao neural dos sistemas

    motores que controla e que utiliza esse sinal (na prtica um sinal de erro) para

    corrigir eventuais imprecises.

    Mapa de Kohonen

    Quando se fala de sistemas auto-organizveis (aprendizagem no-

    supervisionada) a referncia principal o modelo de Kohonen (Kohonen, 1982).

    Dentre suas aplicaes, talvez aquela de maior destaque seja sua utilizao como

    ferramenta para modelagem e compreenso de mapas corticais no crebro. Estes

    resultados remetem aos objetivos iniciais que levaram ao desenvolvimento de toda a

    teoria de redes neurais e justificam grande parte do entusiasmo em relao ao

    modelo.

    Tipicamente o Mapa de Kohonen consiste de uma grade uni ou

    bidimensional de elementos computacionais (neurnios) cujos pesos sinpticos

    esto, inicialmente, distribudos de forma aleatria sobre o espao de entrada.

    Durante a fase de treinamento, so selecionadas ao acaso elementos do espao de

    entrada e estes so ento apresentados rede. A partir de ento, para cada

    apresentao ocorrem trs processos distintos:

    1. Competio: os neurnios da grade competem entre si pelo

    direito de responder ao sinal de entrada apresentado, atravs do

  • 21

    clculo de uma funo discriminante. 0 neurnio cujo vetor de

    pesos for mais similar (ex: menor distncia Euclidiana) ao vetor de

    entrada o vencedor. Este processo conhecido como o

    "vencedor-leva-tudo" ou winner-take-all;

    2. Cooperao: o neurnio vencedor estabelece uma vizinhana

    topolgica dentro da qual os neurnios possuem o direito de

    ajustar suas sinapses;

    3. Adaptao Sinptica: os neurnios localizados dentro da

    vizinhana estabelecida no passo 2 tm suas sinapses ajustadas

    de modo a melhorar o valor de sua funo discriminante. Na

    prtica, isso resulta em aproximar o vetor de pesos do vetor de

    entrada. Tal ajuste ponderado segundo a proximidade do

    neurnio em questo com o neurnio vencedor. Estes ajustes

    melhoram a eficcia da resposta dos neurnios ao estmulo.

    Ao longo de vrias iteraes este processo ir "posicionar" os pesos

    sinpticos sobre o espao de entradas, de forma que os respectivos neurnios

    correspondem a um domnio ou sub conjunto de caracterstica particular do espao

    de entrada (Kohonen, 1992). Operando dessa forma, o Mapa de Kohonen realiza

    uma reduo de dimensionalidade no espao de entrada, extraindo suas

    caractersticas principais e assemelhando-se tanto em forma como em funo aos

    primeiros estgios da maquinaria cerebral, responsvel pelo processamento

    sensorial.

    Embora o Mapa de Kohonen ilumine o caminho para a construo

    de mquinas semelhantes ao crebro e conseqentemente ao desenvolvimento de

    sistemas autnomos, ele consiste de apenas uma parte do sistema necessrio. A

    reduo de dimensionalidade e extrao de caractersticas proporcionada pelo

    modelo serve para tomar o problema da percepo algo tratvel. No entanto, ainda

    faz-se necessrio um mecanismo que associe as caractersticas identificadas com

    aes a serem tomadas.

  • 2 2

    Rede de Hopfield

    A rede de Hopfield um sistema dinmico, ou seja, possui uma

    representao na forma de um sistema de equaes diferenciais; sendo, portanto

    um sistema em que entradas provocam a evoluo de estados internos e suas

    sadas ao longo do tempo. Algumas caractersticas deste sistema atraem a ateno

    dos pesquisadores, inclusive fazendo com que contribussem fortemente com a

    revitalizao das redes neurais artificiais (Haykin, 2001) (Hopfield, 1982):

    1. O sistema estvel no sentido de Liapunov (Haykin, 2001);

    2. O sistema exibe plausibilidade biolgica, ou seja, o sistema de

    equaes pode ser deduzido de modelos (simplificados) de

    neurnios e de redes neurais biolgicas;

    3. Existem procedimentos simples para configurao dos

    parmetros do sistema, visando definir as caractersticas do seu

    espao de fases. Estes procedimentos podem ser interpretados

    como o processo de aprendizagem.

    A rede neural de Hopfield exibe interessantes resultados em duas

    aplicaes principais: na modelagem de uma memria associativa e na soluo de

    problemas de otimizao. Os instigantes resultados alcanados nestas aplicaes

    podem ser compreendidos a partir de suas caractersticas.

    Considere a aplicao de modelagem de uma memria associativa.

    O espao de fase do sistema representado pela rede de Hopfield apresenta diversas

    bacias de atrao. Supondo que cada padro a ser registrado pela memria seja um

    ponto crtico estvel no espao de fase, ento este seria alcanado sempre que o

    estado inicial estivesse na bacia associada ao padro memorizado. Os

    procedimentos de configurao de parmetros possuem o objetivo de fazer com que

    os padres memorizados sejam exatamente os pontos crticos estveis do sistema.

    A estabilidade da rede de Hopfield garantida por uma funo de

    Liapunov associada. Problemas de otimizao so solucionados pela rede caso sua

    funo de Liapunov possa descrever a funo a ser otimizada. Neste caso, iguala-se

    a funo a ser otimizada funo de Liapunov associada rede. A manipulao

    dessa igualdade resulta em um conjunto de pesos sinpticos para a rede neural. A

  • 23

    evoluo da rede neural, configurada com tais pesos, leva o sistema a estabilizar-se

    em estados correspondentes soluo do problema de otimizao.

    2.2 Aprendizagem e Comportamento Inteligente

    Conforme visto, a aprendizagem de essencial importncia para a

    autonomia. , portanto, desejvel que o modelo de aprendizagem empregado utilize

    uma estratgia que seja coerente com as idias propostas.

    De acordo com o modelo de Seleo pelas Conseqncias (Skinner,

    1981) a aprendizagem ocorre a partir de variaes no repertrio de comportamentos

    dos organismos. Os comportamentos produzidos por tais variaes desencadeiam

    modificaes no ambiente, que atuam de forma a selecionar os mesmos. No caso de

    produzir conseqncias favorveis ao organismo, o comportamento retido e passa

    a fazer parte do repertrio de ao. Caso produza conseqncias desfavorveis, a

    tendncia que o comportamento seja extinguido.

    Visando reunir conceitos fundamentais relacionados ao modelo de

    Seleo pela Conseqncias, o presente captulo dedica-se ao estudo de alguns de

    seus aspectos segundo a viso da Anlise do Comportamento, rea de pesquisa da

    psicologia. Segundo o ponto de vista dessa rea, aprendizagem e comportamento

    so totalmente dependentes um do outro (Millenson, 1967) e, portanto, toma-se

    possvel investigar a aprendizagem estudando-se o comportamento.

    2.2.1 Reflexos e Reflexos Condicionados

    O tipo de comportamento mais simples exibido por um ser vivo o

    reflexo. Este tipo de comportamento definido filogeneticamente, ou seja, j nasce

    com o organismo e resultado de uma histria de seleo pelo ambiente ao longo

    de vrias geraes (seleo natural). Um reflexo uma contingncia simples,

    envolvendo um estmulo especfico e uma resposta especfica. Diz-se que a

    presena do estmulo elicia a resposta, ou seja, desencadeia um processo cuja

    conseqncia a emisso da resposta. Exemplos desse tipo de comportamento

    so: o reflexo patelar, o reflexo pupilar e o reflexo salivar.

  • 24

    Embora de extrema importncia para os seres vivos em seus

    primeiros momentos de existncia, os reflexos so insuficientes para formar um

    repertrio comportamental adequado para toda a sua vida. Eles so frutos de uma

    histria de seleo gentica ao longo da evoluo e, por este motivo, limitam-se a

    comportamentos essenciais relacionados manuteno da espcie e sobrevivncia

    dos indivduos.

    Para a formao de um repertrio comportamental adequado

    diversidade ambiental, os seres vivos exibem outros mecanismos de aprendizagem

    capazes de gerar comportamentos adicionais (alm do comportamento reflexo), ou

    seja, capazes de construir um repertrio mais amplo e que permita ao ser vivo uma

    melhor adaptao ao meio. Um destes mecanismos chamado condicionamento

    respondente (ou Pavloviano, em homenagem ao pesquisador, Ivan Pavlov, que

    primeiro descreveu cientificamente tal fenmeno (Millenson, 1967)).

    Condicionamento neste contexto, e ao longo do restante do texto, se refere ao

    mecanismo responsvel por formar o comportamento. A principal caracterstica

    destes mecanismos a capacidade de estabelecer gradualmente associaes entre

    estmulos e respostas, sendo um deles parte componente de um comportamento

    reflexo. Tais associaes ocorrem quando existe uma correlao temporal adequada

    entre a ocorrncia dos estmulos. Aps vrias ocorrncias de um estmulo neutro

    (que inicialmente no est associado a nenhuma resposta) seguido do estmulo que

    dispara o reflexo, o estmulo neutro torna-se capaz de produzir o comportamento

    reflexo (passando a ser chamado de estmulo condicionado). Desta forma, a

    resposta reflexa original, filogeneticamente especificada, passa a estar condicionada

    a um novo estmulo, sendo esta nova relao estmulo-resposta conhecida como

    reflexo condicionado (Millenson, 1967).

    Um exemplo tpico de um condicionamento respondente a

    associao que se estabelece, por exemplo, entre a viso de um alimento e o reflexo

    salivar. O reflexo salivar filogeneticamente relacionado mucosa bucal, quando do

    contato desta com o alimento. No entanto, comum a ocorrncia deste reflexo

    mediante a simples viso do alimento, algo que conseqncia de um

    comportamento respondente que se estabelece.

    De forma semelhante aos reflexos, o condicionamento respondente

    conseqncia de uma seleo. A diferena que neste caso a seleo realizada

    ao longo da vida do organismo e se desenvolve atravs de ocorrncias repetidas e

  • 25

    correlacionadas (emparelhamento) de um estmulo neutro (que vir a se tornar o

    estmulo condicionado) e o estmulo eliciador (responsvel pela ocorrncia do

    comportamento reflexo incondicional).

    O condicionamento respondente responsvel por fornecer aos

    organismos uma forma de adaptar seu repertrio comportamental frente a um

    ambiente dinmico, visivelmente dotando-os de capacidades autnomas. No

    entanto, um comportamento respondente ainda est limitado s mesmas respostas

    reflexas com as quais o indivduo nasceu e, conseqentemente, no produz novos

    comportamentos complexos.

    2.2.2 Comportamento Operante

    Uma forma de aprendizagem adicional e relevante para a adaptao

    dos organismos ao ambiente o chamado condicionamento operante. No caso de

    comportamentos do tipo reflexo e reflexo condicionado, estmulos do ambiente

    elidam respostas do organismo (respostas reflexas e respondentes,

    respectivamente) sendo que as conseqncias dessas respostas no ambiente no

    influem nas prprias respostas ou comportamentos correspondentes. J o

    condicionamento operante se desenvolve por meio do efeito da ao do organismo

    sobre o ambiente. Quando as conseqncias de um comportamento so favorveis

    ao desempenho, torna-se maior a probabilidade de que este comportamento ocorra

    novamente no futuro. O comportamento operante formado pela seleo das aes

    do organismo para interagir com o ambiente. Essa seleo feita atravs da

    apresentao de um reforador gerado pelo ambiente. Assim, sempre que o

    organismo emitir a resposta desejada, o reforador associado apresentado. Esta

    relao causai tende a selecionar a resposta em questo. Este processo

    denominado de fortalecimento operante (Skinner, 1981) (Millenson, 1976) e

    caracteriza-se pelo fato do comportamento especifico desejado ser gradualmente

    selecionado, pela apresentao de um estmulo reforador, em meio a todo o

    repertrio de respostas que o organismo apresenta.

    Um exemplo de fortalecimento operante ocorre quando um animal

    de estimao, ao realizar um truque especfico, recebe de seu dono uma

    recompensa. Isso faz com que o animal tenda a repetir o truque no futuro.

  • 2 6

    Um aspecto que faz parte importante do mecanismo de

    condicionamento operante reside na capacidade de gerar uma gama extremamente

    grande de aes possveis. Segundo essa teoria, os sistemas biolgicos apresentam

    um nvel operante caracterizado por um conjunto indiferenciado de respostas

    aleatrias emitidas pelo organismo, sem qualquer expectativa sobre suas

    conseqncias associadas (Millenson, 1967).

    Exemplos de respostas em nvel operante so: o conjunto de

    fonemas que recm nascidos so capazes de balbuciar; e os movimentos

    indiferenciados de braos e pernas. a partir destas respostas simples, inicialmente

    aleatrias, que comportamentos complexos so selecionados.

    O condicionamento operante no s possibilita o aumento na

    freqncia da resposta, mas tambm a sua reduo. Quando um comportamento

    produz no ambiente conseqncias aversivas, a probabilidade de que ele ocorra

    novamente reduzida (Skinner, 1981).

    Assim, quando o mesmo animal de estimao entrar em casa e

    mastigar algum objeto de seu dono, este comportamento provavelmente produzir

    uma reao do dono desagradvel. Dessa maneira, a probabilidade de ocorrncia

    do comportamento indesejado reduzida, sendo esse procedimento denominado de

    punio. importante ressaltar que o termo reforo usado de forma abrangente

    para designar tanto o processo de fortalecimento quanto o de reduo. Existe, no

    entanto, uma terminologia mais especfica para identificar diferentes formas

    (procedimentos) de fortalecer e enfraquecer comportamentos. Assim, tem-se o

    reforo positivo e negativo e a punio positiva e negativa. A descrio destas

    classes de procedimentos esta fora do escopo deste texto e pode ser encontrada em

    Baum (1999).

    Uma outra forma de reduzir a probabilidade de ocorrncia de

    respostas operantes a extino. A extino ocorre quando um comportamento

    anteriormente reforado passa a no produzir mais a conseqncia reforadora

    (Skinner, 1981), (Millenson, 1967). Voltando ao exemplo do animal de estimao,

    considere que este tenha aprendido a executar um truque sempre quando do retorno

    de seu dono, sempre recebendo uma recompensa como reforo. No entanto,

    considere que as recompensas passam a serem negadas. No existindo

    recompensas, gradualmente o truque deixa de ser reproduzido.

  • 2 7

    Embora didaticamente estudados em separado, os comportamentos

    reflexo, respondente e operante no esto sujeitos a esse tipo de separao. Assim

    sendo, estes comportamentos ocorrem paralelamente e seus mecanismos so

    interdependentes. Suponha, por exemplo, o comportamento de pressionar uma

    alavanca, reforado com comida. Embora esse comportamento seja um operante,

    inevitavelmente algum estmulo (e.g. o som da alavanca) torna-se presente no

    momento que a cobaia obtiver o alimento, o que fornece as condies necessrias

    para o condicionamento do tipo respondente.

    Os processos de condicionamento respondente e operante atuam

    em conjunto e em vrios nveis, produzindo comportamentos complexos. Assim, os

    movimentos indiferenciados so gradualmente modificados pelas conseqncias,

    passando a se caracterizar como aes coordenadas que permitem apanhar

    objetos, caminhar etc. As vocalizaes so diferenciadas de tal forma que balbucios

    acabam se tornando palavras e finalmente em um complexo repertrio verbal. As

    palavras e aes em geral no ocorrem, no entanto, de forma aleatria. Elas tendem

    a ter uma relao precisa com eventos antecedentes. Estes eventos so chamados

    de estmulos discriminativos (SD). Estmulos deste tipo permitem ao ser vivo

    distinguir a situao na qual a resposta adequada (R), produz o estmulo reforador

    (S+).

    Um esquema geral de como funciona o paradigma operante o

    seguinte:

    SD

    Inicialmente os estmulos que tm funo de reforo ou de punio

    so reduzidos em nmero e so conhecidos como reforadores primrios. Sabor

    doce, calor (conforto trmico), dor, sabor amargo so exemplos de reforadores

    primrios, isto , tm esta propriedade filogeneticamente determinada. Outros

    eventos do ambiente podem adquirir as caractersticas de um reforador, ou seja, a

    capacidade de fortalecer o comportamento por meio do emparelhamento com

    reforadores primrios. Um estmulo deste tipo chamado de reforador adquirido

    ou reforador condicional. exatamente neste ponto que os condicionamentos

    respondente e operante esto relacionados, j que o condicionamento respondente

  • 2 8

    faz justamente com que se estabeleam relaes entre estmulos inicialmente

    neutros e estmulos reforadores primrios. Talvez o melhor exemplo deste tipo de

    estmulo seja o dinheiro que altamente reforador para muitos indivduos de

    diversas sociedades, mas insignificante para outros, demonstrando que sua

    capacidade reforadora adquirida e que isso depende da histria de vida de cada

    indivduo.

    Reforadores adquiridos esto envolvidos em um fenmeno

    conhecido como encadeamento de resposta, em que as conseqncias de um

    determinado comportamento exibido pelo organismo, so estmulos que indicam a

    ocasio para um outro comportamento. Voltando ao exemplo anterior, trabalha-se

    para se obter dinheiro apenas para que ento seja possvel, entre outras coisas,

    comprar alimento. Dessa forma, estabelece-se uma cadeia de estmulos e respostas

    que no caso do exemplo fornecido : trabalho=>dinheiro=>compras=>alimento.

    Atuando desse modo, o fenmeno de encadeamento capaz de formar cadeias

    comportamentais extremamente complexas e conseqentemente tem grande

    participao na construo de repertrios comportamentais complexos.

    Uma conseqncia importante do condicionamento operante o fato

    deste aumentar a estereotipia da resposta, ou seja, o padro de respostas que

    compe o comportamento tende a se tornar bem especfico e peculiar. Considere

    que inicialmente o organismo emite um conjunto variado de respostas, ou seja,

    esteja em nvel operante. medida que esta ou aquela resposta em particular for

    reforada, a probabilidade de sua ocorrncia aumenta enquanto a probabilidade das

    demais respostas, comparativamente, diminui. Alm disso, a resposta em questo

    passa a ocorrer de uma maneira particularmente especfica. Por exemplo, considere

    uma cobaia que aprende a pressionar uma alavanca para obter alimento.

    Inicialmente ela pressiona a alavanca ao acaso e de diversas formas diferentes, isto

    , com variaes na topografia da resposta. medida que o procedimento de

    reforo realizado a cobaia passa a pressionar a alavanca com uma freqncia

    cada vez maior e restringindo a topografia da mesma (passando a executar a ao

    de forma bem especfica, por exemplo, apenas com a pata esquerda).

  • 29

    2.3 Reviso Bibliogrfica

    2.3.1 Autonomia

    Brevemente introduzido no primeiro captulo, o conceito de

    autonomia fundamental para este trabalho e define a essncia do que se entende

    por um sistema artificial inteligente. Entretanto a interpretao adotada de tal

    conceito no consenso entre pesquisadores de Inteligncia Artificial, inclusive

    existindo controvrsias sobre seu entendimento, motivo pelo qual tal tema

    aprofundado nesta seo.

    Um dicionrio, (Fernandes et al., 1991 ), traz o termo autnomo como

    sendo algo regido por leis prprias, um sistema independente. No caso especfico de

    robs autnomos, esse termo possui um significado preciso, como foi destacado por

    Russell e Norvig (1995) e Figueiredo (1999). Segundo os autores, um rob

    autnomo quando possui a capacidade de alterar seu comportamento, baseando-se

    em suas prprias experincias e com o objetivo de aprimorar seu desempenho. Esta

    definio perfeitamente aplicvel a sistemas autnomos em geral; e semelhante

    abordagem de autores como Dorigo (1996), Krose (1995), bem como Steels

    (1995).

    Autonomia, assim definida, introduz diversos pontos importantes a

    serem analisados. Uma das primeiras implicaes que para "alterar seu

    comportamento, baseando-se em suas prprias experincias" necessrio que o

    sistema possua capacidade de aprendizagem, ou seja, que ele seja capaz de alterar

    seu comportamento (autogoverno) de forma a maximizar seu desempenho.

    De outra forma, tambm comum na literatura a utilizao do termo

    autnomo para referir-se a robs que simplesmente no precisam de auxlio externo,

    sem que eles possuam necessariamente capacidades de aprendizagem. Robs que

    no dependem de auxlio externo podem prescindir da capacidade de aprendizagem

    em casos nos quais o ambiente e demais fatores permitam. Entretanto, neste caso,

    suas aes seriam repetitivas e/ou totalmente programadas. Segundo o ponto de

    vista adotado, tais robs so denominados de automticos (Steels, 1995).

  • 3 0

    2.3.2 Aprendizagem por Reforo e Inteligncia Artificial

    As teorias sobre aprendizagem descritas so de grande interesse

    para pesquisadores de Inteligncia Artificial, particularmente aquela sobre

    comportamento operante. Com o objetivo de fornecer um panorama geral da

    pesquisa de aprendizagem por reforo apresenta-se a seguir uma sntese da

    questo, bem como de duas tcnicas bastante conhecidas da rea: Temporal

    Differences e Q-Learning. Uma abordagem bem mais aprofundada pode ser

    encontrada no trabalho de Sutton e Barto (Sutton e Barto, 1988).

    De forma geral, o modelo formal visto na IA sobre a aprendizagem

    por reforo consiste de:

    1. Um nmero discreto de estados ambientais;

    2. Um nmero discreto de aes possveis;

    3. Um conjunto de sinais de reforo (e.g. {0,1});

    4. Uma poltica de aes.

    Assim, o objetivo do sistema encontrar uma poltica de aes que

    mapeie as entradas do sistema (estados ambientais) para as sadas (aes

    possveis) de modo a maximizar os sinais de reforo obtidos.

    O problema da aprendizagem tambm pode ser visto como um

    problema de previso. Deste ponto de vista, o sistema artificial inteligente toma uma

    determinada ao com base em uma previso das conseqncias (reforo) dessa

    ao. Para escolher a melhor ao necessrio algum tipo de avaliao das

    possibilidades. Uma das tcnicas utilizada para realizar tal avaliao chamada

    Temporal Differences (TD) (Sutton e Barto, 1988). Enquanto a maioria dos mtodos

    avalia o desempenho do sistema com base na diferena do resultado previsto e

    daquele realmente obtido, o mtodo TD atribui crdito s possibilidades a partir de

    uma seqncia de previses sucessivas no tempo. A ttulo de ilustrao, tome-se o

    exemplo extrado de (Sutton e Barto, 1988). Imagine uma previso do tempo feita

    durante toda a semana sobre a possibilidade de chover no sbado. Enquanto a

    maioria das tcnicas compara a previso feita em cada dia da semana com o

    resultado observado no sbado, usando um valor obtido dessa comparao para

    realizar a aprendizagem do sistema; o mtodo TD utiliza uma comparao

  • 31

    incremental em que a previso de cada dia influi na do dia seguinte. Assim, uma

    previso de, por exemplo, 75% de probabilidade de chuva na tera, influi na

    probabilidade de que chova na quarta.

    A tcnica de TD fundamentalmente visa avaliar os custos de uma

    determinada poltica de aes (Ribeiro, 2002). No entanto, ela no aborda a questo

    da aprendizagem dessas polticas. Uma tcnica que aborda tal aprendizagem,

    inclusive bastante utilizada no desenvolvimento de robs autnomos, a chamada

    Q-learning. Basicamente a aprendizagem consiste de um mtodo iterativo que se

    baseia em avaliar a ao (Q) segundo seu valor (Q(x,a)) e que definido como o

    desconto obtido no custo ao adotar-se a ao "a", quando no estado "x", seguindo

    uma poltica ideal de ao (Ribeiro, 2002).

    Obviamente, esses assuntos so extensos e abord-los mais a

    fundo foge ao escopo deste trabalho. O objetivo aqui somente oferecer uma breve

    sntese sobre a viso da IA sobre comportamento operante e, com isso, denunciar

    as relaes entre as teorias da Anlise do Comportamento e a da Inteligncia

    Artificial.

    2.3.3 Aprendizagem por Reforo e Redes Neurais Artificiais

    Em se tratando de aprendizagem por reforo aplicada a redes

    neurais, existem basicamente dois tipos de abordagens possveis (Haykin, 2001):

    1. Clssica: a aprendizagem acontece atravs de sinais de

    recompensas e punies, ou seja, segundo a teoria da Seleo

    por Conseqncias;

    2. Moderna: trata de uma tcnica matemtica que visa prever e avaliar as possveis aes para ento escolher qual delas a

    melhor a ser tomada, enfatizando, portanto, o planejamento.

    A Seo anterior (2.3.2) fornece um panorama geral da teoria e dos

    trabalhos que utilizam tcnicas que se enquadram em uma abordagem moderna. Tal

    reviso interessante para construir um embasamento terico que favorece a

    discusso e possibilita a comparao de resultados. No entanto, o presente trabalho

  • 32

    segue uma linha diferente e suas propostas enquadram-se em um panorama

    clssico.

    Embora a teoria moderna, assim como a teoria clssica, tenha se

    originado de estudos em psicologia, em certa altura sua formulao desviou-se,

    deixando de lado sua inspirao, evoluindo em direo a solucionar problemas

    especficos da IA. Por outro lado, pesquisas experimentais no contexto da

    aprendizagem clssica demonstram que a aprendizagem por reforo ocorre em

    organismos para os quais no existe evidncia alguma sugerindo o planejamento

    das aes futuras (Brooks, 1990) (Brooks, 1991). Dessa forma impossibilita-se

    explicar os comportamentos complexos exibidos por tais organismos com base na

    teoria moderna. Pesquisas como essas levam a crer que a teoria original possui

    potencial para produzir resultados concretos. Alm disso, sua utilizao favorece

    todo o processo de aprendizagem medida em que torna mais intuitivo o processo

    de interao do sistema com o ambiente.

    Apresenta-se a seguir um modelo de rede neural que utiliza uma

    abordagem clssica para sua aprendizagem por reforo, servindo de base para o

    desenvolvimento das propostas do Captulo 3.

    Fundamentos Neurobiolgicos

    O modelo proposto neste trabalho baseia-se em conceitos

    caractersticos derivados da neurobiologia. Devido natureza pouco comum desse

    tema, pelo menos no mbito da Inteligncia Artificial, primeiramente estes conceitos

    sero introduzidos para na seqncia ser apresentado o modelo.

    Sabe-se que o crebro dos animais, incluindo o humano, possui

    regies nas quais a atividade eltrica desencadeada quando estmulos especficos

    so apresentados. Sabe-se tambm que tais estmulos so reforadores primrios e

    que o circuito neural envolvido capaz de operar logo aps o nascimento sendo,

    portanto, filogeneticamente determinado. Uma dessas regies, como destacam

    autores como Donahoe e Rolls, a Ventral Tegmental Area (rea Ventral

    Tegumentar ou VTA) (Figura 8) (Donahoe, Burgos e Palmer, 1993) (Rolls, 1999).

    A partir da VTA, projetam-se, de forma distribuda, vrias

    ramificaes em direo ao cortex motor e lbulos frontais, que so do tipo

    dopaminrgico, isto , provocam a liberao de dopamina quando estimuladas. A

  • 33

    dopamina um neuromodulador capaz de fortalecer as sinapses entre neurnios pr

    e ps-sinpticos, imediatamente aps a ativao da sinapse em questo. Estmulos

    reforadores primrios possuem capacidade filogeneticamente pr-determinada de

    iniciar atividade na VTA, assim a VTA capaz de mediar relaes entre aes

    geradas no crtex motor.

    Alm dos caminhos neurais filogeneticamente definidos, capazes de

    iniciar atividade na regio VTA a partir de reforadores primrios, alguns dos

    neurnios do crtex frontal associativo tambm so capazes de estimular a VTA pois

    possuem axnios que se projetam, atravs do "mediai forebrain bundle" (MFB)

    (Figura 8), at a prpria VTA. Tal estrutura possibilita o desenvolvimento de

    reforadores adquiridos, tendo em vista que estmulos discriminativos, cuja

    informao viaja at os lbulos frontais atravs dos cortices sensorials, podem

    adquirir, por meio de realimentao pelo MFB, a capacidade de estimular o sistema

    de fortalecimento dopaminrgico. Concluindo, a Figura 8 ilustra, portanto, um

    mecanismo neural capaz de ajustar conexes sinpticas com base em reforadores

    primrios, cujos estmulos viajam por caminhos neurais filogeneticamente

    selecionados, e reforadores adquiridos, cujos estmulos viajam atravs da regio

    conhecida como MFB.

  • 3 4

    Figura 8 - Estruturas neurais de seleo pelas conseqncias1.

    interessante notar que grande parte da teoria da Seleo pelas

    Conseqncias, desenvolvida a partir de observaes comportamentais feitas em

    animais, possui uma correspondncia com estudos da neurobiologia. Tudo indica

    que tais correspondncias tendem a aumentar conforme novas descobertas forem

    sendo feitas em cada rea.

    Modelo de Redes Neurais Artificiais

    O modelo proposto por Donahoe, Burgos & Palmer (1993) busca

    espelhar os mecanismos neurais que acabam de ser apresentados (no tpico

    anterior), utilizando-se tcnicas de RNAs. O objetivo reproduzir fenmenos

    comportamentais de que trata a teoria de Seleo por Conseqncias, fornecendo

    ao mesmo tempo um modelo neural e uma explicao biolgica correspondente.

    Neste modelo, a questo da aprendizagem tratada sob o ponto de

    vista do princpio unificado do reforo, ou seja, considerando que os

    condicionamentos respondente e operante so tratados em conjunto sob as mesmas

    1 Adaptado de: Donahoe e Palmer (1994).

  • 35

    regras. Entretanto, as conseqncias de ambos os tipos de aprendizagem

    permanecem distintas. Tal como enfatizado anteriormente, essa diviso entre

    condicionamento respondente e operante mais uma questo didtica do que

    prtica e a abordagem do modelo ajuda a consolidar tal proposta.

    Uma simulao do sistema ilustrada na Figura 9. O exemplo

    refere-se ao mecanismo de aprendizagem baseado no condicionamento operante,

    tendo em vista que a apresentao do estmulo US (unconditioned stimulus ou

    reforador primrio) dependente da emisso da resposta R. Considere que o

    ambiente no tenha provocado qualquer reforo sobre o indivduo. Desta forma, as

    respostas emitidas pelo mesmo ocorrem de forma equiprovvel, em conseqncia

    do estado de nvel operante em que se encontra. Considere que a resposta R tenha

    sido emitida a partir do estmulo S1. A resposta R altera o ambiente que, por sua

    vez, gera um estmulo US. O estmulo US dispara a resposta UR (unconditioned

    response ou resposta reflexa). A resposta UR por sua vez est ligada ao sistema

    difusor de dopamina e, portanto, provoca um reforo de todas as conexes

    sinpticas recentemente utilizadas. Assim, ao longo de vrias apresentaes de S1,

    emisses de R e apresentaes de US, as conexes favorveis emisso de R e

    UR, a partir do estmulo S1, so gradualmente estabelecidas. Quando as ligaes

    estiverem fortemente estabelecidas, o estmulo S1 passa, seguramente, a evocar a

    resposta R e tambm a resposta UR, passando a ser um estmulo discriminativo.

    A resposta UR em particular, quando emitida a partir da estimulao

    de S1 e no do estmulo US chamada de CR (conditioned response ou resposta

    condicionada) e conseqncia do condicionamento respondente. Lembre-se de

    que este condicionamento capaz de estabelecer relaes entre diversos estmulos

    e respostas reflexas. Alm disso, a sada CR tambm representa um reforador

    adquirido, pois torna possvel a ativao do mecanismo neural de reforo, por meio

    de um estmulo qualquer que no o US.

  • 3 6

    Embora a Figura 9 ilustre o mecanismo de aprendizagem associado

    ao condicionamento operante, o modelo tambm ilustra o mecanismo de

    aprendizagem associado ao condicionamento respondente (fortalecimento das

    ligaes com UR/CR). De fato, ambos ocorrem juntos. A Figura 10 mostra que a

    1 Fonte: Donahoe e Palmer (1994).

  • 3 7

    diferena entre os dois tipos de condicionamento reside apenas na dependncia da

    ocorrncia do estmulo US (linha tracejada). O desenvolvimento da rede

    (fortalecimento das conexes) acontece de forma similar em ambos os casos.

    Diferenas ocorrem apenas no caso de um condicionamento puramente

    respondente, pois nenhuma conexo com a sada R estabelecida, uma vez que

    sua importncia para a ocorrncia do estmulo US nula, ao passo que um

    condicionamento operante sempre envolve um condicionamento respondente

    associado.

    Figura 10 - Contingncia respondente e operante1.

    Note-se que a liberao de dopamina depende de um reforo do

    ambiente em relao resposta emitida pelo organismo, sendo que tal reforo no

    imediato. Assim, utiliza-se um trao de atividade que decai com o tempo e que

    permite ao sistema registrar quais sinapses foram utilizadas na emisso do

    comportamento e que, conseqentemente, devem ser fortalecidas quando o reforo

    for aplicado, podendo ser modelado por meio de uma memria.

    Os resultados apresentados por Donahoe, Burgos e Palmer (1993)

    em simulaes foram bastante promissores ao reproduzirem diversos princpios

    comportamentais, entre eles:

    1. Aquisio de comportamento respondente;

    1 Fonte: Donahoe e Palmer (1994).

  • 3 8

    2. Extino de comportamento respondente;

    3. Aquisio de comportamento operante;

    4. Extino de comportamento operante;

    5. Reaquisio de comportamento operante;

    Embora apresentem resultados interessantes, as simulaes

    utilizaram estmulos e respostas bem simples, sendo que apenas um ou dois

    neurnios ativos eram utilizados como estmulo e apenas um neurnio de sada era

    considerado como resposta. As prprias dimenses da rede tambm so bem

    reduzidas, pouco diferente, em nmero de neurnios, daquelas exibidas nas Figura

    9 e Figura 10. Alm disso, apesar de descrever em teoria o funcionamento de

    unidades inibitrias, nas simulaes tais unidades no foram empregadas, o que

    obviamente deixa muitas questes em aberto com relao sua importncia e

    possveis contribuies.

    Assim embora demonstre o funcionamento de princpios

    interessantes, a capacidade reduzida do modelo em termos do nmero de

    contingncias que pode armazenar, bem como possveis contribuies de fatores

    como inibio lateral, representam fatores limitantes para a implementao de

    sistemas autnomos mais complexos. Para o desenvolvimento de tais sistemas, os

    princpios que o modelo introduz devem primeiramente ser verificados em uma

    arquitetura mais complexa e com maior capacidade de armazenamento.

  • 3 MODELO DE REDE NEURAL ARTIFICIAL

    Neste captulo, apresenta-se a rede neural cujo modelo a proposta

    principal desse trabalho. O modelo baseado no j discutido trabalho de Donahoe,

    Burgos e Palmer (1993) e Donahoe e Palmer (1994) cuja teoria foi apresentada no

    Captulo 2 (Seo 2.2.3). O captulo divide-se em trs partes, apresentando

    arquitetura, raciocnio e aprendizagem.

    3.1 Arquitetura

    A rede neural consiste de M camadas. Existe uma camada sensorial

    ou camada de entrada (a camada inferior). Os neurnios sensores desta camada

    podem pertencer a diferentes classes, definidas segundo a natureza do estmulo que

    detectam. H uma camada de sada que define alteraes no estado do ambiente.

    As demais camadas so internas. As camadas consistem de neurnios dispostos em

    uma estrutura retangular NxN (Figura 11). Existe ainda uma estrutura adjunta,

    formada por um conjunto de neurnios sensores denominados US. Os neurnios US

    so conectados diretamente a neurnios da camada de sada, denominados

    respondentes (na Figura 11 os neurnios US so representados por um nico

    elemento). Os neurnios respondentes so aqueles que codificam a resposta

    reflexa. Tal resposta, segundo a teoria do condicionamento, quando emitida devido

    ao estmulo US definida como UR (unconditioned response). Caso ela seja emitida

    devido s ligaes sinpticas que se formaram desde a camada de entrada at os

    neurnios respondentes, passando pelo interior da rede, ento chamada de CR

    (conditioned response).

  • 4 0

    Camada de Sada

    Camadas Internas

    Camada Sensorial

    Figura 11 - Arquitetura de rede neural para quatro camadas.

    Cada neurnio estabelece conexes sinpticas segundo trs classes

    distintas, a saber: excitatrias inter-camadas, inibitrias e excitatrias intra-camadas.

    Conforme as denominaes j deixam claro, as classes definem sinapses de

    caractersticas especficas. Para um dado neurnio (no pertencente a camada de

    entrada) as sinapses excitatrias inter-camadas ocorrem com neurnios pr-

    sinpticos da camada anterior, situados em uma vizinhana cujo centro corresponde

    ao neurnio de posio relativa idntica ao neurnio ps-sinptico. Assim, as

    conexes excitatrias inter-camadas, a partir de neurnios pr-sinpticos para um

    nico neurnio ps-sinptico, definem uma figura espacial em forma de cone, tal

    como ilustra a Figura 11. A distribuio espacial de neurnios pr-sinpticos que

    estabelecem tais conexes segue uma distribuio de probabilidades Gaussiana

    (Figura 12). Por meio das sinapses excitatrias inter-camadas, os sinais fluem de

    camada em camada. As sinapses inibitrias esto presentes em conexes

    estabelecidas entre neurnios da mesma camada de forma que a distncia ao

    neurnio ps-sinptico maior que uma distncia mnima (vizinhana distante). Sua

    funo primordial regular a atividade dos neurnios, impedindo que ocorra uma

    exploso de atividade na rede, tendo tambm papel crucial na formao de grupos

    neurais. As sinapses excitatrias intra-camadas existem em conexes entre

    neurnios da mesma camada de forma que a distncia ao neurnio ps-sinptico

    menor que uma distncia mxima (vizinhana prxima). Tais sina