mobotlearn aprendizado por reforço aplicado à navegação de robôs aluno: bruno toshyaki maeda...
TRANSCRIPT
![Page 1: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/1.jpg)
MobotLearnAprendizado por reforço aplicado à navegação de robôs
Aluno: Bruno Toshyaki Maeda TrevelimOrientadora: Profa. Dra. Anna Helena Reali Costa
![Page 2: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/2.jpg)
Objetivo
•Implementação de um Sistema de navegação autônoma para robôs móveis em ambientes fechados, que seja capaz de adequar sua política de atuação de acordo com o ambiente.
![Page 3: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/3.jpg)
Motivação
•Pesquisa acadêmica.•Conhecimento nas áreas de Aprendizado
de Máquinas e Robótica.•Extensão do projeto para aplicações
específicas como, por exemplo, exploração de terrenos.
![Page 4: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/4.jpg)
Aprendizado por reforço (AR)
•Descreve os objetivos de um sistema de planejamento por meio de reforços (recompensas) recebidos nas interações do agente com o ambiente.
•Eficaz em sistemas que atuam em ambientes nos quais não se conhece os modelos da dinâmica.
![Page 5: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/5.jpg)
Aprendizado por reforço (AR)
AMBIENTE
AGENTE
ação
estado
recompensa
![Page 6: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/6.jpg)
Aprendizado por reforço
•1 – O agente observa o estado do ambiente.
•2 – O agente escolhe e aplica uma ação, baseado em uma política de controle.
•3 – o agente recebe uma recompensa imediata do ambiente.
![Page 7: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/7.jpg)
Recompensa
•Define as metas do problema.•Mapeamento Estado x Recompensa
▫Quantifica numericamente a “desejabilidade” dos estados do ambiente.
![Page 8: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/8.jpg)
Política de Controle
•Representa o comportamento do agente diante de determinadas situações.
•Mapeamento Estado x Ação.
•O aprendizado consiste em atualizar iterativamente a política de forma a maximizar as recompensas recebidas à longo prazo (utilidade).
![Page 9: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/9.jpg)
Avaliação de Política
•Quantifica o quão “bom” é estar em determinado estado de forma a cumprir a meta do problema.
•Uma forma de medir a qualidade da política é por meio da função valor-ação Q(s, a).▫Q(s, a) é o valor de se tomar uma ação a no
estado s e depois seguir com com a política de controle a partir do novo estado.
![Page 10: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/10.jpg)
Q-Learning
•Técnica de AR que avalia e atualiza a função valor-ação Q por meio de sucessivas interações com o ambiente.
![Page 11: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/11.jpg)
Implementação
•Linguagem de programação C++.•Bibliotecas (libraries) de auxílio:
▫Boost▫ARIA: conexão com o robô.▫SonARNL: sistema de localização por meio
dos sensores do robô.•MobileSim (MobileRobotics): simulador
do robô.•MobileEyes(MobileRobotics): interface
remota de monitoramento do robô.
![Page 12: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/12.jpg)
Implementação
![Page 13: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/13.jpg)
Arquitetura
![Page 14: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/14.jpg)
Arquitetura - RLCore
![Page 15: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/15.jpg)
Plataforma
•Robô Pioneer P2-DX▫8 sonares▫Odômetro
•Computador de bordo▫Notebook conectado ao robô
![Page 16: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/16.jpg)
Resultados esperados
•Abordagem eficaz e eficiente para a navegação autônoma de robôs móveis, comprovada por meio de experimentos tanto em ambiente simulado quanto real.
![Page 17: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/17.jpg)
Ambiente de Testes I•6 x 6 metros•Discretização
▫x – 1 metro▫y – 1 metro▫theta – 45°
6 x 6 x 8 estados(288estados)
![Page 18: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/18.jpg)
Plano de atividades•1 – Estudo de AR•2 – Familiarização com o robô Pioneer P2-DX e
seus comandos•3 – Definição da arquitetura do sistema•4 – Implementação do sistema•5 – Experimentos iniciais em ambiente
simulado•6 – Avaliação do desempenho e ajuste da
modelagem•7 – Experimentos exaustivos no ambiente real•8 – Escrita da monografia
![Page 19: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/19.jpg)
Plano de atividades
![Page 20: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc150497959413d8e34c1/html5/thumbnails/20.jpg)
FIM