xavier: navegação baseado em pomdp sven koenig, reid g. simmons apresentador: pedro mitsuo shiroma
Post on 07-Apr-2016
220 Views
Preview:
TRANSCRIPT
Xavier: Navegação Baseado em POMDP
Sven Koenig, Reid G. Simmons
Apresentador: Pedro Mitsuo Shiroma
Definição do Problema
• Navegação robusta de um robô móvel, por longos períodos de tempo, em um ambiente interno não-estruturado.
• Caminhar por corredores, por longos períodos de tempo, sem perder-se.
Dificuldades
X
Imprecisão nos atuadores
X
Imprecisão nos sensores.
Abordagens Existentes
• Mapas métricos• + Fácil atualização dos dados de odometria para
o mapa,• - Problema de dead-reckoning
• Mapas topológicos• + Compactação dos dados• - Incerteza nos sensores
• Navegação métrica
Abordagens Existentes
relatório do sensor
relatório de movimento
•Navegação baseado em landmark
X
Abordagens Existentes
• Incapazes de lidar:• Com múltiplas possibilidades para a postura do robô,
• E lidar, de forma unificada, com as incertezas nos:• atuadores,• sensores,• interpretação dos dados,• posição inicial,• caráter estático da cena
Trabalhos Relacionados
• Como trabalhar de maneira segura em um ambiente impreciso?
• Filtro de Kalman – Unimodal • Redes Bayesianas – Espaço discreto• POMDP
Trabalhos Relacionados: Dervish
• Dervish:• Mapa topológico• Planejamento externo• “Intuição”
• Xavier:• Misto de mapa topológico e métrico• Planejamento inerente à arquitetura• Formalismo matématico (POMDP)
Navegação POMDP
•Partially Observable Markov Decision Process
Processo de Markov• AFN:
• Alfabeto = ações, • Transição = probabilidades,
• Propriedade de Markov: O próximo estado é determinado exclusivamente pelo estado atual e a ação tomada.
cara coroa
Jogar/0.5
Cair no chão/0.9
Cair no chão/0.1 Jogar/0.5
Jogar/0.5
Jogar/0.5
Processo de Decisão de Markov
• 4-upla: (S, A, T, R):•S = Conjunto de estados,•A = Conjunto de ações,•T:S£A ! ? = função de transição de estado,•R:S£A !< = função de recompensa
• A melhor ação nem sempre é aquela que traz a maior recompensa imediata: Planejamento a longo prazo.
Ações Determinísticas =S x Estocásticas = p(s’/s,a)
Prog. Dinâmica (Bellman):V(s) = maxa2 A [R (s)+ s’ 2 Sp(s’/s,a)V(s’)]
Processo de Decisão de Markov
• Solução para um MDP: Política • Política: : S ! A
• Programação linear• Value Iteration Algorithm: Horizonte de tempo:
1, 2,..., 1
Exemplo
?
a(s) = arg maxa2 A [R (s,a) + s’ 2 Sp(s’/s,a)V(s’)]
Processo de Decisão de Markov
1. Determine o estado corrente s,2. Execute a ação s3. Volte para o primeiro passo,• Assume observação total: O novo estado é
conhecido pelo sistema
Processo de Decisão de Markov Parcialmente Observável
• Observações O,• Uma distribuição para as observações,• e para o estado inicial.
Processo de Decisão de Markov Parcialmente Observável
• M = (S, O, , A, s, p, q, r), onde :• S = conjunto de estados,• O = conjunto de observações, = distribuição do estado inicial,• A(s) = ações possíveis para o estado s,• s = estado atual,• p(s’/s,a) = função de transição,• q(o/s,a) = função de observação,• r(s/a) = função de recompensa.
Processo de Decisão de Markov Parcialmente Observável
Processo de Decisão de Markov Parcialmente Observável
• O estado atual é observado,• Decisão requer manter um histórico do
ponto de partida, ações tomadas, observações realizadas: Não-Markoviano,
• É necessário manter o histórico?• Não! Estado de crença: “Onde eu acho que
estou”
Processo de Decisão de Markov Parcialmente Observável
• Solução exata: NP –difícil• Heurísticas:
• MLS (Most Likely State),• Votação,• Witness
• Grid-based• Fatorar dependências.
Processo de Decisão de Markov Parcialmente Observável
• q,p: Estimativa inicial, aprendizado,• Mapa métrico = estados,• Modelo atuador = p,• Modelo sensores = q.
Arquitetura Xavier
Planejador TarefasPlanejador TrajetóriasNavegadorDesvio de ObstáculosParada Emergencial
Comportamento ObjetosMudanças no mundoIdentificação objetosMonitoramento MudançasConstrução mapasExploraçãoVagarDesvio de Obstáculos
Subsumption ArchitectureArquitetura Xavier
Arquitetura XavierMapa topológicoModelo atuadoresModelo sensoresModelo portas
POMDP Geração da política
Seleção diretivas
Geração movimentos
MotoresOdometriaSonar
Grade de ocupação
Relatório sensores Relatório atuadores
Localização
Alvos
Xavier
Mudanças na direção e distância percorrida
Detector de portas, espaços livres.
Estimação da(s) postura(s)
Processo Off-line
Compilador POMDP Movimentos
desejados
Desvio de obstáculos
Relatórios
• Movimento: Discretizado com 1 metro• Sensores:
• Esquerda: Incerto, parede, abertura pequena, abertura média, abertura grande;
• Direita: Incerto, parede, abertura pequena, abertura média, abertura grande;
• Frente: Incerto, parede.
Modelo Orientação
• Robô possui 6 d.o.f.: Como representar rotações?
• Cada postura é representada por quatro estados:
Modelo Corredor
• Conhecimento métrico preciso
Modelo Corredor
• Conhecimento métrico impreciso
Modelo Junção
Exemplo
Exemplo
Exemplo
Exemplo
• Animação
Como Alinhar-se?
• Detector de retas na grade de ocupação:• Escorregamento rotacional não é tratado pelo
modelo proposto.
Múltipla detecção de características
Conclusões
• Caminhar por corredores, que formam ângulos retos, por longos períodos de tempo, sem perder-se completamente.
• Vantagens:• Representação multimodal;• Acoplado com o planejamento;
• Desvantagens:• Requer discretização do ambiente;• Milhares de estados: Custo computacional;
Conclusões
• Exemplo prático pobre,• Modelar especificamente as junções,• Localização de Monte-Carlo:
• Utiliza Filtro de Partículas;• Espaço contínuo;• Computacionalmente tratável.
top related