diseno e-implementacion-equipo-robots-autonomos-decisiones-tiempo-real
TRANSCRIPT
1
“DISEÑO E IMPLEMENTACIÓN DE UN EQUIPO DE ROBOTS AUTÓNOMOS CON DECISIONES EN TIEMPO REAL:
FÚTBOL ROBÓTICO - COMPONENTE INTELIGENTE”
2
Contenido
• Introducción y Objetivos.• Motivaciones.• Técnicas de movimiento utilizadas por el equipo
FUROEC en las competiciones de la FIRA 2002 World Cup.
• Control de movimiento de los micro-robots en la MIROSOT.
• Aprendizaje por refuerzo aplicado al fútbol robótico.• Contribuciones.• Futuros Trabajos.
4
Introducción
MóduloRadio
Frecuencia
Componente de Visión
Robots:Componente Electromecánico
ComponenteInteligente
5
Objetivos
• Desarrollo del componente inteligente.
• Utilizar y reforzar técnicas y métodos existentes.
• Implementar algoritmos de orientación, definición de trayectorias y métodos de aprendizaje.
• Incursionar en diversas áreas de investigación.
7
Motivaciones
• Plataforma excelente para el estudio y desarrollo de los Sistemas Multiagente.
• Formar jóvenes investigadores en el campo de la robótica, visión e inteligencia artificial.
• Resolver problemas de alta complejidad.
• Pertenecer a una comunidad científica de investigadores a nivel mundial.
8
Contenido
• Introducción y objetivos.
• Motivaciones.
• Técnicas de movimiento utilizadas por el equipo FUROEC en las competiciones de la FIRA 2002 World Cup.
9Técnicas de movimiento utilizadas por el equipo FUROEC
Ambiente
Sensores
Efectores
Percepciones
Acciones
Agente
10
- Sistemas multiagente homogéneos.
-Comunicativos y no comunicativos.
- Sistemas multiagente heterogéneos.
-Comunicativos y no comunicativos.
Técnicas de movimiento utilizadas por el equipo FUROEC
Clasificación de los Sistemas Multiagente
11
Sistema Multiagente Homogéneo No Comunicativo
Técnicas de movimiento utilizadas por el equipo FUROEC
13
Sistema Multiagente Heterogéneo No Comunicativo
Técnicas de movimiento utilizadas por el equipo FUROEC
14
Sistema Multiagente Heterogéneo Comunicativo
Técnicas de movimiento utilizadas por el equipo FUROEC
15
Clasificación de Sistemas de Fútbol Robótico
Sistemas sin inteligencia Sistemas con inteligencia
Técnicas de movimiento utilizadas por el equipo FUROEC
16
Clasificación de Sistemas de Fútbol Robótico
Técnicas de movimiento utilizadas por el equipo FUROEC
19
Algoritmo básico para patear la pelota
x
y
arco d el eq u ip ocon trario
Xd x'
d y'
d y
d x
targ et.x= b all.p os ition .x+ d x’targ et.y= b all.p os ition .y+ d y ’
targ et(x,y )
B U E N A U B IC AC IO N (T AR G E T ) P AR A P AT E AR L A P E L O T A
p elota
Técnicas de movimiento utilizadas por el equipo FUROEC
20
Algoritmo para salir de los bordes del campo de juego
Técnicas de movimiento utilizadas por el equipo FUROEC
21
Algoritmo del arquero de acuerdo a la posición de la pelota
#define G_OFFSET 15estimado_x=borde_izq + G_OFFSETestimado_y=(borde_inf - borde_sup)/2 -((borde_inf + borde_sup)/2 - pelota_x) *G_OFFSET/(borde_der - pelota_x)
Utilizando algoritmos deposic ionamiento se llegaal punto estimado donde
iría la pelota.
borde superior
borde derechoborde izquierdo
borde inferior
a)
dis tancia > 50 unidades
G_OFFSET
Puntoestimado
b)
Técnicas de movimiento utilizadas por el equipo FUROEC
22
Algoritmo del arquero de acuerdo a la posición de la pelota
c)
Punto estimado
estimado_x= borde_izq +G_OFFSETestimado_y=pelota_y
Puntoestimado
distancia > 50 unidades
estimado_x=pelota_xestimado_y=pelota_y
d)
Técnicas de movimiento utilizadas por el equipo FUROEC
23
Estrategia general del equipo
Técnicas de movimiento utilizadas por el equipo FUROEC
Zonaatacante 1
zonaatacante 2
zonadefensa 1
zonadefensa 2
zona
arqu
ero
MODOS DE ATAQUE
DEFENSA
NORMAL
ATAQUE
ZONAS DE JUEGO INDIVIDUALES
25
Contenido
• Introducción y Objetivos.• Motivaciones.• Técnicas de movimiento utilizadas por el
equipo FUROEC en las competiciones de la FIRA 2002 World Cup.
• Control de movimiento de los micro-robots en la MIROSOT.
26
Cinemática del robot
L r
V LV C
V R
Y
X C
Y C
XO
C
Control de movimiento de los micro-robots en la MIROSOT.
27
Parámetros de ubicación del robot
d y
d x
22 d yd xd
p u n to d esead o
a n g u loe le ne rro r
d is ta n c ialae ne rro rd
v R
v L
d
d
**
**
kk
kk
p
p
V c +
V c -
.
.
Kp:ganancia de realimentación proporcional
Kd: ganancia de realimentación derivada del tiempo
Control de movimiento de los micro-robots en la MIROSOT.
28
Objetivo:
Generación de campos potenciales para determinar la posición final y evadir obstáculos en tiempo real.
???
a) b) c)
obstaculos
robot
pelotaobstaculos
robot
pelota
trayectoria
Método de campos potenciales para posicionamiento y orientación del robot
Control de movimiento de los micro-robots en la MIROSOT.
29
Método de campos potenciales para posicionamiento y orientación del robot.
Implementación del campo potencial de repulsión para evitar obstáculos.
Control de movimiento de los micro-robots en la MIROSOT.
Implementación del campo potencial de atracción para patear la pelota.
30
x
g r
n
N(p)
13
2
4
5
6
78
9
10
12
11
(p)
direccióndeseada
de lapelota
y
Implementación del campo potencial de atracción para patear la pelota
Campo para una posición g deseada.
dtdθ.
θ
cθ(p)θθKθpKω
)(
N.
d
pgprnpgp
Control de movimiento de los micro-robots en la MIROSOT.
31
Implementación del campo potencial de atracción para patear la pelota
Control de movimiento de los micro-robots en la MIROSOT.
g
g '
n
N(p)
r'ancho del
robot direccióndeseada de la
pelota
p(x,y)
r
campo para la posición deseada g.
32
Implementación del campo potencial de atracción para patear la pelota
Control de movimiento de los micro-robots en la MIROSOT.
33
Implementación del campo potencial de atracción para patear la pelota
Control de movimiento de los micro-robots en la MIROSOT.
34
Control de movimiento de los micro-robots en la MIROSOT.
Método de campos potenciales para posicionamiento y orientación del robot.
Implementación del campo potencial de atracción para patear la pelota.
Implementación del campo potencial de repulsión para evitar obstáculos.
35
Implementación del campo potencial de repulsión para evitar obstáculos
Lp
R (p)
tR o
ob s tá cu lo
Generación del campo univectorial de repulsión para evitar un obstáculo
Control de movimiento de los micro-robots en la MIROSOT.
36
Implementación del campo potencial de repulsión para evitar obstáculos
Control de movimiento de los micro-robots en la MIROSOT.
Ro Moo(x,y) g(objetivo)
p(x,y)
Zona del campo univectorial R(p) que permite evitar un obstáculo
37
Implementación del campo potencial de repulsión para evitar obstáculos
Control de movimiento de los micro-robots en la MIROSOT.
38
Implementación del campo potencial de repulsión para evitar obstáculos
Control de movimiento de los micro-robots en la MIROSOT.
Ro
d
(ox,oy)
obstáculo(gx,gy)
pelota
(px,py)
robot
39
Implementación del campo potencial de repulsión para evitar obstáculos
Control de movimiento de los micro-robots en la MIROSOT.
40
Control de movimiento de los micro-robots en la MIROSOT.
Método de campos potenciales para posicionamiento y orientación del robot.
Implementación del campo potencial de atracción para patear la pelota.
Implementación del campo potencial de repulsión para evitar obstáculos.
Función de predicción para estimar la trayectoria de la pelota.
41
Función de predicción para estimar la trayectoria de la pelota (1)
Control de movimiento de los micro-robots en la MIROSOT.
42
Función de predicción para estimar la trayectoria de la pelota (2)
Control de movimiento de los micro-robots en la MIROSOT.
43
Contenido
• Introducción y Objetivos.• Motivaciones.• Técnicas de movimiento utilizadas por el equipo
FUROEC en las competiciones de la FIRA 2002 World Cup.
• Control de movimiento de los micro-robots en la MIROSOT.
• Aprendizaje por refuerzo aplicado al fútbol robótico. • Contribuciones.• Futuros Trabajos.
44
Aprendizaje por refuerzo aplicado al fútbol robótico.
Conceptos generales de aprendizaje por refuerzo y aprendizaje Q.
Aplicación del aprendizaje Q modular.
45
Clasificación de Aprendizaje de Maquina
Supervisado
Es implementado en situaciones donde es posible percibir las entradas y salidas.
No Supervisado
Es implementado en ambientes donde no se tiene certeza de cuales serán las salidas.
Conceptos generales de aprendizaje por refuerzo y aprendizaje Q.
46
Conceptos generales de aprendizaje por refuerzo y aprendizaje Q
Aprendizaje por Refuerzo
Descripción
Modelo de Aprendizaje por Refuerzo
Aprendizaje Q
Algoritmo de Aprendizaje Q
47
Aprendizaje por Refuerzo
DescripciónEs considerado como un tipo de aprendizaje no supervisado.
Hacer que un agente aprenda una conducta a través de iteraciones de pruebas y errores en un ambiente dinámico.
Usa las recompensas de una satisfactoria función de
agente.
Conceptos generales de aprendizaje por refuerzo y aprendizaje Q.
48
Modelo de Aprendizaje por Refuerzo
T: F. de Transiciones
B: Agente
I: F. de Entradas
R: F. de Recompensas
i: Entrada sensorial
s: Estado actual
r: Recompensa
a: Acción
Conceptos generales de aprendizaje por refuerzo y aprendizaje Q.
49
Aprender una política, que para cada estado, indique cuál es la mejor acción a ejecutar para alcanzar un objetivo dado.
El agente aprende una función acción –valor que para cada acción ejecutada en un estado obtiene un
valor, llamado valor Q, el cual se guarda en la tabla Q.
El valor Q expresa la utilidad esperada al emprender una acción en un estado determinado.
Conceptos generales de aprendizaje por refuerzo y aprendizaje Q.
Aprendizaje Q
50
Para cada par (s , a) inicializar la tabla Q(s,a) a [0 , 0.02]. Observar el estado actual s. Repetir n veces:
• Seleccionar una acción a y ejecutarla • Recibir el refuerzo inmediato r • Observar el nuevo estado s' • Actualizar la entrada de la tabla, Q(s,a) con la
ecuación:
• Asignar a s el estado s'
])a',[s'Q'maxγ(rαa][s,)Q'α(1a][s,Q' 1na'n1nnn
Conceptos generales de aprendizaje por refuerzo y aprendizaje Q.
Algoritmo de Aprendizaje Q
51
Aprendizaje por refuerzo aplicado al fútbol robótico.
Conceptos generales de aprendizaje por refuerzo y aprendizaje Q.
Aplicación del aprendizaje Q modular.
52
Aplicación del aprendizaje Q modular
Arquitectura del aprendizaje Q Modular
Región de Conflicto.
Agentes Individuales y Agentes Acoplados
Fases de Aprendizaje
Individual y Modular
Estados
Acciones
Resultados del Aprendizaje - fase aprendizaje individual
Resultados del Aprendizaje - fase Q modular
53
Arquitectura del aprendizaje Q Modular
RECOMPENSA
ESTADO AMBIENTE
AGENTE
MODULO 1 DEAPRENDIZAJE
MODULO 2 DEAPRENDIZAJE
MODULO 3 DEAPRENDIZAJE
MODULOMEDIADOR
ACCION
Aplicación del aprendizaje Q modular
54
Región de Conflicto
Y
X
Area Oponente
Atacante
DefensaArq
ue
ro
Re
gió
n 1
Pelota
Aplicación del aprendizaje Q modular
55
Agentes Individuales y Agentes Acoplados
Agente 2
Agente 1Pelota
Agente Acoplado
(b)
Agente 2
Agente 1
Pelota
AgentesIndividuales
(a)
Aplicación del aprendizaje Q modular
56
Fases de Aprendizaje (1)
Existen 2 fases de aprendizaje:
Individual y Modular
En la fase de aprendizaje individual cada agente explora el ambiente de trabajo para obtener información de los estados, el jugador cambia su acción de forma aleatoria cada vez que se encuentra con la pelota, para actualizar de esta manera la tabla Q con valores reales.
Aplicación del aprendizaje Q modular
57
Estos valores son usados por el módulo mediador en la fase de aprendizaje modular, para seleccionar la acción que considere más adecuada
d a),(sQ )d,a),,f(Q(s iiiiiiiiii
Fases de Aprendizaje (2)
Aplicación del aprendizaje Q modular
60
La tabla muestra la lista de acciones que el agente acoplado puede seleccionar en la Región 1. Por ejemplo, si la Acción 0 es seleccionada, el robot_1 será atacante y el robot_2 será defensa.
Acciones
Aplicación del aprendizaje Q modular
63
Contenido
• Introducción y Objetivos.• Motivaciones.• Técnicas de movimiento utilizadas por el equipo
FUROEC en las competiciones de la FIRA 2002 World Cup.
• Control de movimiento de los micro-robots en la MIROSOT.
• Aprendizaje por refuerzo aplicado al fútbol robótico. • Contribuciones.• Futuros Trabajos.
64
Contribuciones
• Movimiento rápido del robot para patear la pelota.• Habilidad mejorada para salir de los bordes de la
cancha.• Algoritmo optimizado para definir el
comportamiento del arquero usando estimación de trayectorias.
• Especificación de las condiciones para aplicar campos potenciales univectoriales.
• Aplicación del algoritmo de aprendizaje Q modular.• Logros adicionales obtenidos con la ejecución de este
proyecto.