realizado por insia (instituto universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659...

20
Proyecto Nº de referencia SPIP2014-01430 Cantidad concedida: 44.733 € Modelo para la determinación de la exposición de los vehículos, a partir de los datos registrados en ITV, teniendo en cuenta sus características y antigüedad. (EXPO-ITV-DGT 2015) Realizado por INSIA (Instituto Universitario de Investigación del Automóvil)

Upload: others

Post on 19-Oct-2019

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Proyecto Nº de referencia SPIP2014-01430Cantidad concedida: 44.733 €

Modelo para la determinación de la exposición de los vehículos, a partir de los datos registrados en

ITV, teniendo en cuenta sus características y antigüedad. (EXPO-ITV-DGT 2015)

Realizado por INSIA (Instituto Universitario de Investigación del Automóvil)

Page 2: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Índice

• Justificación del proyecto

• Objetivos

• Metodología

• Resultados

• Aspectos innovadores

Page 3: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

La seguridad vial en España:

– Puesto destacado en la UE

– Buenas medidas de prevención y de Educación Vial

– El futuro de la seguridad vial

Número de muertes en accidentes de tráfico por millón de habitantes en 2014

Descenso en el número de muertes en accidentes de tráfico entre 2001 - 2014

Números Totales Progresión

– Puesto: 5º – Valor: 36 mpm

– Puesto: 1º – Valor: 70%

– Carnet por puntos– Radares– Campañas de concienciación– Educación Vial para niños

– Medidas específicas para diferentes colectivos

Es necesario evaluar los valores de exposición de colectivos específicos para determinar los niveles de riesgo reales

INTERÉS DEL PROYECTO

Justificación del proyecto

Page 4: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Justificación del proyecto

• 1.- Importancia de la exposición en la investigación accidentológica

– Datos de la exposición disponibles: • los más utilizados son vehículos-km, personas-km y

personas-horas de desplazamiento.• Exposición cuasi-inducida

– Carencia de datos desagregados precisos

• 2.- Exploración de datos de registros de ITV

Page 5: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Objetivos del proyecto

• Objetivo general: – Determinación de la exposición asociada al uso del vehículo con el grado de

desagregación que permiten la validación de los datos disponibles en registros ITV.

• Objetivos específicos:– Definir grupos de estudio = f(características técnicas, antigüedad y otros

factores de interés)� Posibles diferencias en su comportamientoaccidentológico

– Establecer criterios de depuración de los datos para la creación de bases“limpias”.

– Desarrollar algoritmos para el cálculo automatizado de los niveles deexposición de los vehículos, con el mayor grado de desagregación.

– Realizar estimaciones, predicciones con evaluación de los niveles deincertidumbre

– Evaluar diferencias significativas entre los diferentes grupos• características y niveles de movilidad homogéneos• tendencias y posibles factores de influencia en los niveles de exposición

Page 6: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Diagrama de bloque. Metodología

Page 7: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

BDITVAA CRITERIOS DE DEPURADO

newid FEC_INSPECCION NUM_ITV KM1 DeltaKM DeltaTiempo KM/AÑO

29GEIG7 31/01/2015 1 33078 30686 182 61540.6044

29GEIG7 02/08/2014 2 2392 -456156 147 -1132632.24

29GEIG7 08/03/2014 3 458548 25433 168 55256.2202

29GEIG7 21/09/2013 4 433115 45694 182 91639.0659

29GEIG7 23/03/2013 5 387421 1583 175 3301.68571

29GEIG7 29/09/2012 6 385838 385838 2334 60338.8475

29GEIG7 14/04/2012 7 ? - - -

29GEIG7 12/11/2011 8 ? - - -

29GEIG7 25/11/2011 9 ? - - -

29GEIG7 ? 15 ? - - -

Tiempo entre ITV

Movilidad negativa

Ausencia de kilometraje

8785 registros

650 AA

…..**

BDITVAA1

BDITVAA2

Criterios más robustos

Eliminación de autobuses con un solo registroSe eliminan los registros erróneosSe eliminan todos los registros del vehículo

Eliminación de colas

1566 registros

462 AA

DWITVAA

Cribado de los datos

** Tipo de vehículo, la masa del mismo o el número de plazas

Page 8: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Diferencia entre BBDD

FEC_INSPECCION NUM_ITV KM1 DeltaKM DeltaTiempo KM/AÑO

31/01/2015 1 33078 30686 182 61540.6044

08/03/2014 3 458548 25433 168 55256.2202

21/09/2013 4 433115 45694 182 91639.0659

23/03/2013 5 387421 1583 175 3301.68571

29/09/2012 6 385838 385838 2334 60338.8475

BDITVAA Procedimiento 1 BDITVAA1

Procedimiento 2

BDITVAA2

BDITVAA’

Proceso de selección de la

Base operacional

Se eliminan todos los registros de ese vehículo

Eliminación de colas

Criterios dudosos

Eliminación de autobuses con un solo registro

DWITVAA

BDITVAA1BDITVAA2

Cribado de los datos

8 CASOS

Comparación

Parte de la BDITVAA2:– Elimina todos los

registros de un vehículo con un registro erróneo

– Colas: <2000 y >250000 km/año

– NO elimina autobuses con un solo registro

8785 registros

650 AA

1566 registros

462 AA

CRITERIOS DE DEPURADO COMUNES

newid FEC_INSPECCION NUM_ITV KM1 DeltaKM DeltaTiempo KM/AÑO

29GEIG7 31/01/2015 1 33078 30686 182 61540.6044

29GEIG7 02/08/2014 2 2392 -456156 147 -1132632.24

29GEIG7 08/03/2014 3 458548 25433 168 55256.2202

29GEIG7 21/09/2013 4 433115 45694 182 91639.0659

29GEIG7 23/03/2013 5 387421 1583 175 3301.68571

29GEIG7 29/09/2012 6 385838 385838 2334 60338.8475

29GEIG7 14/04/2012 7 ? - - -

29GEIG7 12/11/2011 8 ? - - -

29GEIG7 25/11/2011 9 ? - - -

29GEIG7 ? 15 ? - - -

Tiempo entre ITV negativo

Movilidad negativa

Ausencia de kilometraje

Page 9: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Metodología de análisis: Árboles de Decisión

MODELOS CART

Métodos de regresión no paramétrica: relaciones entrada salida tipo histograma, muy flexibles para modelar relaciones complejas.

2 D 3 D

Page 10: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Metodología de análisis: conjuntos de Árboles

RANDOM FOREST: CART + complejo + variado

Proceso de Bootstrap + Muestreo aleatorio sin reposición: Se realiza en primer lugar un muestreo aleatorio con reposición para los datos de partida y

otro sin reposición para las variables independientes en cada partición de nodos

DYNATREE: VERSIÓN BAYESIANA DE CART

Modelado bayesiano con probabilidad subjetivaTécnicas computacionales muy sofisticadas (particlelearning)

Page 11: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Metodología de análisis: CART y conjuntos de Árboles

IMPORTANCIA DE VARIABLES

CART

RANDOM FOREST

POTENCIA

PLAZAS

ANTIGÜEDAD

EDAD_ITV

CILINDRADA

PESO

AÑO_ITV

ECM PUREZA NODO

SELECCIÓN DE VARIABLES

PREDICCIÓN DE LA EXPOSICIÓN CON CUANTIFICACIÓN DE LA INCERTIDUMBRE

Page 12: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

randomForest MSE reduction, ntree = 500 * dynaTree (ntree=2000) **

DATA_PLAZAS 23,74 17,58 DATA_ANTIG 19,68 36,41 DATA_EDAD_ITV 15,32 - DATA_POT 15,16 - DATA_PESO 9,88 15,59 DATA_CIL 8,92 15,20 DATA_ANO_ITV 7,30 15,22

100,00 100,00

* Efecto total= efecto individual de la variable+ + conjunto con el resto

** Efecto individual de la variable

Metodología de análisis: conjuntos de Árboles RF y Dynatree

Page 13: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Resultados. Estudio piloto: Movilidadde AA

• Movilidad de conglomerados de vehículos homogéneos

VALIDACIÓN CON DATOS EXTERNOS (MFOM – EMT)

Ejemplos

Movilidad (km/año)

LI 95%Predicción

puntual LS 95%

E1.1: A9-Eitv9-añoins2015-CC12000-CF(4º)40-Pe30000-

Pl7520.370,50 75.602,80 155.643,40

E1.2: A1-1-2015-12000-(4º)40-30000-50 20.370,80 58.686,40 137.159,90

E1.3: A17-17-2015-12000-(4º)40-30000-75 6.150,00 24.816,30 57.673,00

E1.4: A4-1-2012-8000-(3º)30-30000-25 7.744,30 38.952,80 76.061,40

E1.5: A7-7-2015-16000-(4º)50-30000-100 34.416,20 77.074,90 140.834,60

E1.6: A7-4-2012-12000-(4º)40-30000-75 37.680,10 75.865,20 137.536,80

Page 14: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Resultados. Estudio piloto: Movilidadde AA

• Movilidad de conglomerados de movilidad homogénea

Árbol con menor error respecto a los datos observados (ntree=500)

Page 15: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Conclusiones

• Creación de una base estratégica operacional o DataWarehouse1. Criterios de limpieza.

2. Análisis de muestras creadas con reglasmulticriterio. Con cuantificación de la bondad deajuste con modelos de bosques de árboles deregresión.

• Desarrollo de un Sistema experto para la estimación de la movilidad de vehículos del parque

RELATIVAS A LA METODOLOGÍA

Page 16: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Conclusiones

RELATIVAS AL DEPURADO DE DATOS

– Las bases elaboradas a partir de registros ITV ofrecen numerosas carencias. Un buen depurado es esencial.

– Se recomienda una mejora en el proceso de toma de datos

PUNTOS FUERTES

– Pruebas de selección de la base operacional DWITVAA

– Metodología– Representatividad de la muestra

MEJORAS

– Criterios más ajustados (colas)

BDITVAA

8785 registros

650 autobuses

DWITVAA

1566 registros

462 autobuses

Page 17: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Conclusiones

SISTEMA EXPERTO

ESTIMACIÓN - PREDICCIÓN

– VALORES DE MOVILIDAD DESAGREGADA

– Predicción de la movilidad de un vehículo con todas las características definidas o solo aquellas de interés.

– MÉTODOS ESTADÍSTICOS AVANZADOS

– Selección de variables– Cuantificación de la

incertidumbre

RECOMENDACIONES

– REVISION DE LOS DATOS RECOGIDOS EN LAS ITV

– Dispersión de los datos de la fuente

– INCORPORACION DE OTROS DATOS DE INTERÉS EN LAS ITV

VALIDACIÓN CON DATOS EXTERNOS

Page 18: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Aspectos innovadores

• Una exploración de los datos de los registros de las ITV.– La explotación de los datos disponibles de movilidad de los

vehículos

• Criterios y métodos estadísticos avanzados:– La búsqueda de asociaciones entre variables para

caracterizar la movilidad de los vehículos– La identificación de diferencias en la movilidad entre

categorías y segmentos de vehículos– La estimación de la movilidad entre categorías y segmentos

de vehículos– La cuantificación robusta de la incertidumbre de las

estimaciones– Un análisis de sensibilidad o importancia de las variables

que caracterizan la movilidad de los vehículos

Page 19: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

• Estudios de impacto ambiental, Losmodelos actuales como el COPERT, utiliza datosde movilidad sumamente agregados

• Análisis de detección de defectosencontrados en las inspecciones técnicas y sunaturaleza, en función de la movilidad de losvehículos.

• Verificación de la adecuación de lanormativa actual en relación a la periodicidadde las inspecciones de diferentes tipos devehículos, segmentos, etc.

Otras aplicaciones

Page 20: Realizado por INSIA (Instituto Universitario de ... · 21/09/2013 4 433115 45694 182 91639.0659 23/03/2013 5 387421 1583 175 3301.68571 29/09/2012 6 385838 385838 2334 60338.8475

Bibliografía

1) Breiman, L., Friedman, J., Olshen, R. y Stone, C., Classification and Regresion Trees,Wadsworth International Group. Año 1984.

2) Breiman, L., Random forests-random features, Technical Report, StatisticsDepartment, University of California. Año 1999.

3) Breiman, L., Random Forests, Machine Learning, 45, pp. 5-32. Año 2001.4) Azzalini, A., & Scarpa, B. (2012). Data Analysis and Data Mining: An Introduction,

(ISBN 978-0-19-976710-6).5) Daniel Peña, Regresión y diseño de experimentos. Alianza editorial. Año 2002.

ISBN 978-8-42-069389-7.6) Pang-Ning Tan., Michael Steinbach and Vipin Kumar, Introduction to Data Mining,

2006.7) Jiawei Han and Micheline Kamber: Data Mining: Concepts and Techniques, 2006.8) Clifton D. Sutton, Classification and Regression Trees, Bagging and Boosting, 2005.

9) César Pérez López y Daniel Santín, Minería de datos. Técnicas y herramientas,2007.

10) Hastie, T., Tibshirani, R., Friedman, J. (2008). The Elements of Statistical Learning:data mining, inference and prediction, Springer