contabilidad en egee/wlcg

37
EGEE-II INFSO-RI- 031688 Enabling Grids for E-sciencE www.eu-egee.org EGEE and gLite are registered trademarks Contabilidad en EGEE/WLCG Pablo Rey, Javier López, Carlos Fernández / CESGA Jornadas Técnicas RedIRIS 2007 Campus de Mieres de la Univ. de Oviedo 23 Noviembre 2007

Upload: umika

Post on 06-Jan-2016

31 views

Category:

Documents


0 download

DESCRIPTION

Pablo Rey, Javier López, Carlos Fernández / CESGA Jornadas Técnicas RedIRIS 2007 Campus de Mieres de la Univ. de Oviedo 23 Noviembre 2007. Contabilidad en EGEE/WLCG. Esquema. Introducción APEL Portal de Contabilidad de EGEE/WLCG CPU Almacenamiento Análisis de la utilización del Grid - PowerPoint PPT Presentation

TRANSCRIPT

Accounting and MonitoringContabilidad en EGEE/WLCG
Jornadas Técnicas RedIRIS 2007
23 Noviembre 2007
EGEE-II INFSO-RI-031688
CPU
Almacenamiento
¿Quien?
¿Cómo?
¿Cuando?
Que vamos a ver en esta presentación?:
En primer lugar decir que no es una presentación técnica sino que se mostraran resultados.
Veremos tanto el portal de Contabilidad de CPU como el de Almacenamiento.
Analizando los datos de contabilidad almacenados durante los dos últimos años intentaremos mostrar: Quien, como y cuando se ha usado la infraestructura EGEE/WLCG.
EGEE-II INFSO-RI-031688
> 40.000 CPUs
> 120.000 trabajos por día
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
La infraestructura de EGEE/WLCG ha alcanzado un tamaño considerable: casi 40.000 CPUs distribuidas entre 240 sitios diferentes, …..
... Y todavía esta creciendo.
Conseguir el contabilidad de esta infraestructura es un desafío
Para conocer como y por quien se están utilizando los recursos y obtener información del uso efectivo de los recursos es necesario la contabilidad.
EGEE-II INFSO-RI-031688
Se obtienen los datos después de que acaba el trabajo
Los datos contienen la información completa del consumo de recursos
Adecuado para servicios de pago a posteriori
Ejemplo: teléfono, electricidad, gas, …
Contabilidad en tiempo real (DGAS, SGAS)
Determinación incremental del valor de los recursos mientras el trabajo se está ejecutando
Reducción progresiva del saldo
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
EGEE-II INFSO-RI-031688
APEL: Arquitectura
Obtiene la información de contabilidad de los trabajos en cada sitio
Envía dicha información a un repositorio central (R-GMA)
Agrupación de datos
Los sitios de OSG, Nordugrid, INFN-Grid y GridPP que colaboran con WLCG también publican sus datos en la base de datos de contabilidad del GOC (por otros medios)
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
Para recoger los datos de contabilidad procedentes de los logs disponibles en cada sitio se utiliza Apel.
Después de procesar los logs, Apel publica la información recogida a la base de datos del GOC usando R-GMA.
Periódicamente se generan unas tablas sumarizadas las cuales serán usadas posteriormente por el portal de contabilidad.
Se recogen datos de contabilidad de todos los participantes en EGEE y WLCG.
… además de los datos de sitios pertenecientes a otros Grid como OSG, NorduGrid, INFN-Grid o GridPP.
EGEE-II INFSO-RI-031688
Cumple con el estándar GMA definido por el GGF
Sintaxis muy similar a SQL
Arquitectura:
Productor/Consumidor
Esquema
Registro
Seguridad
Conexiones seguras: Se requiere un certificado grid (de máquina o de usuario) para consultar los datos
http://www.r-gma.org/
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
R-GMA proporciona un servicio para información, monitorización y logging en un entorno de computación distribuida.
R-GMA hace que la información aparezca como una gran base de datos relacional que puede ser consultada para encontrar la información requerida. Consiste en un Productor que publica la información y un Consumidor que la consulta.
Los Productores se registran en el Registro y describen el tipo y estructura de la información que quieren hacer disponible en el Grid. Los Consumidores
Pueden consultar el Registro para encontrar que información esta disponible y localizar los Productores que proporcionan esta información. Una vez que que el Consumidor conoce esa información, puede contactar directamente con el Productor para obtener los datos.
El Esquema es donde se define la estructura de cada tabla.
EGEE-II INFSO-RI-031688
+--------------------+--------------+------+-----+------------+-------+
EGEE-II INFSO-RI-031688
EGEE-II INFSO-RI-031688
APEL: Tabla LcgRecordsSync_v2
Esta tabla nos permitirá posteriormente saber si los sitios están publicando correctamente los datos o no
Información agrupada por mes y año
+-----------------+--------------+------+-----+------------+-------+
+-----------------+--------------+------+-----+------------+-------+
EGEE-II INFSO-RI-031688
Sitio
VO
Mes
Año
EGEE-II INFSO-RI-031688
+---------------+---------------+------+-----+---------+-------+
EGEE-II INFSO-RI-031688
http://www3.egee.cesga.es/gridsite/accounting/CESGA/egee_view.html
EGEE-II INFSO-RI-031688
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
Los datos de contabilidad son analizados para generar estadísticas que están disponibles a través del portal de Contabilidad.
Primer paso: Seleccionar la vista. Hay diferentes vistas de los datos disponibles:
EGEE View
User View (to be released)
Segundo paso: Seleccionar el área deseada en el árbol jerárquico:
LCG Tier1
OSG
VO Discipline
VO metrics: different metrics about VOs
Tercer paso: Usando diferentes combos y checkboxes, se pueden seleccionar los datos que se quieren mostrar, el periodo, etc.
EGEE-II INFSO-RI-031688
Número de trabajos
EGEE-II INFSO-RI-031688
¿Como comparar valores de CPU para diferentes nodos?
Cada sitio publica un GlueHostBenchmarkSI00
Sitios homogéneos:
Sitios heterogéneos:
Establecer los factores de PBS $cputmult y $wallmult para cada nodo
Usar el CPU Normalization Standalone Test para obtener el SpecInt2000
Problemas:
Normalmente los sitios no se preocupan de publicar el SpecInt2000 correcto o bien no establecen los factores de PBS apropiadamente
El SpecInt2000 se ha quedado desfasado. Ahora hay el SpecInt2006
El HEPIX está buscando una forma adecuada de resolver este problema
Formula:
GlueHostBenchmarkSI00
EGEE-II INFSO-RI-031688
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
EGEE-II INFSO-RI-031688
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
EGEE-II INFSO-RI-031688
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
EGEE-II INFSO-RI-031688
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
EGEE-II INFSO-RI-031688
EGEE-II INFSO-RI-031688
La información de almacenamiento se publica en los atributos GlueSAStateAvailableSpace y GlueSAStateUsedSpace
Esta información se captura desde un Top BDII y es insertada en una base de datos (MySQL)
Se recoge la información para todas las VOs soportadas por todos los sitios de EGEE
Se distingue entre almacenamiento en disco y en cinta
Este portal está en una fase inicial de desarrollo
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
EGEE-II INFSO-RI-031688
Almacenamiento: Tabla
+------------------+--------------+-------------+
ResourceIdentity : dcache.ab.ac
Grid : EGEE
ExecutingSite : ABC
VO : xyz
SpaceUsed : 32745970
SpaceAvailable : 13456930
Total : 46202900
Unit : MB
SEArchitecture : multitask
Type : permanent
SrmType : dcache
EventDate : 2007-07-12
EventTime : 11:30:03
MeasurementDate : 2007-07-12
MeasurementTime : 11:30:03
EGEE-II INFSO-RI-031688
Almacenamiento: Ejemplos
EGEE-II INFSO-RI-031688
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
La infraestructura de contabilidad esta en marcha y incluso tenemos un portal donde se pueden generar fácilmente estadísticas de contabilidad.
Por lo tanto, ahora que tenemos las estadísticas de contabilidad, Que podemos hacer con ellas?
Podemos intentar responder algunas preguntas sobre como se esta usando el Grid EGEE
Usando estadísticas obtenidas del portal de Contabilidad podemos intentar entender mejor:
¿Quien esta usando el grid?
¿Son eficicientes los trabajos ejecutados?
¿Cuando utiliza el grid cada VO?.
Tener en cuenta que yo voy a mostrar números obtenidos del portal de contabilidad. Cada uno puede ir al portal y hacer su propio análisis.
EGEE-II INFSO-RI-031688
… o:
¿Cuáles son esas VOs?
Empecemos por: ¿Cuantas VOs hay en EGEE?
¿Cuantas VOs han publicado datos en la base de datos de contabilidad?
Aproximadamente 210
121
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
Empecemos entonces a responder a algunas de estas preguntas utilizando las estadísticas de contabilidad:
Quien esta utilizando el Grid?
“Quien” en grid significa “que VOs”
Empezaremos por analizar cuantas VOs están usando el Grid.
Y posteriormente analizaremos cuales son las VOs mas activas
Por lo tanto, el primer paso es saber cuantas VOs hay en EGEE
Opción 1: VOs que han publicado datos en la base de datos de contabilidad: sobre 210
Opción 2: VOs registradas en el CIC portal: 121
El primer número es un limite superior y el segundo el limite inferior
El segundo número debería ser mas exacto, por lo tanto: hay 121 VOs registradas
EGEE-II INFSO-RI-031688
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
¿Cuantas VOs están usando el Grid?
Veamos la siguiente métrica del portal de contabilidad: Número de VOs activas
Hay 3 niveles de actividad:
Actividad Baja: CPU consumida > 1 Día/Semana (significa usar una CPU durante un día en 7 días)
Actividad Media: CPU consumida > 1 Mes/Semana (significa usar, de media, sobre 4 CPUs por día)
Actividad Alta: CPU consumida > 1 Año/Semana (significa usar, de media, sobre 50 CPUs por día)
Si consideramos la actividad media como umbral: entonces tenemos que menos de 42 VOs están usando el Grid “activamente”
EGEE-II INFSO-RI-031688
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
Si miramos el uso por disciplina durante el último año, tenemos que:
Física de Altas Energías casi el 85%
Biomedicina & Bioinformática: 7.5%
El resto: 8%
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
¿Cuales son las VOs más activas?
Alice: 11%
Atlas: 27%
Biomed: 7%
Cms: 17%
Lhcb: 16%
Es decir, estas 5 VOs consumen casi el 80% de los recursos de Producción.
EGEE-II INFSO-RI-031688
VOs activas
Un análisis de todos los datos publicados desde Enero del 2006 por los sitios de Producción y compuesto por casi 50 millones de registros de trabajos, muestra que el uso está dominado por las VOs de LHC y biomedicina que en conjunto consumen el 93% (equivalente a más de 17.000 años de CPU) del tiempo de CPU reportado en EGEE.
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
EGEE-II INFSO-RI-031688
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
How are the jobs running in the Grid?
Let’s look how efficient are they.
We refer in this case to CPU efficiency: the ratio between the CPU time consumed by the job and the elapsed time.
EGEE-II INFSO-RI-031688
Alice: 0.67
Atlas: 0.62
Biomed: 0.25
Cms: 0.65
Lhcb: 0.8
EGEE-II INFSO-RI-031688
Solo 5 VOs tienen una eficiencia media superior a 0.75
dteam y ops son las VOs con menor eficiencia (VOs de operaciones)
Las VOs que muestran una eficiencia media por debajo de 0.50 probablemente deberían revisar sus trabajos (excepto que ya esperaran tener una eficiencia tan baja)
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
EGEE-II INFSO-RI-031688
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
Tendencias de uso de las VOs: ¿Cuando las VOs usan el Grid?
En este caso estamos interesados en los patrones de uso a lo largo del tiempo para una VO dada.
EGEE-II INFSO-RI-031688
EGEE User Forum
Si nos fijamos en las gráficas de utilización integradas (o acumuladas) podemos identificar dos tendencias mayoritarias:
Uso constante: ATLAS
Data Challenges: Fusion
Contabilidad en EGEE/WLCG - Jornadas Técnicas RedIRIS 2007, 23/11/2007
Estas tendencias se pueden ver mejor si se comparan con las fechas de los DC
Los períodos de mayor actividad coinciden con los DC.
Dato interesante: La demanda de recursos continua algún tiempo después de la fecha oficial de finalización del DC. Esto es un factor importante que debe ser tenido en cuenta por los Centros de Recursos cuando planean contribuir a un DC.
EGEE-II INFSO-RI-031688
La infraestructura de contabilidad está en marcha
Hay un único portal para las VOs de WLCG (incluyendo los sitios de OSG y otros no-EGEE)
El portal de contabilidad permite analizar como se está usando el Grid
Aunque hay 121 VOs registradas menos de 42 están usando activamente el Grid
5 VOs consumen casi el 80% de los recursos de Producción
Solo 4 Vos tiene una eficiencia de CPU media mayor que 0.75
Hay diferentes tendencias en el uso del Grid:
Envío constante de trabajos
EGEE-II INFSO-RI-031688
Contabilidad por Usuario:
Cada usuario podrá ver la información de contabilidad correspondiente a sus trabajos.
Se podrá ver quienes son y cuanto consumieron los usuarios más activos por sitio o VO.
Contabilidad por VO Groups y Roles:
Será posible ver la información de contabilidad correspondiente a cada grupo y/o rol asociado a cada VO.
Contabilidad de trabajos locales
EGEE-II INFSO-RI-031688
Job Records In via RGMA
RGMA
MON
queries to summary data