j.castelo, e.fullana 9/7/2003 tilecal readout system diseño de un sistema de adquisición de datos...

.Fulla

TILECAL ReadOut System

Diseño de un sistema de adquisición de datos entre los niveles 1 y 2 de

trigger para el calorímetro hadrónico de ATLAS en LHC

Jose Castelo, Esteban Fullana

XXIX Reuniones Bienales de Física y Química

Madrid, 9 de Julio 2003

03 Sumario

Introducción al sistema de adquisición RoD del calorímetro hadrónico tilecal

ATLAS TDAQ: Sistema de disparo y adquisición de datos

Decisión de LVL1 es tomada con los datos del calorímetro (basta granularidad) y los datos de trigger de las cámaras de muones. El “buffering” de eventos se hace en la electrónica dentro del detector (FEB).

Decisión de LVL2 se realiza teniendo en cuenta Regiones de Interés ROIs (hasta un 4% del evento completo) con granularidad total y combinando información de todos los detectores. El “buffering” se realiza en RoBs.

El EF refina la selección, puede realizar la reconstrucción de eventos con granularidad total. El “buffering” se hace en EB y EF.

PARTIONMASTER 4

PARTIONMASTER 3

PARTIONMASTER 2

PARTION MASTER 1

ROD CRATE 2

32 RODs/ 64ROBsROD/ROB Mapping

ROD Crate

rate C

ontroller

TBM Bus (VME P3 backplane)

DAQ On-line software (network)

VME Bus (VME P1/P2 backplane)

BUSYTTC

TO/FROMCTP or TTCvi

ROD CRATE 2

S-Link Output:Dataflow to LVL2 ROB

ROD CRATE 1

ROD 1 ROD 8

ROD CRATE 4

ROD 32

TileCal Detector. 64 Modules

64 MODULES

FEB ROBFEB ROB8 8

DRAWER D32 channels

Extended Barrel

64 Drawers(2048ch )

DRAWER A45 channels

Barrel

64 Drawers(2880-ch )

DRAWER B45 channels

Barrel

64 Drawers(2880-ch )

DRAWER C32 channels

Extended Barrel

64 Drawers(2048ch )

Sistema de adquisición de datos RoD Flujo de datos y particiones de disparo (TTC)

9856 canales del calorímetro . (Dos fibras/drawer. 19712 ch con información redundante)

Usando la nueva tarjeta más integrada: sólo 8 RODs/partición. Total 32 RODs en vez de 64 (especificación de TDR)

03 Instalación Tilecal RoD: LEVEL 1 of USA15

Detector Cavern UX15

Level 1104 racks

Level 2134 racks

Level 1 Of USA 15

Tilecal2 rows: 19 and 16

7 x 52 U high racks/row

Row 19

Row 16

03 Esquema de Particiones TTC

Número de particiones TTC: 4

Organizados en [0, 2]: EB(<0), CB(<0), CB(0), EB(0)

Esta distribución nos permite trabajar con independencia en los barriles del calorímetro.

Cada RODcrate conforma una Partición TTC con un TBM (Trigger and Busy Module) cada una

Detector FEBs(Front panel fibres)

TTC and BUSY Bus

To ROBs(Rear transition module)

TTC and BUSY Bus

DataBase

Partition Master

LAN (e.g. ethernet)

TTC and BUSY Bus

Módulo ROD final: Funcionalidades básicas

Flujo de datos: Procesado de datos: Envío y procesado de Raw Data desde FEB a los

ReadOut buffers (ROB) con una frecuencia de eventos de L1A de 100KHz. Es decir, se dispone de 10s para procesar un total ~10.000 canales (celdas) de datos digitalizados de un par PMT/centelleador.

Detección de Errores: Cada módulo debe chequear BCid y EvtID con los recibidos con los datos de FE. También se comprueban los datos para detectar alineación y consistencia (paridad, CRC).

Enlaces/links de datos: Entrada: Fibra óptica. Enlaces integrados basados en G-link como capa física. Salida: Fibra óptica. Basados en estandar s-link, y con formato de datos

estándar de atla (DAQ-1 req.) Interfase con Procesador central de trigger (CTP):

TRIGGER o DISPARO: Las señales de TTC serán recibidas por cada módulo con una latencia de ~2s para habilitar de sincronismo al sistema (EvtID, TType, BCx).

Generación de señal OCUPADO/BUSY: Retroalimentación al CTP para parar la generación de triggers de nivel 1. Cada unidad de proceso genera un Busy que es una función OR de todos los BUSY de una partición.

Control y Monitoreo de información: Provee acceso a la tarjeta sin introducir tiempos-muertos al flujo de datos. Cada

Placa madre ROD provee de acceso VME en modo esclavo comandado por el Controlador de la Crate ROD.

Configura y hace booting de firmware (FPGAs y DSPs) así como de constantes de calibración y otros parámetros.

9U ROD Motherboard (i+1)/2

PROCESSING UNIT 1

InputFPGA

OutputFPGA

16@80MHz

OutputController

16@80MHz

32@40MHz

LVDSreceiver

SDRAM32

TTCFPGA+TTCrx

VMEFPGA

128@40MHz

16@80MHz

9U Transition Module (i+1)/2

32@40MHz

LVDSdriver16

LinkControlFPGA

S-LINK MezzanineDUAL ODIN or HOLA

CONTROLBus

128@40MHz

8 control

ROBi/4

*Serializers/Deserializers40MHz => 280MHz

Unipolar => Differential

1 Partition = 64

Drawers

i=1...64

16@40MHz

16@40MHz 16@40MHz

16@40MHz

StagingFPGA

16@40MHz

16@40MHz 16@40MHz

16@40MHz

StagingFPGA

16@40MHz

G-LINKRX

HDMP1024

G-LINKRX

HDMP1024

G-LINKRX

HDMP1024

G-LINKRX

HDMP1024

G-LINKRX

HDMP1024

G-LINKRX

HDMP1024

G-LINKRX

HDMP1024

G-LINKRX

HDMP1024

80MHz 40MHz

16@40MHz 16@40MHz

16@40MHz

StagingFPGA

16@40MHz

16@40MHz 16@40MHz

16@40MHz

StagingFPGA

16@40MHz

16@40MHzDra

ROBi/4 -1

S-LINKControl

i SDRAM32

PROCESSING UNIT 4

InputFPGA

OutputFPGA

PROCESSING UNIT 2

InputFPGA

OutputFPGA

OutputController

SDRAM32

OutputController

PROCESSING UNIT 3

InputFPGA

OutputFPGA

S-LINK MezzanineDUAL ODIN or HOLA

2 Prototipos

disponibles en

Septiembre de 2003

03 Sumario

Introducción al sistema de adquisición RoD del calorímetro hadrónico tilecal

Estudio de algoritmos de reconstrucción on-line

03 Introducción

4 Algoritmos han sido estudiados: Ajuste de la señal (FIT). Actualmente no

implementable debido al alto coste computacional iterativo.

Algoritmo de Filtrado Óptimo (Optimal Filtering OF).

Algoritmo de Filtrado Plano (Flat Filtering FF).

Algoritmo de Muestra Máxima (Maximum Sample MS).

Se han aplicado a datos reales del testbeam de Julio 2002

03 Algoritmo de Ajuste o FIT

NTUPLE

Reconstrucción de la forma de onda para cada

canal y ganancia

Ajuste a una función analítica con 4 parámetros como salida

45·2 conjuntos de 4 parámetros

Ganancia

{S’i} {S’i}

Atf )(

f(t) Ajuste evento a evento con 2

parámetros como salida y un Chi2

E & τ

0 20 40 60 80 100 120 140 160 180 2000

Eje X: n=kT

Señal Shaper de 200 muestras normalizada

03 Algoritmo de Optimal Filtering (OF)

i iiOF aSKE1

{S’i}

Channel

f(t) f’(t)

45 conjuntos de matrices Rij

CIS NTUPLE

PEDESTAL

EVENTS

45·2 conjuntos de

pesos de Optimal Filtering.

Ch & g Ch & g

{S’i}

i ii bSE1

samplesn

i ii EfSABS1

45·2 conjuntos de 4

parámetros

0 20 40 60 80 100 120 140 160 180 2000

Eje X: n=kT

03 Algoritmo de Flat Filtering (FF)

{S’i}

Ganancia

'iFF SKE

El algoritmo empleado actualmente en el testbeam.

No hay información del tiempo ni factor de calidad de la reconstrucción

0 20 40 60 80 100 120 140 160 180 2000

Eje X: n=kT

03 Algoritmo de Máximo Sample (MS)

{S’i}

Ganancia

})({ 'iMS SMaxKE

Extremadamente sencillo

y rápido !!

No hay información del tiempo ni factor de calidad de la reconstrucción

Pero demasiado sensible a la variación de fase0 20 40 60 80 100 120 140 160 180 200

Eje X: n=kT

03 Características de los datos de CIS

Amplia gama de cargas inyectadas Disponibilidad de muestras

(samples) para las dos ganancias. Para cada carga hay un barrido de

fases en pasos de (7*0.1024 ns). Amplitud y fase pueden ser

fácilmente calculados desde la NTUPLE.

Resolución de la Amplitud vs. intervalo de fase permitida Desfase máximo

esperado en ATLAS ~3ns => OF~FIT!!!

03 Reconstrucción de fase (3pC)

03 Reconstrucción: Ruido (I)

Reconstruction carried on with empty events

Flat Filtering Optimal Filtering

03 Reconstrucción: Ruido (II)

Reconstruction carried on with empty events

03 Conclusiones del estudio de algoritmos

OF y SM son muy sensibles con la fase pero pueden ser tan buenos como un ajuste dentro del intervalo adecuado de fases.

OF tiene una resolución en la reconstrucción temporal de menos de 1 ns.

OF reduce el ruido electrónico en un factor dos.

Algoritmo ONLINE

actual:

Optimal F

ilterin

03 Sumario

Introducción al sistema de adquisión RoD del calorímetro hadrónico tilecal

Rendimiento e implementación de algoritmos de reconstrucción en procesadores digitales de señal (DSP)

Unidad de Proceso (PU): Texas C6202 DSP

DSP: 250 MHz TMS320C6202 DSP con 256K Bytes de memoria de programa interna y 128K Bytes de memoria de datos.

Input FPGA: recibe FEB data e información de TTC. Chequea la consistencia de los datos y los direcciona a la Memoria de doble-puerto.

Dual Port Memory: Los eventos son almacenados en esta memoria (128), disponible para el DSP como memoria externa asíncrona de sólo lectura. También se usa para inicializar el programa de la memoria interna del DSP (booting) después de un reset.

Output FPGA: Depués de procesar el evento se almacena en la memoria FIFO de salida con el formato de datos adecuado. También provee de una FIFO para almacenar histogramas en tiempo real y es responsable del “booting” VME de la Input FPGA y el DSP.

03 Arquitectura interna del DSP

Arquitectura Harvard: Memoria de Programa y Datos accessibles simultáneamente.

FCLK = 250Mhz . Cycle time = 4ns. 2000 MIPs

Data/Program Memory: 1Mbit (128kbyte)/ 2Mbit (64k 32bits)

Canales DMA : 4 EMIF & HPI: 32bits McBSP: 3 Timers: 2 (32 bit) VCORE: 1.8v / VI/O: 3.3v 8 ALUs

independientes. Arquitectura Load-Store con 32 registros de propósito general de 32-Bit (dos bancos de 16). Todas las instrucciones son condicionales

03 Operación de la PIPELINE

Característica VLIW (Very Long Instruction Word): Código de instrucción de 256 bits (8 instrucciones de 32 bits).

La Pipeline puede atender 8 intrucciones paralelas por ciclo. Las intrucciones paralelas, avanzan simultáneamente durante la misma fase pipeline.

El código en Ensamblador debe de ser optimizado en este punto para que todas las instrucciones parezcan ser ejecutadas en 1 ciclo máquina evitando “pipeline stalls” Se contruyen Gráficos de Interdependencia

Fases Pipeline:Fetch: fijo, 4 ciclos

Decode: fijo, 2 ciclosExecute: variable, 1-10

ciclos

Implementación de Optimal Filtering

Calculamos Energía, , y factor de calidad 2.

La implementación de hace considerando 7 Muestras de 10 bits y considerando el mismo set de coeficientes para todos los canales (misma tabla de constantesde calibración).

Los cálculos son realizados con operaciones sobre una ALU entera, siempre intentando sacar la máxima resolución/precisión en todas las operaciones (coeficientes en formato Q15, operaciones en 32bits, excepto multiplicación (16bits), etc...)

Código en C y en Ensamblador han sido desarrollados para comparar el rendimiento del compilador con estos dos lenguajes.

i iiOF aSKE1

i ii bSE1

' samplesn

i ii EfSABS1

Etc...

Data word, high/low gain sample 1

Header event i+1

Data word, high/low gain sample 7 Last W ord

Header event i First W ord

MSB LSB

0 PData ch 1 (10 bits)

Data ch 2 (10 bits)

Data ch 3 (10 bits)

03 Perfilando compilación con “Code Composer v2”

Dos formas rápidas de desarrollar código: Ensamblador Programación en C/C++

Opción Code Composer v2:PBC Option (Profile Based Compilation)

Nos ofrece la posibilidad de elegir entre el tamaño del código y el rendimiento para cada función de nuestra aplicación dentro de diferentes opciones de compilación.

Tamaño Programa (código máquina) aumenta => Velocidad de ejecución disminuye.

Disponibilidad de Memoria de programa vs. Velocidad de ejecución

Este programa permite compilar el código con diferentes opciones y comparar el resultado.

03 Gráfico de rendimiento en 'C'

Flags de compilación para "Maximum Speed“: -o3 -oi0

03 Gráfico de rendimiento de “Ensamblador”

Para compilación de ensamblador todas las configuraciones son idénticas como era de esperar (982 cycles)

03 C vs. Assembler

Algoritmo Energy//2 para 45 canales y 7 muestras de 10bit. Comparativa de de compilación para la opción de “best speed performance profiling”

N u m b ercycles

C od e S ize

(b y te s )

T ota l tim e forE n erg y, tim e and 2

(C y c le = 4 n s )

T ota l tim e for D S Pp rog ra m : A lg o r i th m ,D M A s c h ed u le , B u sy

L o g ic , f i l te rh is to g ra m s ,...

M ain ta inab ilityS ou rce

C od e L in es

A ssem b ler 9 8 226976(2 7 k b ) 3 ,9 2 8s

5 ,4 2 8s

(~1,5s overhead)D iffic u lt 7 2 7 1

C co d e 3 5 2 42228

(2 ,1 7 k b ) ss

(~1,5s overhead)E a sy 1 6 0

Conclusiones de la implementación del algotimo de Filtrado Óptimo

Podemos procesar en ensamblador un EB (32ch) y un CB(45ch) en menos de 10s (lvl1 100kHz rate) con esta Unidad de proceso TMS320C6202@250MHz.

La unidad de proceso actual contiene 2 DSPs TMS320C6414@720MHz con lo que la capacidad de proceso se multiplica directamente por 3/DSP, a parte de una controladora de DMAs mejorada para una E/S más rápida y mejor set de instrucciones (ej: MPY2 multiplicación de 32bits).

Esto nos permite reducir el número de unidades de proceso, debido a una mejor relación de MIPs/€ o bien, probar algoritmos online con mayor carga computacional (ajustes, algoritmos adaptativos,...).

Estudio de resolución vs. Coste computacional: Usando 5 muestras en vez de 7 el alogoritmo sería 7/5 veces más rápido.

Procesar ~10.000

canales online en

menos de 10s

03 Sumario

Introducción al sistema de adquisión RoD del calorímetro hadrónico tilecal

Rendimiento e implementación de algoritmos de reconstrucción en procesadores digitales de señal (DSP)

j.castelo, e.fullana 9/7/2003 tilecal readout system diseño de un sistema de adquisición de datos...

Documents

phos readout scheme for alice and cosmic-ray tests

cómo construir un calorímetro

emulsion readout - present and future-

the pixel readout of tpcs

tilecal, stato del rivelatore

héctor alvarez pol 13/09/2005 califa, un calorímetro gamma...

desenvolvimento de um calorímetro com núcleo de Água e de...

construÇÃo e validaÇÃo de um calorÍmetro com vazÃo

muões cósmicos em tilecal/atlas josé maneira atlas/lip...

Índice el experimento r3b especificaciones del...

ladungsträgertransportim...

optimal imaging parameters for readout-segmented epi of

instrumentaÇÃo de um calorÍmetro

montagem de calorÍmetro de baixo custo e investigaÇÃo de...

maroc: multi-anode readout chip

battletech - technical readout 3025 (original)

sistema web para monitoração de um calorímetro de altas...

detectors readout - experimental cosmology group...

calorímetro diferencial para estudo do padrão de ... ·...

calorímetro para gás natural - aselco · 2019. 9. 5. ·...