technische implementation von cera hannes thiemann max-planck-institut für meteorologie modelle und...
TRANSCRIPT
![Page 1: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/1.jpg)
Technische Implementation von CERA
Hannes ThiemannMax-Planck-Institut für Meteorologie
Modelle und Datenhannes.thiemann @ zmaw.de
Jena, 24. Januar 2007
![Page 2: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/2.jpg)
Inhalt
Aufgabe und Motivation
Umsetzung Datenbanken
Anbindung an das HSM
Ausblick
![Page 3: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/3.jpg)
Klimasystem
![Page 4: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/4.jpg)
Klimamodell: Grid
![Page 5: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/5.jpg)
Klimamodell: Auflösung
T42 (300 km)
T106 (120 km)
![Page 6: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/6.jpg)
Datenmengen
Horizontalauflösung des Klimamodells
T42: 128 * 64 = 8192 Punkte pro Globalfeld T106: 160 * 320 = 51200 Punkte pro Globalfeld
Erforderliche Speichereinheiten (GRIB Format)
Horizontalfeld (Zugriffseinheit): 17.1 kB (T42) / 100.1 kB (T106)
Unix Filegröße für monatsweise akkumulierte Ergebnisse mit 6 Std. Speicherintervall und 300 2d Variablen (Physikalische Einheit):
616 MB (T42) / 3500 MB (T106)
240 Jahre Modellintegration (Logische Einheit): 1.7 TB (T42) / 10 TB (T106)
![Page 7: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/7.jpg)
![Page 8: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/8.jpg)
![Page 9: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/9.jpg)
![Page 10: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/10.jpg)
![Page 11: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/11.jpg)
Umsetzung Datenbanken
![Page 12: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/12.jpg)
The Winter TopTen Program identifies the world’s largest and most heavily used databases.
….. Congratulations on achieving Grand Prize award winner status (1) in Database Size, Other, All and TopTen Winner status Database Size, Other, Linux;Workload, Other, Linux in Winter Corp.'s 2005 TopTen Program! .......
(1) Grand prizes are awarded for first place winners in the All Environments categories only.
WDCC's CERA DB has been identified as the largest Linux DB.
![Page 13: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/13.jpg)
Wintercorp (2005) - DB Size: Scientific, Archive, and other
Company Size (TB)
DBMS Platform System Vendor
Max-Planck 222 Oracle Federated/SMP NEC
USGS/EROS 17 Oracle Centralized/SMP Sun
USGS/EROS 17 Oracle Centralized/SMP Sun
HP 1 NonStop SQL Centralized/MPP HP
T-Systems 1 Oracle RAC Centralized/Cluster Sun
See: www.wintercorp.com
![Page 14: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/14.jpg)
Wintercorp (2005) - DB Size: Data Warehouse
Company Size (TB)
DBMS Platform System Vendor
Yahoo 100 Oracle Centralized/SMP Fujitsu Siemens
AT&T 1) 94 Daytona Federated/SMP HP
KT IT-Group 50 DB2 Centralized/Cluster IBM
LGR 25 Oracle Centralized/SMP HP
Amazon 25 Oracle RAC Centralized/Cluster HP
See: www.wintercorp.com1) 330 GB Norm. Data Volume
![Page 15: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/15.jpg)
Oracle 9.2 single instance running on TX7 Enterprise Edition Partitioning Option Advanced Security
24 Tbyte disk attached to database nodes Database size ~260 Tbyte (logical) Database nodes connected to HSM system Data accessible on the internet 800 named users worldwide Daily access 300 GB/Day (average) New data 250 GB/Day (average)
CERA: Some Facts
![Page 16: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/16.jpg)
![Page 17: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/17.jpg)
BLOB
SX-6
AsAmA 16way AsAmA 4way
DXSM DXDB
Oracle DBDiskXtenderDisk cache
PostprocessingSystemraw
META + DataGFSEnvironment
GFS/Server
AsAmA 4way
DXDB. . .
Oracle DB
AsAmA 16way
GE Network
Users
GFS/Server GFS/Server
DXSN DXSN
BLOB
DXDM DXDM
Climate Model
1.Climate Model writes raw output (GFS I/O)
AP
GFS/Client
Post Process Application
2.PP reads raw data (GFS I/O)
PP writes data (local I/O)AP
OCI Application
3.OCI reads data (Local I/O)
AP
Local disk
Migration &
Staging
Oracle ApplicationServer
5.Data inquiry (OCI)
Oracle AS
© NEC Corporation
4.OCI writes BLOB (via networks)
Oracle InstanceOracle Instance
![Page 18: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/18.jpg)
Level 1 - Interface:Metadata entries(XML, ASCII)+ Data Files
Level 2 – Interf.:Separate filescontaining BLOBtable data in application adapted structure(time series ofsingle variables)
Experiment Description
Pointer toUnix-Files
Dataset 1Description
Dataset nDescription
BLOB DataTable
BLOB DataTable
WDCC Data Topology
BLOB DB Table corresponds to scalable, virtual file at the operating system level.
![Page 19: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/19.jpg)
Datenbanken: Aufteilung
11121311415
16
MetadatenDaten
EnterpriseUserSecurity
OID
![Page 20: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/20.jpg)
Entry
Reference
Status
Distribution
Contact Coverage
Parameter
SpatialReferenceLocal Adm.
Data Access
Data Org
100.000 Tabellen800 GB
![Page 21: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/21.jpg)
Data matrix of model experiment
Model variables
Mod
el R
un T
ime
2 D: small BLOBS (16 KB)
3 D: large BLOBS (3 MB)
Raw data file: direct model output (0.7 – 16.2 GB)
Each columm is one BLOB Table and one META Table in CERA-DB
Raw
data file in D
KR
Z A
rchive
T2M Precip SLP2D variables . . Temp
Water vapour
3D variables . .
T1T2T3.......Tn...................Tend
![Page 22: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/22.jpg)
MetadataTable
Blob_idBlob_sizeStart_dateBlob_minBlob_max
Blob_mean
Structure of metadata tables
Informationen um Einfache Anfragen ohne Zugriff
auf Daten selbst zu beantworten.
Konsistenz zu den Daten selbst überprüfen zu können.
Qualitätskontrollen durchzuführen.
Liegen auf Disk
Metadaten erlauben die Abbildung der blob_id auf die wirkliche Modellzeit
![Page 23: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/23.jpg)
BLOB DataTable
blob_idblob_data
Structure of blob tables
Range Partitioning
Table Partition 1
Table Partition 2
Table Partition n
…
blob_id 1 .. n
blob_id n+1 .. m
blob_id m+1 .. k
…
Time t0 .. tn
Time tn+1 .. tm
Time tm+1 .. tk
…
Datafile 1
Datafile 2
Datafile n
…
![Page 24: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/24.jpg)
Umsetzung: HSM
Anbindung an das HSM
![Page 25: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/25.jpg)
TBS - RW
TblPartition 1
TBS - RW
TblPartition 2
dxdb
TBS - RO
TblPartition 1
All tablespaces are moved
“at once” to dxdb
MigoutMigin
![Page 26: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/26.jpg)
Migout / Migin
Migout takes place after files haven’t been modified for x minutes
Only one migout process per dxdb-filesystem Migin takes place immediately after a file is requested.
Only parts accessed are retrieved from the backend storage.
One migin process per requested file.
![Page 27: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/27.jpg)
dxdb
LWM
HWM
Purging
![Page 28: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/28.jpg)
Criteria for purging
Size of datafiles doesn’t matter Except: “small” datafiles can stay on disk
Time not modified (easy for read only tablespaces) Time not touched
Oracle has the tendency to touch data files quite often
Oracle parameter read_only_open_delayed could be an option
Prerequisite: 2 copies on tape
![Page 29: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/29.jpg)
Inside the datafile
Primary Key
Lob Index
Table
Blob data
Header 128k
![Page 30: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/30.jpg)
Frontend versus Backend
Header 128k
Filesystem Frontend HSM Backend
Header 128k
Part 1 = 512 MB
Part 2 = 512 MB
![Page 31: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/31.jpg)
Retrieving data
4
Header 128k
3 1
2 5
Tape Request
![Page 32: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/32.jpg)
Usage: Downloads
Downloads per year
0100000200000300000400000500000600000700000800000900000
1999 2000 2001 2002 2003 2004 2005 2006
![Page 33: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/33.jpg)
Statistics: Size
Database Size
0
50
100
150
200
250
300
1998 1999 2000 2001 2002 2003 2004 2005 2006
Year
TB
yte
![Page 34: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/34.jpg)
Ausblick: Globalmodell T213 (Atmosphäre)
Horizontalauflösung des Klimamodells
T213: 640 * 320 = 204800 Punkte pro Globalfeld T106: 160 * 320 = 51200 Punkte pro Globalfeld
Erforderliche Speichereinheiten (GRIB Format)
Horizontalfeld (Zugriffseinheit): 400.1 kB (T213) / 100.1 kB (T106)
Unix Filegröße für monatsweise akkumulierte Ergebnisse mit 6 Std. Speicherintervall und 300 2d Variablen (Physikalische Einheit):
14000MB (T213) / 3500 MB (T106)
240 Jahre Modellintegration (Logische Einheit): 40 TB (T213) / 10 TB (T106)
![Page 35: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/35.jpg)
Ausblick: Regionalmodell Auflösung und Datenmengen
REMO-UBA-Modellgebiet
Orography
•Auslösung: 10x10 km
•Datenmenge: 5 TB / 100 Jahre (nur Bodenfelder)
![Page 36: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de Jena, 24. Januar 2007](https://reader035.vdocuments.pub/reader035/viewer/2022070310/55204d8049795902118d2645/html5/thumbnails/36.jpg)
Vielen Dank!