gestion eco responsable des données...coût du transport les chiffres font le grand écart…...
Post on 21-May-2020
2 Views
Preview:
TRANSCRIPT
Gestion Eco Responsable des
données
Didier MallarinoANF EcoInfo Septembre 2019, Autrans
Gestion éco Responsable des données 2
Sommaire
● La donnée : source, stockage et transport● Les volumes en jeux● Les bonnes pratiques de gestion de la donnée● Quelques ateliers● Conclusion
Gestion éco Responsable des données 3
La donnée : source, stockage et transport
Gestion éco Responsable des données 4
C’est parce qu’il y a des données...
Le Matériel (Hardware)Logiciel (Software)
Données : En informatique, une donnée est la représentation d'une information dans un programme (Wikipédia)
Gestion éco Responsable des données 5
Parce que sans données….
● Pas d’analyse possible,
● Pas de compréhension du monde qui nous entoure,
● Pas de prévisions possibles,
● Pas de médecine,
● Pas de d’intelligence artificielle, ...
● Pas d’humains…. nous sommes de fait des entités biologiques qui traitent de l’information et donc, de la donnée Nous n’avons fait que déléguer aux machines le travail d’en traiter de gros volumes…. :-)
Gestion éco Responsable des données 6
Et d’ailleurs,
● Il existe des théories qui imaginent la « réalité » de notre univers sous la forme d’information quantique et pensent l’univers comme une forme de machine de Turing qui stocke, calcule et gère son état en manipulant de l’information.
● Source = Pour la Science
Gestion éco Responsable des données 7
Donc, la donnée est importante
● La donnée est précieuse, utile et unique (trace d’un instant révolu).
● La « valeur » de la donnée reste subjective, dépendant de l’usage et de l’usager. Mais, l’histoire montre que la connaissance donne de nombreux avantages ;
● La donnée « brute » (issue de l’observation) est souvent inutilisable. Elle doit être traitée, analysée, interprétée, associée à d’autres éléments (méta données) qui la rende utile et utilisable, pérenne, échangeable pour des prises de décisions ou une meilleure connaissance.
● Son acquisition (campagnes in situ, satellites, nombreuses heures de calcul, instruments médicaux, sondes sous marines, etc...) est en général coûteuse tant écologiquement que financièrement
● Son « exploitation » crée de la connaissance, de la « richesse » ou de la « valeur ajoutée » et les entreprises se battent pour récolter de la donnée….
Gestion éco Responsable des données 8
Sources de la donnée
IOT200 Milliards
en 2020
4To/Jour – 1,5Go/s
UHD (4K) = 3840 (ou 4096) x 2160Débit mini = 25 Mbits/s
Et tellement d’autres sources
DATA Cloud
Gestion éco Responsable des données 9
Une avalanche de données
Gestion éco Responsable des données 10
Support et stockage de la donnée
10 ans de durée de vie
Stockage ADN
Quartz : 360 T / 13 milliard d’années
ADN et Quartz pour un stockage de longue durée
Gestion éco Responsable des données 11
Coût du stockage : exemple du SSD vs HDD
● Choisir le bon média en fonction de l’usage : traitement, utilisation, archivage et backup
– SSD (Source Wikipédia) moins d’énergie consommée (0,1 à 0,9 W en veille, 0,9 W en activité contre 0,5 à 1,3 W en veille et 2 à 4 W en activité pour un mécanique) et moins de refroidissement
– Performance globale très supérieure aux disque mécaniques (sauf petits fichiers)– Résistance aux chocs et aux vibrations élevée, pas de bruit– Une durée de vie théoriquement plus importante (pas de pannes mécaniques) mais limitée
physiquement par le nombre de cellules (TBW, ou TeraByte Written. La valeur TBW pour un SSD de 250 Go se situe entre 60 et 150 téraoctets de données écrites. Ainsi, pour garantir un TBW de 70 To, un utilisateur devrait écrire 190 Go par jour en 1 an.)
– Et l’ACV, ça donne quoi ? : SSD, 35 matériaux pour 99 % de sa constitution versus 21 dans les HDD classiques : Recyclage plus complexes ?? Mais il y a aussi des cartes électroniques dans un HDD ; impacts biologiques moins favorables aux SSDs ?
● Autres médias : Compromis durée de vie, taille, facilité d’utilisation : DVD, Bande, et le futur … ADN ou Cristal… :-)
Gestion éco Responsable des données 13
Transport de la Donnée
Source = Illustration
Undersea Cable
Gestion éco Responsable des données 14
Transport de la donnée
● 99 % du trafic intercontinental passe par des câbles de télécommunications posés au fond des océans.
● Une infrastructure critique, tant techniquement que politiquement. C’est un enjeu de sécurité et de défense nationale. Certains pays peuvent êtres dépendant pour leur accès à Internet d’un seul câble important qui assure 80 % du trafic internet (e.g Algérie en octobre 2015)
● 250 câbles en 2013, 448 câbles sous marins en 2018 pour 1,2 million de kilomètres
● En moyenne, 100.000 km de câbles / an sont posés
● Coût d’une campagne de pose entre deux continents, plusieurs centaines de millions d’Euros sans compter les impacts écologiques (enfouissement, interventions, campagne de pose)
● Facebook et Microsoft ont récemment mis en service Marea, un câble de 6 600 km, capacité 160 térabits par seconde entre les États-Unis et l'Europe. Google a investi dans Faster, qui relie la côte Ouest des États-Unis au Japon. 12 000km, capacité de 60 térabits par seconde.
● Source : Veille Carto, Institut Français de la Mer & Cartographie Numérique
Gestion éco Responsable des données 15
Ça fait longtemps qu’on déploie des câbles :-)
1865: Map Shewing the Atlantic Telegraph and other Submarine Cables in Europe and America from . Note also the route of Tal Shaffner's proposed northern cable.
Arrivée (atterrissement) à New York (Rockoway Beach) du premier câble sous-marin reliant l'Italie (Rome) à l'Amérique du Nord. Ce câble passait par les Açores et Malaga en Espagne (photo de 1925) (Source Wikipédia).
c. 1880 Anglo-American Telegraph Company North Atlantic map
Gestion éco Responsable des données 16
Histoire (récente) et technique
● 1982 : Pose des premiers câbles optiques : Antibes-Nice (1982), Antibes-Port Grimaud (1984) et Marseille-Ajaccio (1987).
● 1988 : Premier réseau international (TAT 8) relie la France, l’Angleterre et les Etats-Unis et permet 40.000 communications téléphoniques simultanées.
● 2019 : Les dernières lignes sous marine installées ont des débits de plusieurs dizaines, voire centaines de Tb/s
● Les vitesses de pose varient de 250 km/jour pour une pose en surface, à 25 km/jour pour un ensouillage (3 à 10 mètres pour certains atterrissements délicats comme ceux de Singapour, Hongkong ou Shanghai)
● Source 1 = INSA Lyon (rapport de stage étudiant)
● Source 2 : Anatomie d’un câble
Gestion éco Responsable des données 17
La recherche : Renater
RENATER
12 000 km de fibre optiques
72 points de présence (NR)
150 longueurs d’ondes de 10 à 200 Gbit/s
Gestion éco Responsable des données 18
Aujourd’hui
Navire Câblier d’Orange (Source)
Source : Courrier International
Gestion éco Responsable des données 19
Aujourd’hui
Source : Infrapedia & Submarine Cable Map ; Animation
Gestion éco Responsable des données 20
Un exemple de câble
Et sa nouvelle version : Sea-Me-We 5 : (South East Asia-Middle East-Western Europe 5). Câble de 20 000 km, coût de 300 millions d'euros, relie le sud de la France à Singapour, en passant par la Turquie, l'Égypte et l'Arabie saoudite. »
Source : Global Submarine Cable
Gestion éco Responsable des données 21
Coût du transport
Source : Electricity Intensity of Internet Data Transmission: Untangling the Estimate
https://doi.org/10.1111/jiec.12630
Gestion éco Responsable des données 22
Coût du transport
● Les chiffres font le grand écart…
● Estimation sur toute la chaîne (serveur → endUser) d’un Gb transporté entre 2.48 et 5.12 kWh/Gb (Chiffres de 2012 et 2014)
● « Carbonalyser » : l’extension de navigateur qui révèle combien surfer sur le web coûte au climat (Attention, c’est à la louche…)
● Ce sont des données moyennes…ce qui au fond ne veux pas dire grand-chose…. On peut en tout cas supposer que plus ma donnée est loin… plus ça coûte ? Mais comment savoir ? Mini atelier traceroute ou tracert sous windows :-) https://traceroute-online.com/tcptraceroute/
Gestion éco Responsable des données 23
Un exemple….
Gestion éco Responsable des données 24
La donnée :
Les volumes en jeux...
Gestion éco Responsable des données 25
Les volumes en jeux et évolution
Gestion éco Responsable des données 26
Les volumes en jeux et évolution
Un e-mail = 10g de CO2
Source : Visual Capitalistic & Statista
Gestion éco Responsable des données 27
Chaque jour….
● 29 To publiées chaque seconde (25.000 Go),
● Soit 2,5 exaoctets / jour (soit 2500 Po, 1 Po = 1000To),
● Soit 912,5 exaoctets / an
● En 2018, on estime que 90 % des données disponibles dans le monde ont été créées dans les deux dernières années.
C’est l’occasion de le (re)dire, mais attention aux chiffres…. Ce ne sont pas des vérités absolues, mais des ordres de grandeur … parfois … à la louche :-)
Gestion éco Responsable des données 28
Google à lui tout seul
● 2009
– 37 DC dans le monde (13 sont 100% Google) - 0,01% de l’électricité mondiale,– Le PUE Power Usage Effectiveness moyen de Google est de 1,12 (1,9 USA, Europe 2,53).– 2 millions de serveurs (2% des serveurs dans le monde)– Gmail représente potentiellement 6,375 Exa octets (soit 6 375 000 000 Go).– Google brasserait chaque jour 24 Peta octets par jour (soit 24 000 000 Go) soit 8,760
Exa octets.● 2016
– 2.5 millions de serveurs, 16 Datacentres. Je n’ai pas trouvé d’autres chiffres● Exemples de coût carbone
– Une recherche sur le web, c’est entre 0,2g, 7g, 15g de CO2 : choisissez mais utilisez plus les bookmarks …
– Un arbre « moyen » absorbe entre 2 et 300 g / CO2 par jour… Plantez des arbres :-)
Sources = digora & searchengineland
Gestion éco Responsable des données 29
Qui truste le plus de trafic… ?
● France : 47,7 millions clients mobiles 4G pour 3,6 exaoctets de données « consommées » sur les mobiles durant l’année 2018 (+66% en un an). Soit en moyenne 6,7 Go par mois.
● Monde : 4 milliards d’utilisateurs connectés (58 % de la population mondiale)
● Netflix (37,6%) et YouTube (33,1%) représentent 70% du trafic internet mondial sur mobiles.
● Globalement, les sites de vidéo occupent près de 58% du trafic, dont 15% pour Netflix et 11% pour YouTube. Baissez la résolution… :-)
– … et encore, la 4K et le 5G ne sont encore pas déployés ! L’usage explosant en général avec la facilité technique offerte, CISCO estime un triplement de trafic pour 2022 avec 82 % dédié à la vidéo
Sources = airofmelty & planetoscope
Gestion éco Responsable des données 30
Toujours les mobiles
Sources : ANFR et Observatoire-xG
Un SMS = 0,0014g of CO2 ; 12 millions / minutes ; Soit 16.800g de CO2 par minute
Gestion éco Responsable des données 31
Consommation moyenne mobile
Sources ACERP : Observatoire & Grandes Dates
Gestion éco Responsable des données 32
Revenons à la recherche
● La donnée d’observation est unique et son coût d’acquisition est en général important (données satellites, imagerie médicale, mesures in situ, ...)
● Le moins que l’on puisse faire est d’éviter de continuer à perdre 80 % des données acquises :-(
● Dans le monde de la recherche, deux communautés sont pionnières (j’ai pas dit exemplaires… :-) de la préservation des données : les astronomes et les physiciens (e.g. observatoire virtuel = standards et formats communs, qualification, méta données, toutes les clés sont en place pour rendre les données pérennes….)
● Une réponse globale à la perte des données et à une gestion éco responsable de ces données : La Science ouverte ?
Gestion éco Responsable des données 33
Et…. ? Ah, quand même…..
● 12 % des sites web sont pornographiques (soit environ 25 milliards de sites web) pour 4,9 milliard $ de revenus…. Face à des réseaux sociaux qui en génèrent environ 20 milliards
● 8 % des mails sont pornographiques (2,5 milliards de mails)
● 35 % de l’intégralité du trafic internet en download sont du contenu pornographique.
● En 2018,
– Pornhub a enregistré 33,5 milliards de visites, pour 207 405 vidéos visionnées par minute.
– 4403 pétaoctets de données ont été transférées sur les serveurs, soit 574 Mo de données pour chaque personne dans le monde et 147 Go de données par seconde.
– Pornhub a donc consommé cette année là plus de bande passante que l'ensemble d'internet en 2002.
Source : Journal du Geek
Gestion éco Responsable des données 34
Instruments et centres de données
● Instrument VLT : 30 Go / jour
● Instrument LHC : 40 To / manip
● Météo France (Opérationnel et Recherche) : 2015, 40Po, 250 To/jour en 2018, 180 Po, 1Po/jour
● CC-IN2P3 : Le Centre de Calcul de l’IN2P3 (ou CC-IN2P3 – USR6402) : recherches en physique des particules, physique nucléaire et physique des astroparticule ; Stockage, 20 Po, 340 Po sur bandes
● CINES : Le C.I.N.E.S. (Centre Informatique National de l’Enseignement Supérieur) EPA basé à Montpellier : calcul numérique intensif, l’archivage pérenne de données électroniques, l’hébergement de plates-formes informatiques d’envergure nationale ; Stockage = 5Po scratch (calcul), 260 To /home, + /store de stockage – pas de données :-)
● IDRIS : L'IDRIS est le centre majeur du CNRS pour le calcul numérique intensif de très haute performance ; Stockage = 5Po + 2 Po
● TGCC du CEA : L'architecture du TGCC est centrée sur les données et centralisée au sein d'un cluster unique pour l'ensemble du centre de calcul : GS-TGCC (Global Storage – TGCC) : Stockage = 3Po +5 Po Scratch, 9Po /home et 18 Po de Store + 50 Po de stockage bande
●
Autres Source : GENCI
Gestion éco Responsable des données 35
La donnée : Les bonnes pratiques de gestion de la
donnée et éco responsabilité
Gestion éco Responsable des données 36
Science ouverte et ...
« Les données de la recherche sont la matière première de la connaissance. Les partager, c’est ouvrir de nouvelles perspectives scientifiques »
Frédérique Vidal, ministre de l'Enseignement supérieur, de la Recherche et de l'Innovation (Juillet 2018)
● Site Ouvrir la science : https://www.ouvrirlascience.fr
Sources : Plan National Science Ouverte ; Qualité en Recherche ; PDF Plan National Science Ouverte ; UMR 5206 / Triangle
Gestion éco Responsable des données 37
Les données, soyons « FAIR » play
Pour répondre aux impératifs de la Science Ouverte, il faut rendre les données « FAIR »
● Findable / Facile à trouver → catalogage et référencement,
● Accessible / Accessibles → stockage, outils de recherche et de pré visualisation,
● Interoperable / Interopérables → formats communs, communication inter logiciels et catalogues,
● Reusable / Réutilisables → Pour assurer la reproductibilité de la Science, les données et le logiciel associés doivent êtres réutilisables
Gestion éco Responsable des données 38
Et si je rajoute un E ?
● Pourquoi FAIR(E), c’est éco responsable ???
Gestion éco Responsable des données 39
Parce que :
● Utiliser des standards ouverts, disponibles et simples permet de minimiser les besoins de conversion et manipulation de la donnée,
● Lorsque la donnée est rendue pérenne et réutilisable, son coût d’acquisition est mutualisé sur ses diverses utilisation. La réutilisation des données et des logiciels produits évite des coûts de développement, tests, intégration en de multiples endroits.
● Intégrer dans les différentes étapes du cycle de vie de la donnée des éléments éco responsables (choix du média de stockage, de backup, localisation de la donnée au plus près de son usage pour minimiser le transport, etc.) permet également une consommation optimale des ressources allouées au traitement de ces données.
● Utiliser des techniques et des outils pérennes pour l’archivage (Formats ouverts, centre type CINES, …) et le backup de la donnée (Déduplication, ...)
● Ouvrir la science et la connaissance, c’est garantir un accès à tous à un savoir publiquement financé et assurer un rempart contre la désinformation. C’est pas spécialement éco responsable, c’est juste responsable et sain.
● C’est assurer la reproductibilité de la Science, ce qui est le minimum attendu de la Science….● Une vaste étude sur des jeux de données construits par les chercheurs en 1991 a montré
qu’ils subissaient une déperdition rapide, atteignant 17% par an ●
Gestion éco Responsable des données 40
Cycle de vie de la donnée
Source = IUMSP
Gestion éco Responsable des données 42
Ce qui se passe aujourd’hui
● Cadre légal : La directive Européenne INSPIRE
● Initiatives : RDA, Software Heritage, Centre de données nationaux, européens et mondiaux : Huma Num, IR Système Terre, SHIM, Copernicus, SHOM, SISMER, SEANOE, ... Encore beaucoup de flou et de luttes de pouvoir... mais ça avance… :-)
● A notre échelle : il est indispensable de mettre en place des stratégies de préservation des données acquises qui soient fiables, pérennes et éco responsables.
CNRS et Big Data
Gestion éco Responsable des données 43
Alors, que FAIR(E)…. ?
● Comme avec l’énergie, la donnée la plus éco responsable sera celle qui ne sera pas produite ni consommée :
– Première réponse : Fermer le robinet des données… :-) éviter de produire (et consommer) des données dont on n’a pas besoin.
● Si on a une donnée « précieuse » et « utile », il est indispensable ne pas perdre ce qui a été un coût écologique important à acquérir. Il va donc falloir se diriger vers une logique d’ouverture de la donnée et rajouter à chaque étape du « cycle de vie de la donnée » des critères d’éco responsabilité adaptés et réfléchis.
– Deuxième réponse : se diriger vers « la science ouverte » et rendre ses données FAIR(E) pour garantir leur pérennité tout en appliquant des critères Eco responsables aux différentes étapes du cycle de vie de la donnée et par exemple :
● Choisir des Médias adapté au besoin en cours (calcul, backup, archivage, ...)● Donnée proche de l’usage (minimiser le « transport »)
Gestion éco Responsable des données 44
Merci :-)
« Le peu qu’on peut faire, le très peu qu’on peut faire, il faut le faire. »
Théodore Monod
Gestion éco Responsable des données 45
Ateliers
Ateliers
Gestion éco Responsable des données 47
Ateliers
Nous vous proposons 3 ateliers de réflexions et d’approfondissement en ayant à l’esprit les impératifs du cycle de vie de la donnée, de science ouverte et d’éco responsabilité optimale en croisant vos expériences propres et quelques recherches sur Internet :-)
● Atelier 1 : Le support de stockage
● Atelier 2 : Le lieu du stockage
● Atelier 3 : Les formats de la donnée
Gestion éco Responsable des données 48
Atelier 1 : Le choix du média
● Choisir le bon média en fonction de l’usage : traitement, utilisation, archivage et backup
● Intégrer les impacts autres que les coût carbone pour faire ses choix
● Analyser les Exemples d'ACV de disques Seagate et proposer vos propres conclusions.
Gestion éco Responsable des données 49
Atelier 2 : Le lieu….
● Stockage local ou cloud ? Quels impératifs prendre en compte ?
– « Transports » de la donnée, utilisation au plus près du calcul, performance énergétique et engagement éco responsable du centre de stockage versus le stockage local, volumétrie.
– Coût du transport de la data : Routeur : consommation quasi fixe, trafic ou pas, sans fil (wifi et xG, consommation proportionnelle au trafic).
● Deux documents pour travailler sur ces aspects : Electricity Intensity of Internet Data Transmission: Untangling the Estimate et The Megawatts behind Your Megabytes : Going from Data-Center to Desktop
Gestion éco Responsable des données 50
Atelier 3 : Formats et outils
● Point de départ = Le RGI (Wikipedia) et sa Version 2.0 ; Un petit travail de découverte et de synthèse sur les formats et les licences recommandés ; Formats ouverts et universels :
– Réutilisation facilité,– Pas de conversion nécessaire,– Format auto suffisant (exemple, le NetCDF-CF contient à la
fois les données et les méta données sous une forme « conventionnée »)
● Outils et logiciels de traitement standard et communs.
● Publier ses données sous la licence etalab (https://www.etalab.gouv.fr/)
Gestion éco Responsable des données 52
Un exemple de câble
● « En France, Orange (via Orange Marine) investit régulièrement dans les câbles sous-marins. Il a notamment participé à l'installation du Sea-Me-We 5 : (South East Asia-Middle East-Western Europe 5). Câble de 20 000 km, coût de 300 millions d'euros, relie depuis peu le sud de la France à Singapour, en passant par la Turquie, l'Égypte et l'Arabie saoudite. »
Gestion éco Responsable des données 53
Sources
● Source Symboles = https://www.opensymbols.org/
● https://www.doz.com/marketing-resources/one-minute-internet
●
top related