valutazione ambientale ed epidemiologica biomolecolare · 2019-09-09 ·...

Valutazione ambientale edepidemiologica biomolecolare

Ivan Arisi ( [email protected])

1

Bioinformatics facilityFondazione European Brain Research Institute "Rita Levi-Montalcini"

Roma

2

Valutazione Integrata di Impatto Ambientale e Sanitario (VIIAS): normativa

http://www.isprambiente.gov.it/it/pubblicazioni/pubblicazioni-del-sistema-agenziale/linee-guida-per-la-valutazione-integrata-di-impatto-ambientale-e-sanitario-viias-nelle-procedure-di-autorizzazione-ambientale-vas-via-e-aia

<<… Nella prassi scientifica internazionale si sono distinti due approcci per la valutazione degli impatti sulla salute.

Il primo approccio metodologico, più vicino all’ambito di ricerca della tossicologica, è quello dell’analisi del rischio (Risk Assessment - RA),

mentre il secondo approccio, di derivazione epidemiologica, è quello della quantificazione del numero di casi attribuibili (Health Impact Assessment – HIA) …>>

3

Risk Assessment (RA)

Basato sulla relazione dose-risposta per sostanze cancerogene e non, provenienti da studi di tossicologia animale

L’esposizione alle sostanze può essere per inalazione, ingestione, contatto. In ognuno dei 3 casi l’esposizione si calcola in modo diverso

Per sostanze tossiche non cancerogene, R = Hazard Quotient HQ:R= HQ=ADD / RfD , deve essere R <0.80

ADD= Dose media giornaliera, RfD = Dose massima giornaliera (per chi?)Nel caso di più sostanze HQ = Somma{ HQ1 + … + HQn} troppo semplice, spesso la biologia è NON-lineare

Per sostanze cancerogene, R= rischio incrementale nel corso della vitaR = ADD x SF , deve essere < 10-5

ADD= Dose media giornaliera, SF = potere cancerogeno della sostanza (pendenza curva dose-risposta)(per chi ?)

4

Health Impact Assessment ( HIA )

E’ una valutazione epidemiologica dell’impatto sanitario dovuto all’emissione di una sorgente, in termini di nuovi casi di ricoveri/decessi/tumori. E’ un rischio relativo degli esposti rispetto ai non esposti.La Frazione di eventi attribuibili all’emissione della sostanza è data da:

AC = A x B x ∆C x Pexp, non ci sono limiti imposti, ragionevolmente AC < 1/100.000 annoDove:• AC = numero di casi (all’anno) attribuibili all’esposizione in esame• A = (RR 1) = eccesso di rischio nella popolazione esposta per incremento unitario di concentrazione • B = tasso di morbosità/mortalità di background dell’esito sanitario considerato• ΔC= variazione nelle concentrazioni ambientali per la quale si intende valutare l’effetto .• Pexp = popolazione esposta (quale?, esistono individui più a rischio di altri per «gentica»)

NOTA IMP.: Nessuna delle due metodologie RA o HIA prevede di prassi misure di tipo biomolecolare (in particolare genetico) sui soggetti esposti, ma tali misure sono menzionate nelle nuove:

«Linee guida per la Valutazione di Impatto sanitario>> DL.vo 104/2017Pag. 25: << Nella fase di caratterizzazione del rischio sono anche identificate le categorie o gruppi di popolazione più suscettibili [...] per caratteristiche genetiche (es. polimorfismi genetici di enzimi che alterano la cinetica [...] >>

5Lavu V et al. The epigenetic paradigm in periodontitis pathogenesis. J Indian Soc Periodontol. 2015 Mar-Apr;19(2):142-9.http://lysozyme.co.uk/lysozyme-structure.php

Funzione:Translation proteinOppure mRNA agisce tal quale

Determinanti/marcatori molecolari di patologia

Sequenza del DNA

Livelli di espressione genicamRNA

Livelli delle proteine

Epigenetica: Regolazione trascrizionale effetto dell’ambiente (normale fisiologia, stile di vita, stress, radiazioni, inquinanti,….)}Regolazione traduzionale}

gene1

gene2

gene3 Se l’ambiente agisce quamutazione!!

6http://www.amsbio.com/epigenetics.aspx

Effetto dell’ambiente sull’espressione genicamodificazioni biochimiche semi-permanenti del DNA (metilazione) o delle proteine istoniche

Il cromosoma è DNA super-avvoltoEpigenetica

7

Come ottengo i dati molecolari, ovvero la sequenza del DNA?Oggi si fa rapidamente con i metodi di Next Generation Sequencing (NGS)

Frammentazione del Dna in ~ 100M di reads da 150 bp

Ricostruzione con allinemento sul genoma

sequenziamento

$100M

$100K

$1K

Costo per un genoma

https://www.genome.gov/about-genomics/fact-sheets/DNA-Sequencing-Costs-Data

https://www.illumina.com/documents/products/illumina_sequencing_introduction.pdf

8

I cromosomi umani contengono innumerevoli loci genici associati alle più svariate patologie

https://slideplayer.com/slide/5261901/

9

Come associare un singolo locus genomico alla malattia? Un metodo semplice è un test di associazione come il test esatto di Fisher ) o Chi-QuadroPer associare combinazioni di molti loci i metodi sono più complessi, anche Machine Learning(GWAS =Genome Wide Association Studies)

Sani, n= 600 Malati, n=500

A-T 61 117

G-C 600-61=539 500-117=383mutazione

Odd Ratio = (117/383) / (61/539) =2.70

P-value <0.0001 Questo locus è associato alla malattia https://mydnahealth.co.uk/national-dna-day/

10

H0: the two variables have the same dichotomous distribution

H1 the two variables have NOT the same dichotomous distribution

Set α =0.05.

Fisher exact test (better specially for small N !)

marginal sums

marginal sums

follows the Hypergeometric distribution

For N>20 (and each a,b,c,d>5) Chi-square, but not for N small !

Mutation CancerPatients Controls

YES a b a + b

NO c d c + d

a + c b + d a + b + c + d =N

( )( )( )( ) !!!!! Ndcba

dbcadcbap ++++=

11https://slideplayer.com/slide/5018349/

Altri dati molecolari: livelli di espressione dei geni selezione di geni-malattiaAnche questo si ottiene con nanotecnologie: RNA-Sequencing (NGS) o i microarrayOppure per singoli geni con qRT-PCRSi usano test statistici (malato vs Ctrl) con correzione per multiple testing: Bonferroni, FDR,…O metodi più complicati come il Machine Learning

Sani Malati

Geni sotto-espressinei malati

Geni sovra-espressi nei malati

Sani Malati

Mann-Withney test, P-value=0.022

12https://www.genomicsengland.co.uk/

Qualcuno sta già mappando il DNA completo e mRNA (espressione genica) di > 100mila pazienti con tumori e malattie rare:

100K Genome Project, UK

100K Genome Project, China

….

14

Fig1. 8-OHdG urinary concentration (A) in exposed and not-exposed adolescents ( * p = 0.026) and association of 8-OHdG in urine with urinary concentration of Cd (B), As (C) and composite exposureindex (D). Spearman r = 0.46, p < 0.0001; r = 0.27, p = 0.006; r = 0.43, p < 0.0001 respectively.

Livello di un marcatore urinario di danno ossidativo (8-OHdG) e correlazione con metalli pesanti nelle urine

15

Fig. 2. OGG1 (A), MT1A (B), ST13 (C) an NQO1 (D) gene expression values in exposed and non-exposed children, expressed as mean ±SEM. *** p = 0.0004, ### p < 0.0001.

Livello di geni (sangue) legati al danno del DNA e correlazione con metalli pesanti ( urine)

16

eta OGG1 ST13 NQO1MT1A8-OHdG Creati Cu Cd Tl Pb V Cr Mn Co Ni

eta 1.00 0.25 0.40 0.07 0.21 0.17 -0.10 0.02 0.22 0.22 0.20 -0.01 -0.06 0.14 0.06 0.09

OGG1 0.25 1.00 0.62 0.67 0.20 -0.27 -0.12 -0.20 0.10 0.22 0.02 0.03 0.06 0.10 -0.08 0.50

ST13 0.40 0.62 1.00 0.50 0.35 -0.23 -0.08 -0.23 0.22 0.33 0.03 0.14 -0.05 0.25 0.07 0.45

NQO1 0.07 0.67 0.50 1.00 0.28 -0.13 0.13 -0.26 0.08 0.14 0.18 -0.13 -0.12 0.05 -0.10 0.14

MT1A 0.21 0.20 0.35 0.28 1.00 0.12 0.05 -0.14 0.35 0.20 0.06 0.11 -0.04 0.29 0.11 0.31

8-OHdG 0.17 -0.27 -0.23 -0.13 0.12 1.00 0.20 0.04 0.17 -0.05 0.30 -0.21 -0.06 -0.13 0.00 -0.37

Creatini -0.10 -0.12 -0.08 0.13 0.05 0.20 1.00 -0.29 0.02 -0.23 -0.01 -0.26 -0.06 -0.27 -0.16 -0.48

Cu 0.02 -0.20 -0.23 -0.26 -0.14 0.04 -0.29 1.00 0.19 -0.13 0.31 0.01 -0.05 0.14 0.21 -0.25

Cd 0.22 0.10 0.22 0.08 0.35 0.17 0.02 0.19 1.00 0.15 0.08 0.13 0.04 0.22 0.19 0.20

Tl 0.22 0.22 0.33 0.14 0.20 -0.05 -0.23 -0.13 0.15 1.00 0.12 0.55 0.03 0.58 0.31 0.43

Pb 0.20 0.02 0.03 0.18 0.06 0.30 -0.01 0.31 0.08 0.12 1.00 -0.02 0.26 -0.08 -0.12 -0.17

V -0.01 0.03 0.14 -0.13 0.11 -0.21 -0.26 0.01 0.13 0.55 -0.02 1.00 0.59 0.81 0.29 0.54

Cr -0.06 0.06 -0.05 -0.12 -0.04 -0.06 -0.06 -0.05 0.04 0.03 0.26 0.59 1.00 0.17 -0.02 0.22

Mn 0.14 0.10 0.25 0.05 0.29 -0.13 -0.27 0.14 0.22 0.58 -0.08 0.81 0.17 1.00 0.49 0.54

Co 0.06 -0.08 0.07 -0.10 0.11 0.00 -0.16 0.21 0.19 0.31 -0.12 0.29 -0.02 0.49 1.00 0.29

Ni 0.09 0.50 0.45 0.14 0.31 -0.37 -0.48 -0.25 0.20 0.43 -0.17 0.54 0.22 0.54 0.29 1.00

Correlazioni tra livelli dei geni nel sangue e i metalli nelle urineGiallo=min, blu=Max

17

MT1A gene level

Crom

o u

rine

Non espostiEsposti

Z-test per confrontare i due indici di correlazione di Pearson P-value=0.0288 Nei due gruppi la relazione tra MT1A e Cr è diversa

MT1A gene level

18

Valori riferimento 5o - 95esimo percentile, SIVR 2011: microgr /L

Cu Cd Tl Pb V Cr Mn Co Ni

min riferimento: 5o perc 4.00 0.10 0.05 0.01 0.05 0.05 0.20 0.10 0.10

MAX riferimento: 95o perc 15.00 1.50 0.50 2.00 0.20 0.35 4.00 1.50 5.00

Esistono valori di riferimento per i metalli nelle urine (SIVR 2011), ma non esiste nulla di simile per i livelli di espressione genica

Limite Max ammesso per il Pb

Non-Exposed Exposed

Giorno PM10 NO2 Nox CO Benzene Toluene NO Xylene

Campione X1 X2 X3 X4 X5 X6 X7 Y1-gen-15 56.00 54.29 175.75 1.01 2.87 6.41 79.33 2.132-gen-15 62.00 61.96 245.50 1.43 3.89 9.32 119.92 3.233-gen-15 55.00 53.17 152.52 1.12 3.23 6.62 65.09 2.08

… … …… … …… … …

29-dic-17 4.00 52.39 150.04 0.86 1.88 4.47 63.83 1.2530-dic-17 42.00 52.74 153.17 0.93 2.26 5.02 65.87 1.3431-dic-17 42.00 39.13 101.87 0.84 2.20 3.61 41.04 0.89

Giorno PM10 NO2 Nox CO Benzene Toluene NO Xylene

Campione X1 X2 X3 X4 X5 X6 X7 Y1-gen-18 49.00 35.58 100.00 0.92 2.61 3.21 42.13 0.742-gen-18 62.00 45.29 103.92 0.77 1.73 3.23 38.25 0.843-gen-18 40.00 53.48 157.19 0.96 2.38 5.87 68.21 1.60

… … …… … …… … …

29-dic-18 56.00 44.00 164.75 0.96 3.22 5.93 78.92 1.6930-dic-18 57.00 46.50 166.54 0.93 2.85 5.52 78.46 1.5331-dic-18 59.00 36.00 128.00 1.20 5.10 5.30 60.00 1.10

Dati: centralina ARPA,Reggio Emilia, viale TimavoMisure: PM10, NO2, NO, NOx, CO, Benzene, Toluene, XyleneCampionamento di n=8 inquinanti (variabili), medie giornaliere

X Y2015-2017: Training set 2018: Validation set

X Y

20[Fonte dati: https://dati.arpae.it/dataset/qualita-dell-aria-rete-di-monitoraggio]

https://dati.arpae.it/dataset/qualita-dell-aria-rete-di-monitoraggio

0.1

1

10

100

10001-

gen-

15

1-m

ar-1

5

1-m

ag-1

5

1-lu

g-15

1-se

t-15

1-no

v-15

1-ge

n-16

1-m

ar-1

6

1-m

ag-1

6

1-lu

g-16

1-se

t-16

1-no

v-16

1-ge

n-17

1-m

ar-1

7

1-m

ag-1

7

1-lu

g-17

1-se

t-17

1-no

v-17

1-ge

n-18

1-m

ar-1

8

1-m

ag-1

8

1-lu

g-18

1-se

t-18

1-no

v-18

1-ge

n-19

[ µg

/ m3

]

PM10 NO2 NOx COBenzene Toluene NO Xylene

21

2015-2016-2017: Training set 2018: Validation set

Tutti i gas hanno andamenti ciclici con periodo annualeSc

ala

Log1

0

Y

Semi-matrice dicorrelazione(Pearson) tra le8 misure di inquinanti

Queste variabili sono correlate tra loro, ma cerco un modello più flessibile della

regressione tra 2 sole variabili

Notazione : "+" NON è algebricoXylene ~ PM10 + NO2 + NOx + CO + Benzene + Toluene + NO

Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X722

X6 = NO

Y =

Xyle

neR2=0.67

Definizione operativa di Machine Learning (ML)Un insieme di metodologie, che permettono al computer di costruire modelliunicamente apprendendo dai dati, senza fornire esplicitamente tali modelli.I modelli migliorano fornendo nuovi dati ("esperienza") al sistema.

Machine Learning

ML non-supervisionato(campioni NON "etichettati" )

Y non esiste!Modello: X e basta!

Classificazione(Y=Etichette categoriali)ML Supervisionato

(campioni "etichettati" =Y )Modello: Y ~ X Regressione

(Y=Etichette numeriche)

Clustering (raggruppamenti di dati)

Riduzione dimensionale: MDS, t-SNE…

Associazione (relazioni tra i dati)

23

Un modello serve per:

Stimare valori mancanti tra i predittori

Interpretare dati e fenomeni

Fare previsioni…. ….. ……

0.4 0.94 0 0 0.438 0.921 0.285 0.608 0.668 0.9250.166 0 0.591 0 0.715 0.02 0 0.764 0 0.501

0.35 0.633 0 0.375 0.111 0 0 0.149 0.304 00.527 0 0.949 0 0.153 0 0 0.134 0.378 0.9230.758 0.509 0.778 0 0.403 0.778 0.328 0 0.947 0.5160.417 0.413 0.595 0 0.96 0.878 0.687 0.587 0.018 0

0 0 0.388 0.141 0.746 0.08 0.464 0.773 0.997 0.0030.631 0.854 0.71 0 0.148 0.67 0 0 0 00.706 0.422 0.64 0.511 0 0.266 0.501 0.754 0.981 0.808

0 0.189 0.054 0.665 0.637 0.253 0.923 0 0 00.105 0.263 0.558 0.175 0.958 0.332 0 0.389 0.629 0.5050.742 0.517 0 0.043 0.725 0.339 0.511 0 0.075 0.938

0.17 0.06 0 0 0.228 0.842 0 0.324 0.173 00 0.272 0.397 0.75 0.05 0 0.149 0 0.71 0.263

0.166 0.205 0.041 0 0.129 0 0.249 0.83 0 00 0 0.657 0.467 0.118 0 0.278 0.069 0.699 0.522

0.662 0 0.327 0 0.212 0.195 0.008 0.18 0.409 00.774 0.362 0 0.01 0.402 0.379 0.057 0.685 0.561 00.253 0.18 0 0.088 0.874 0.808 0.124 0.217 0.05 0

0 0.875 0.315 0.038 0.893 0.375 0.73 0.09 0.941 00.1 0.17 0 0.303 0.239 0.276 0.681 0.272 0.605 0.12

0.342 0.815 0 0 0 0.275 0.24 0.377 0 00 0 0.961 0 0 0.173 0 0.164 0.821 0.538

0.262 0.687 0.353 0.998 0 0 0.701 0.501 0 0.1540.057 0.896 0.758 0.799 0.498 0.584 0.145 0.982 0 0.7040.077 0.385 0.588 0 0 0 0.614 0 0.515 0.399

Addestramento del modello tramite Learning

Obiettivo:Distanza |modello – dati_reali| 0

24

Nel Machine Learning i valori mancanti sono un problema: vanno eliminati i campioni o stimati i valori.

Intero dataset

Training setValidation set esterno

"intoccabile"

Cross-validazione

Modello

Validazione finale

Accuratezza modello

Modello

Training set

Cross-validazione

25

Pescando dal training set faccio tanti ri-campionamenti con ripetizione ("Bootstrap re-sampling"), Lunghezza = Training set completo

Training setrisuddiviso in

...... ………... ……

Boostrap 1

Boostrap 2

Boostrap n

Ogni volta che ricampiono i sotto-dati per il «training interno»provo il modello contro i sotto-dati che ho scelto per la «validazione interna»

Training «interno» validazione «interna»

A2 B2 C2

SStotalTotal squared distance of observations from mean of y

SSregDistance from regression line to mean of y . Variability due to x

SSresidualVariance around the regression line . Additional variability not explained by X

( ) ( ) ( )2...1

2

...1

2

...1

ˆ ˆ

valuesY fittedˆ

∑∑∑===

−+−=−

+==

Niii

Nii

Nii

ii

yyyyyy

xY βα

C A

B

A

yi

x

y

yi

C

B y

Il tipo più semplice di ML: Regressione lineare 2 soli parametri a , bModello: NO2 ~ Ozono NO2 = a*Ozono + b 2011={Training set}

2012={Validation set}

�𝑌𝑌𝑖𝑖 = fitted Y values = 𝑎𝑎𝑥𝑥𝑖𝑖 + 𝑏𝑏

Misuro l’accuratezza del modello con:

Var_spiegata_modello

Var_totale

R2= B / A = 1 – C / A

= SSreg/SStotal

= 1- SSRES/SStotal

R2= %=

R2 1 significa che il modello spiega interamente i dati , ma non succede quasi mai e di solito è un problema , si parla di Overfitting

26

[Fonte dati: https://dati.arpae.it/dataset/qualita-dell-aria-rete-di-monitoraggio], Bologna, Giardini Margherita


0

20

40

60

80

100

120

140

160

180

200

1-ge

n

31-g

en

1-m

ar

31-m

ar

30-a

pr

30-m

ag

29-g

iu

29-lu

g

28-a

go

27-s

et

27-o

tt

26-n

ov

26-d

ic

[µg /

m3

]

mesi dell'anno

OzonoNO2_realeNO2_cubic_mod

y = -0.2316x + 49.408R² = 0.5127

0102030405060708090

100

0 50 100 150 200 250

NO

2 [µ

g /m

3 ]

Ozono [µg /m3 ]

Ozono vs NO2 , ore 16, 2011

y = -2E-05x3 + 0.0065x2 - 0.8268x + 57.958R² = 0.5922

0102030405060708090

100

0 50 100 150 200 250

NO

2 [µ

g /m

3 ]

Ozono [µg /m3 ]


Regressione lineare: Y = a X + bRegr. cubica (NON lineare): Y = a X3 + bX2 + cX + dR2 migliora ! Quasi 60%

Pearson corr = -0.716 P-val <0.00001

R2= 0.55

Uso la regressione lineare anche per stimare i dati mancanti.La regressione cubica ottiene risultati miglioriDopo aver addestrato il modello sui dati 2011faccio una previsione di NO2 per il 2012 (validation set)R2 = 0.55 il modello cubico spiega il 55% della variabilità

2012

27

Voglio un modello più complesso che: includa tutte le variabili, Integri la non-linearità del sistema

Scelgo un metodo di regressione basato suAlberi decisionali("decision tree")Una struttura a rami ("branches"), decisioni binarie: X1 è > di …? X4 < di …? Si o No?

Ipotizziamo che ogni campione sia un "gettone"={X1,X2,X3,X4,X5,X6,X7} che cade. Lo infilo in cima ("root node"), ad ogni ramificazione ("decision node") il gettone sceglie destra o sinistra in base ai valori delle variabili fino a raggiungere una foglia (leaf) in fondo. Le foglie sono i valori di Y stimati dal modello Y = Xylene

28

Con questo albero R2 = 80.9%

X =

Oss

erva

zion

i

0.32

0. 75

0.52

2

1.52.8

3.5

1

1.3

2

2.7

Y = Xylene0 1.0 2.0 3.0 4.0

Lo spazio dei valori di Y è partizionato dall’albero. Ogni foglia corrisponde a un riquadro di valori di Y.

Per ogni osservazione {X1,X2,X3,X4,X5,X6,X7}il modello a singolo albero calcola:

Y = media dei punti del riquadro

Domanda ovvia:« solo 11 valori possibili per Y?»Risposta:«Certo, con UN solo albero, ma se ne uso molti…» metodi "Ensemble"

29

Foresta Casuale ("Random Forest") : RFLa regressione è basata su una vera foresta di alberi decisionali rovesciati. Quanti?

30Y = media di tutti gli alberi

… … … …

Almeno n=500 alberi in generale diversi tra loroSono generati da ricampionamenti casuali dei daticosì il modello diventa quasi una funzione continua, ed è in grado di descrivere comportamenti complessi.Servono centinaia-migliaia di casi per addestrare il modello.

Come combino gli alberi per la regressione ?

31

modello RF : 1000 alberi modello multi-lineare («iperpiano»), stavolta una vera somma algebrica

Y = aX1 + bX2 + cX3 + dX4+ eX5 + fX6 + gX7 + h

R2 = 85.6% R2 = 83.0%Meglio di

gen

feb

mar

apr

mag

giu

lug

ago

set

ott

nov

dic

2018 2018ge

n

feb

mar

apr

mag

giu

lug

ago

set

ott

nov

dic

Y =

Xyle

ne

Meglio di

Risultato del modello

Xylene_realeY_modello_RF

Xylene_realeY_modello_MultiLin

32

Posso interpretare facilmente il modello multi-lineare, attraverso il valore dei coefficientiY = -0.00028*X1 + 0.0078*X2 + 0.0068*X3 + 0.0035*X4 -0.1076*X5 + 0.075*X6 + 0.036*X7 – 0.14

I più “pesanti” sono qui nell’ordine: X5(benzene) , X6 (toluene), X7 (NO).

Ma come interpretare la selva del RF? E’ troppo complesso.Il modello è certamente più performante, ma pago il prezzo della ridotta decifrabilità. Ci sono migliaia di parametri che descrivono gli alberiQuesta difficoltà è vera in generale per tutti gli approcci avanzati di Machine Learning, in particolare per le “reti neurali”.

Per i metodi ad alberi decisionali, posso però estrarre un equivalente dei pesi delle variabili (“Variable Importance”).Un sistema è eliminare una variabile per volta: più l’errore aumenta, più vitale risulta la variabile.

0% 10% 20% 30% 40% 50%

PM10

NO2

NOx

CO

Benzene

Toluene

NO

% aumento errore sulla predizione

Variable Importance

Questo recentissimo studio è quasi interamente basato sul metodo Random Forest. I dati provengono sia da:campionamento temporale (2013-2015) campionamento spaziale (il territorio italiano)

Vari modelli Random Forest sono stati usati in varie fasi per:stimare i dati mancantisimulare le concentrazioni di PM10 e PM2.5 su base nazionale.

Metodi simili per stime di NO2 e Ozono

Modelli nel tempo e nello spazio

Invece di una sola centralina, raccolgo le misure dall’intera rete che copre:Una città (Roma) Italia USA

Avrò centinaia di serie temporali di dati da tutte le centraline, ognuno con le sue coordinate geografiche {Lat., Long.} un grande dataset spazio-temporale

Fonte: https://www.cittadiniperlaria.org/no2-anno-roma-2018/Stafoggia M et al, Environ Int. 2019 Mar;124:170-179Meng X et al, Environ Int. 2018 Dec;121(Pt 2):1137-1147

Modelli nel tempo e nello spazio

Come per le previsioni del tempo !

35

La distribuzione delle centraline è eterogenea, inoltre mancano molti dati spaziali è necessario interpolare per stimare tutti i valori mancanti Sempre attraverso modelli RF .Poi posso stimare i valori degli inquinanti con altri modelli RF che includano tutte le variabili temporali (mese giorno) e spaziali ( popolazione, altitudine, strade, industrie, meteorologia,…) LURF (Land Use Random Forest)

Fonte: https://www.cittadiniperlaria.org/no2-anno-roma-2018/Stafoggia M et al, Environ Int. 2019 Mar;124:170-179Meng X et al, Environ Int. 2018 Dec;121(Pt 2):1137-1147

RF

PM2.52015

NO2 ~ Var_temp + Var_spaz PM2.5 ~ Var_temp + Var_spazPM2.5 Nitati ~ Var_temp + Var_spaz

2015

2015

36

“Variable Importance” dei predittori per:

Italia: PM2.5 USA: PM2.5 nitrati

37

Gli stessi metodi (o simili) di Machine Learning si possonousare per costruire un modello degli

(eventi sanitari) in funzione delle ( concentrazioni di inquinanti)

38

Fig. 2. Representation of distribution of sensors of the Texas Commission on Environmental Quality network over the Houston area.

39

Giorno CO NO NO2 SO2 O3 PMs # Ricoveri PS1-gen-02 56.00 54.29 175.75 1.01 2.87 6.41 3

2-gen-02 62.00 61.96 245.50 1.43 3.89 9.32 7

3-gen-02 55.00 53.17 152.52 1.12 3.23 6.62 9

… … …

… … …

… … …

29-dic-12 4.00 52.39 150.04 0.86 1.88 4.47 11

30-dic-12 42.00 52.74 153.17 0.93 2.26 5.02 8

31-dic-12 42.00 39.13 101.87 0.84 2.20 3.61 5

X Y

Modello Y ~ X# Ricoveri per Asma ~ NO + NO2 + SO2 + CO + O3 + PMs

Y ~ X1 + X2 + X3 + X4 + X5 + X6Tipo di ML : Regole di associazione

40

Table 4: set of 10 rules with highest frequency across training sets

Risultato: regole che associano un aumentato Odd Ratio di ricoveri con il momento dell’esposizione (quanti giorni prima 0,1,2,3) ad alcuni inquinanti

41

Conclusioni

L’integrazione del tradizionale approccio tossicologico ed epidemiologico con dati genetici e biochimici campionati da soggetti esposti e non esposti, unitamente ai loro dati clinici, fornisce utilissime informazioni sui marcatori biomolecolari alla base del rischio di patologia e permette inoltre interventi preventivi mirati sulla salute dei singoli individui.

L’estensione di questo approccio ad una popolazione ampia, una epidemiologia di precisione, basata su dati genetici e non semplicemente sanitari, è una delle vie maestre da seguire.

I metodi di Machine Learning sono molto diffusi in epidemiologia e modellistica ambientalePermettono di integrare dati genetici e ambientali eterogenei all’interno dello stesso modelloSono estremamente flessibili e potentiRiescono a descrivere comportamenti non lineariMA ! necessitano di tanti [anni di…] misure ("BigData") per essere affidabili

42

STOP!

43

STOP!

44

STOP!

45

STOP!

Dati: centralina ARPA,Bologna, Giardini MargheritaO3 (Ozono), NO2 (Biossido di azoto)

Data O3 NO2 U1-gen-11 5 572-gen-11 4 593-gen-11 31 22

… … …… … …… … …

29-dic-11 14 3930-dic-11 34 3031-dic-11 41 29

Data O3 NO21-gen-12 5 572-gen-12 4 593-gen-12 31 22

… … …… … …… … …

29-dic-12 14 3930-dic-12 34 3031-dic-12 41 29

Campionamento della «popolazione» delle concentrazioni di O3 e NO2 ogni giorno alle ore 16 serie temporale di concentrazioni (µg/m3)

Cam

pion

i

variabili

2011 2012

Campioni = Osservazioni

In clinica

Campioni = casi = pazienti

variabili

46[Fonte dati: https://dati.arpae.it/dataset/qualita-dell-aria-rete-di-monitoraggio]


0102030405060708090

100

0 50 100 150 200 250

NO

2 [µ

g /m

3 ]

Ozono [µg /m3 ]


Statistica descrittiva e inferenziale sui dati

0

20

40

60

80

100

120

140

160

180

200

1-ge

n

31-g

en

1-m

ar

31-m

ar

30-a

pr

30-m

ag

29-g

iu

29-lu

g

28-a

go

27-s

et

27-o

tt

26-n

ov

26-d

ic

[µg

/m3

]

Ozono

NO2

0

50

100

150

200

2501-

gen

31-g

en

2-m

ar

1-ap

r

1-m

ag

31-m

ag

30-g

iu

30-lu

g

29-a

go

28-s

et

28-o

tt

27-n

ov

27-d

ic

[ µg

/m3

]

mesi dell'anno

NO2

Ozono

mesi

Ozono

NO2

Ozono

NO2

2011 2012

Media Mediana DevStd Media Mediana DevStdOzono 70.4 64.0 54.9 65.6 62.0 65.6NO2 33.3 31.0 18.0 27.6 22.0 19.9

2011 2012

M-W test, pval< 0.0001****

M-W test, pval=0.47n.s.

O3 NO2

47

Pearson corr = -0.716 P-val <0.0001

48

La statistica inferenziale e descrittiva è basata su modelli predefiniti

Media campionaria

Dev. standard

�̄�𝑥 =1𝑁𝑁

�i=1...N

𝑥𝑥𝑖𝑖

𝑆𝑆(𝑋𝑋) =1

𝑁𝑁 − 1�

i=1...N(𝑥𝑥𝑖𝑖 − �̄�𝑥)2

𝑃𝑃𝑃𝑃𝑎𝑎𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 𝐶𝐶𝑃𝑃𝑃𝑃𝑃𝑃 = 𝑃𝑃 =∑𝑖𝑖=1𝑛𝑛 (𝑥𝑥𝑖𝑖 − �̄�𝑋)(𝑦𝑦𝑖𝑖 − �̄�𝑌)

∑𝑖𝑖=1𝑛𝑛 (𝑥𝑥𝑖𝑖 − �̄�𝑋)2 ∑𝑖𝑖=1𝑛𝑛 (𝑦𝑦𝑖𝑖 − �̄�𝑌)2

T-test: distribuzioni gaussiana e T-student

con z = 12

log𝑒𝑒1+𝑟𝑟1−𝑟𝑟

∼

gaussiana

Mann-Witney test: distribuzione U

Data O3 NO2 U1-gen-11 5 572-gen-11 4 593-gen-11 31 22

… … …… … …… … …

29-dic-11 14 3930-dic-11 34 3031-dic-11 41 29

Data O3 NO21-gen-12 5 572-gen-12 4 593-gen-12 31 22

… … …… … …… … …

29-dic-12 14 3930-dic-12 34 3031-dic-12 41 29

Cam

pion

i

variabili

2011 2012

Campione X YC1 5 57

C2 4 59

C3 31 22… … …… … …… … …

Cn-2 14 39

Cn-1 34 30

Cn 41 29

Campione X YK1 5 57

K2 4 59

K3 31 22… … …… … …… … …

Kn-2 14 39

Kn-1 34 30

Kn 41 29

X= variabile predittore(possono essere tante)

Y=variabile risposta

Cerco un modello: NO2 ~ Ozono

Basato sui datiY ~ X

49

51

The first category of answer to the question is what IBM calls cognitive computing. It is about building machines (computers, software, robots, web sites, mobile apps, devices, etc) that do not need to be programmed explicitly. This view of machine learning can be traced back to Arthur Samuel's definition from 1959:

Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.

Arthur Samuel is one of the pioneers of machine learning. While at IBM he developed a program that learned how to play checkers better than him.

Samuel's definition is a great definition, but maybe a little too vague. Tom Mitchell, another well regarded machine learning researcher, proposed a more precise definition in 1998:

Well posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

Foresta Casuale ("Random Forest")

52

Y = average of all trees

[Fonte: Liarokapis MV et al, IEEE J Biomed Health Inform. 2013 Sep;17(5):915-21.]

53

0102030405060708090

100

1-ge

n

31-g

en

2-m

ar

1-ap

r

1-m

ag

31-m

ag

30-g

iu

30-lu

g

29-a

go

28-s

et

28-o

tt

27-n

ov

27-d

ic

[ mg

/m3

]

mesi dell'anno

Anno 2011

NO2Ozono

020406080

100120140160180

1-ge

n

31-g

en

2-m

ar

1-ap

r

1-m

ag

31-m

ag

30-g

iu

30-lu

g

29-a

go

28-s

et

28-o

tt

27-n

ov

27-d

ic

[ mg

/m3

]

mesi dell'anno

Anno 2011

NO2Ozono

Servono molti dati per avere un buon modello, NON posso sotto-campionareMeglio campioni rari e distribuiti nel tempo, piuttosto che “concentrati“ anni di misure...Altrimenti mi sfuggono i fenomeni periodici

0.000.100.200.300.400.500.600.700.800.90

30 60 90 120 150 180 210 240 270 300 330 360prendo i primi n giorni

R2

0.000.100.200.300.400.500.600.700.800.90

104 95 87 74 65 58 47 37 28 19 10 1Ricampiono random ogni n giorni

R2

ConclusioniI metodi di Machine Learning: sono ormai alla portata di tutti i PC Sono estremamente flessibili e potenti Riescono a descrivere comportamenti non lineari Sono molto diffusi in epidemiologia e modellistica ambientale

MA! necessitano di tanti [anni di…] misure ("BigData") per essere creati

Grazie alla SAGEN, all’ARPA e a tutti voi

55

valutazione ambientale ed epidemiologica biomolecolare · 2019-09-09 ·...

Documents