valutazione ambientale ed epidemiologica biomolecolare · 2019-09-09 ·...
TRANSCRIPT
Valutazione ambientale edepidemiologica biomolecolare
Ivan Arisi ( [email protected])
1
Bioinformatics facilityFondazione European Brain Research Institute "Rita Levi-Montalcini"
Roma
2
Valutazione Integrata di Impatto Ambientale e Sanitario (VIIAS): normativa
http://www.isprambiente.gov.it/it/pubblicazioni/pubblicazioni-del-sistema-agenziale/linee-guida-per-la-valutazione-integrata-di-impatto-ambientale-e-sanitario-viias-nelle-procedure-di-autorizzazione-ambientale-vas-via-e-aia
<<… Nella prassi scientifica internazionale si sono distinti due approcci per la valutazione degli impatti sulla salute.
Il primo approccio metodologico, più vicino all’ambito di ricerca della tossicologica, è quello dell’analisi del rischio (Risk Assessment - RA),
mentre il secondo approccio, di derivazione epidemiologica, è quello della quantificazione del numero di casi attribuibili (Health Impact Assessment – HIA) …>>
3
Risk Assessment (RA)
Basato sulla relazione dose-risposta per sostanze cancerogene e non, provenienti da studi di tossicologia animale
L’esposizione alle sostanze può essere per inalazione, ingestione, contatto. In ognuno dei 3 casi l’esposizione si calcola in modo diverso
Per sostanze tossiche non cancerogene, R = Hazard Quotient HQ:R= HQ=ADD / RfD , deve essere R <0.80
ADD= Dose media giornaliera, RfD = Dose massima giornaliera (per chi?)Nel caso di più sostanze HQ = Somma{ HQ1 + … + HQn} troppo semplice, spesso la biologia è NON-lineare
Per sostanze cancerogene, R= rischio incrementale nel corso della vitaR = ADD x SF , deve essere < 10-5
ADD= Dose media giornaliera, SF = potere cancerogeno della sostanza (pendenza curva dose-risposta)(per chi ?)
4
Health Impact Assessment ( HIA )
E’ una valutazione epidemiologica dell’impatto sanitario dovuto all’emissione di una sorgente, in termini di nuovi casi di ricoveri/decessi/tumori. E’ un rischio relativo degli esposti rispetto ai non esposti.La Frazione di eventi attribuibili all’emissione della sostanza è data da:
AC = A x B x ∆C x Pexp, non ci sono limiti imposti, ragionevolmente AC < 1/100.000 annoDove:• AC = numero di casi (all’anno) attribuibili all’esposizione in esame• A = (RR 1) = eccesso di rischio nella popolazione esposta per incremento unitario di concentrazione • B = tasso di morbosità/mortalità di background dell’esito sanitario considerato• ΔC= variazione nelle concentrazioni ambientali per la quale si intende valutare l’effetto .• Pexp = popolazione esposta (quale?, esistono individui più a rischio di altri per «gentica»)
NOTA IMP.: Nessuna delle due metodologie RA o HIA prevede di prassi misure di tipo biomolecolare (in particolare genetico) sui soggetti esposti, ma tali misure sono menzionate nelle nuove:
«Linee guida per la Valutazione di Impatto sanitario>> DL.vo 104/2017Pag. 25: << Nella fase di caratterizzazione del rischio sono anche identificate le categorie o gruppi di popolazione più suscettibili [...] per caratteristiche genetiche (es. polimorfismi genetici di enzimi che alterano la cinetica [...] >>
5Lavu V et al. The epigenetic paradigm in periodontitis pathogenesis. J Indian Soc Periodontol. 2015 Mar-Apr;19(2):142-9.http://lysozyme.co.uk/lysozyme-structure.php
Funzione:Translation proteinOppure mRNA agisce tal quale
Determinanti/marcatori molecolari di patologia
Sequenza del DNA
Livelli di espressione genicamRNA
Livelli delle proteine
Epigenetica: Regolazione trascrizionale effetto dell’ambiente (normale fisiologia, stile di vita, stress, radiazioni, inquinanti,….)}Regolazione traduzionale}
gene1
gene2
gene3 Se l’ambiente agisce quamutazione!!
6http://www.amsbio.com/epigenetics.aspx
Effetto dell’ambiente sull’espressione genicamodificazioni biochimiche semi-permanenti del DNA (metilazione) o delle proteine istoniche
Il cromosoma è DNA super-avvoltoEpigenetica
7
Come ottengo i dati molecolari, ovvero la sequenza del DNA?Oggi si fa rapidamente con i metodi di Next Generation Sequencing (NGS)
Frammentazione del Dna in ~ 100M di reads da 150 bp
Ricostruzione con allinemento sul genoma
sequenziamento
$100M
$100K
$1K
Costo per un genoma
https://www.genome.gov/about-genomics/fact-sheets/DNA-Sequencing-Costs-Data
https://www.illumina.com/documents/products/illumina_sequencing_introduction.pdf
8
I cromosomi umani contengono innumerevoli loci genici associati alle più svariate patologie
https://slideplayer.com/slide/5261901/
9
Come associare un singolo locus genomico alla malattia? Un metodo semplice è un test di associazione come il test esatto di Fisher ) o Chi-QuadroPer associare combinazioni di molti loci i metodi sono più complessi, anche Machine Learning(GWAS =Genome Wide Association Studies)
Sani, n= 600 Malati, n=500
A-T 61 117
G-C 600-61=539 500-117=383mutazione
Odd Ratio = (117/383) / (61/539) =2.70
P-value <0.0001 Questo locus è associato alla malattia https://mydnahealth.co.uk/national-dna-day/
10
H0: the two variables have the same dichotomous distribution
H1 the two variables have NOT the same dichotomous distribution
Set α =0.05.
Fisher exact test (better specially for small N !)
marginal sums
marginal sums
follows the Hypergeometric distribution
For N>20 (and each a,b,c,d>5) Chi-square, but not for N small !
Mutation CancerPatients Controls
YES a b a + b
NO c d c + d
a + c b + d a + b + c + d =N
( )( )( )( ) !!!!! Ndcba
dbcadcbap ++++=
11https://slideplayer.com/slide/5018349/
Altri dati molecolari: livelli di espressione dei geni selezione di geni-malattiaAnche questo si ottiene con nanotecnologie: RNA-Sequencing (NGS) o i microarrayOppure per singoli geni con qRT-PCRSi usano test statistici (malato vs Ctrl) con correzione per multiple testing: Bonferroni, FDR,…O metodi più complicati come il Machine Learning
Sani Malati
Geni sotto-espressinei malati
Geni sovra-espressi nei malati
Sani Malati
Mann-Withney test, P-value=0.022
12https://www.genomicsengland.co.uk/
Qualcuno sta già mappando il DNA completo e mRNA (espressione genica) di > 100mila pazienti con tumori e malattie rare:
100K Genome Project, UK
100K Genome Project, China
….
13
14
Fig1. 8-OHdG urinary concentration (A) in exposed and not-exposed adolescents ( * p = 0.026) and association of 8-OHdG in urine with urinary concentration of Cd (B), As (C) and composite exposureindex (D). Spearman r = 0.46, p < 0.0001; r = 0.27, p = 0.006; r = 0.43, p < 0.0001 respectively.
Livello di un marcatore urinario di danno ossidativo (8-OHdG) e correlazione con metalli pesanti nelle urine
15
Fig. 2. OGG1 (A), MT1A (B), ST13 (C) an NQO1 (D) gene expression values in exposed and non-exposed children, expressed as mean ±SEM. *** p = 0.0004, ### p < 0.0001.
Livello di geni (sangue) legati al danno del DNA e correlazione con metalli pesanti ( urine)
16
eta OGG1 ST13 NQO1MT1A8-OHdG Creati Cu Cd Tl Pb V Cr Mn Co Ni
eta 1.00 0.25 0.40 0.07 0.21 0.17 -0.10 0.02 0.22 0.22 0.20 -0.01 -0.06 0.14 0.06 0.09
OGG1 0.25 1.00 0.62 0.67 0.20 -0.27 -0.12 -0.20 0.10 0.22 0.02 0.03 0.06 0.10 -0.08 0.50
ST13 0.40 0.62 1.00 0.50 0.35 -0.23 -0.08 -0.23 0.22 0.33 0.03 0.14 -0.05 0.25 0.07 0.45
NQO1 0.07 0.67 0.50 1.00 0.28 -0.13 0.13 -0.26 0.08 0.14 0.18 -0.13 -0.12 0.05 -0.10 0.14
MT1A 0.21 0.20 0.35 0.28 1.00 0.12 0.05 -0.14 0.35 0.20 0.06 0.11 -0.04 0.29 0.11 0.31
8-OHdG 0.17 -0.27 -0.23 -0.13 0.12 1.00 0.20 0.04 0.17 -0.05 0.30 -0.21 -0.06 -0.13 0.00 -0.37
Creatini -0.10 -0.12 -0.08 0.13 0.05 0.20 1.00 -0.29 0.02 -0.23 -0.01 -0.26 -0.06 -0.27 -0.16 -0.48
Cu 0.02 -0.20 -0.23 -0.26 -0.14 0.04 -0.29 1.00 0.19 -0.13 0.31 0.01 -0.05 0.14 0.21 -0.25
Cd 0.22 0.10 0.22 0.08 0.35 0.17 0.02 0.19 1.00 0.15 0.08 0.13 0.04 0.22 0.19 0.20
Tl 0.22 0.22 0.33 0.14 0.20 -0.05 -0.23 -0.13 0.15 1.00 0.12 0.55 0.03 0.58 0.31 0.43
Pb 0.20 0.02 0.03 0.18 0.06 0.30 -0.01 0.31 0.08 0.12 1.00 -0.02 0.26 -0.08 -0.12 -0.17
V -0.01 0.03 0.14 -0.13 0.11 -0.21 -0.26 0.01 0.13 0.55 -0.02 1.00 0.59 0.81 0.29 0.54
Cr -0.06 0.06 -0.05 -0.12 -0.04 -0.06 -0.06 -0.05 0.04 0.03 0.26 0.59 1.00 0.17 -0.02 0.22
Mn 0.14 0.10 0.25 0.05 0.29 -0.13 -0.27 0.14 0.22 0.58 -0.08 0.81 0.17 1.00 0.49 0.54
Co 0.06 -0.08 0.07 -0.10 0.11 0.00 -0.16 0.21 0.19 0.31 -0.12 0.29 -0.02 0.49 1.00 0.29
Ni 0.09 0.50 0.45 0.14 0.31 -0.37 -0.48 -0.25 0.20 0.43 -0.17 0.54 0.22 0.54 0.29 1.00
Correlazioni tra livelli dei geni nel sangue e i metalli nelle urineGiallo=min, blu=Max
17
MT1A gene level
Crom
o u
rine
Non espostiEsposti
Z-test per confrontare i due indici di correlazione di Pearson P-value=0.0288 Nei due gruppi la relazione tra MT1A e Cr è diversa
MT1A gene level
18
Valori riferimento 5o - 95esimo percentile, SIVR 2011: microgr /L
Cu Cd Tl Pb V Cr Mn Co Ni
min riferimento: 5o perc 4.00 0.10 0.05 0.01 0.05 0.05 0.20 0.10 0.10
MAX riferimento: 95o perc 15.00 1.50 0.50 2.00 0.20 0.35 4.00 1.50 5.00
Esistono valori di riferimento per i metalli nelle urine (SIVR 2011), ma non esiste nulla di simile per i livelli di espressione genica
Limite Max ammesso per il Pb
Non-Exposed Exposed
19
Giorno PM10 NO2 Nox CO Benzene Toluene NO Xylene
Campione X1 X2 X3 X4 X5 X6 X7 Y1-gen-15 56.00 54.29 175.75 1.01 2.87 6.41 79.33 2.132-gen-15 62.00 61.96 245.50 1.43 3.89 9.32 119.92 3.233-gen-15 55.00 53.17 152.52 1.12 3.23 6.62 65.09 2.08
… … …… … …… … …
29-dic-17 4.00 52.39 150.04 0.86 1.88 4.47 63.83 1.2530-dic-17 42.00 52.74 153.17 0.93 2.26 5.02 65.87 1.3431-dic-17 42.00 39.13 101.87 0.84 2.20 3.61 41.04 0.89
Giorno PM10 NO2 Nox CO Benzene Toluene NO Xylene
Campione X1 X2 X3 X4 X5 X6 X7 Y1-gen-18 49.00 35.58 100.00 0.92 2.61 3.21 42.13 0.742-gen-18 62.00 45.29 103.92 0.77 1.73 3.23 38.25 0.843-gen-18 40.00 53.48 157.19 0.96 2.38 5.87 68.21 1.60
… … …… … …… … …
29-dic-18 56.00 44.00 164.75 0.96 3.22 5.93 78.92 1.6930-dic-18 57.00 46.50 166.54 0.93 2.85 5.52 78.46 1.5331-dic-18 59.00 36.00 128.00 1.20 5.10 5.30 60.00 1.10
Dati: centralina ARPA,Reggio Emilia, viale TimavoMisure: PM10, NO2, NO, NOx, CO, Benzene, Toluene, XyleneCampionamento di n=8 inquinanti (variabili), medie giornaliere
X Y2015-2017: Training set 2018: Validation set
X Y
20[Fonte dati: https://dati.arpae.it/dataset/qualita-dell-aria-rete-di-monitoraggio]
0.1
1
10
100
10001-
gen-
15
1-m
ar-1
5
1-m
ag-1
5
1-lu
g-15
1-se
t-15
1-no
v-15
1-ge
n-16
1-m
ar-1
6
1-m
ag-1
6
1-lu
g-16
1-se
t-16
1-no
v-16
1-ge
n-17
1-m
ar-1
7
1-m
ag-1
7
1-lu
g-17
1-se
t-17
1-no
v-17
1-ge
n-18
1-m
ar-1
8
1-m
ag-1
8
1-lu
g-18
1-se
t-18
1-no
v-18
1-ge
n-19
[ µg
/ m3
]
PM10 NO2 NOx COBenzene Toluene NO Xylene
21
2015-2016-2017: Training set 2018: Validation set
Tutti i gas hanno andamenti ciclici con periodo annualeSc
ala
Log1
0
Y
Semi-matrice dicorrelazione(Pearson) tra le8 misure di inquinanti
Queste variabili sono correlate tra loro, ma cerco un modello più flessibile della
regressione tra 2 sole variabili
Notazione : "+" NON è algebricoXylene ~ PM10 + NO2 + NOx + CO + Benzene + Toluene + NO
Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X722
X6 = NO
Y =
Xyle
neR2=0.67
Definizione operativa di Machine Learning (ML)Un insieme di metodologie, che permettono al computer di costruire modelliunicamente apprendendo dai dati, senza fornire esplicitamente tali modelli.I modelli migliorano fornendo nuovi dati ("esperienza") al sistema.
Machine Learning
ML non-supervisionato(campioni NON "etichettati" )
Y non esiste!Modello: X e basta!
Classificazione(Y=Etichette categoriali)ML Supervisionato
(campioni "etichettati" =Y )Modello: Y ~ X Regressione
(Y=Etichette numeriche)
Clustering (raggruppamenti di dati)
Riduzione dimensionale: MDS, t-SNE…
Associazione (relazioni tra i dati)
23
Un modello serve per:
Stimare valori mancanti tra i predittori
Interpretare dati e fenomeni
Fare previsioni…. ….. ……
0.4 0.94 0 0 0.438 0.921 0.285 0.608 0.668 0.9250.166 0 0.591 0 0.715 0.02 0 0.764 0 0.501
0.35 0.633 0 0.375 0.111 0 0 0.149 0.304 00.527 0 0.949 0 0.153 0 0 0.134 0.378 0.9230.758 0.509 0.778 0 0.403 0.778 0.328 0 0.947 0.5160.417 0.413 0.595 0 0.96 0.878 0.687 0.587 0.018 0
0 0 0.388 0.141 0.746 0.08 0.464 0.773 0.997 0.0030.631 0.854 0.71 0 0.148 0.67 0 0 0 00.706 0.422 0.64 0.511 0 0.266 0.501 0.754 0.981 0.808
0 0.189 0.054 0.665 0.637 0.253 0.923 0 0 00.105 0.263 0.558 0.175 0.958 0.332 0 0.389 0.629 0.5050.742 0.517 0 0.043 0.725 0.339 0.511 0 0.075 0.938
0.17 0.06 0 0 0.228 0.842 0 0.324 0.173 00 0.272 0.397 0.75 0.05 0 0.149 0 0.71 0.263
0.166 0.205 0.041 0 0.129 0 0.249 0.83 0 00 0 0.657 0.467 0.118 0 0.278 0.069 0.699 0.522
0.662 0 0.327 0 0.212 0.195 0.008 0.18 0.409 00.774 0.362 0 0.01 0.402 0.379 0.057 0.685 0.561 00.253 0.18 0 0.088 0.874 0.808 0.124 0.217 0.05 0
0 0.875 0.315 0.038 0.893 0.375 0.73 0.09 0.941 00.1 0.17 0 0.303 0.239 0.276 0.681 0.272 0.605 0.12
0.342 0.815 0 0 0 0.275 0.24 0.377 0 00 0 0.961 0 0 0.173 0 0.164 0.821 0.538
0.262 0.687 0.353 0.998 0 0 0.701 0.501 0 0.1540.057 0.896 0.758 0.799 0.498 0.584 0.145 0.982 0 0.7040.077 0.385 0.588 0 0 0 0.614 0 0.515 0.399
Addestramento del modello tramite Learning
Obiettivo:Distanza |modello – dati_reali| 0
24
Nel Machine Learning i valori mancanti sono un problema: vanno eliminati i campioni o stimati i valori.
Intero dataset
Training setValidation set esterno
"intoccabile"
Cross-validazione
Modello
Validazione finale
Accuratezza modello
Modello
Training set
Cross-validazione
25
Pescando dal training set faccio tanti ri-campionamenti con ripetizione ("Bootstrap re-sampling"), Lunghezza = Training set completo
Training setrisuddiviso in
...... ………... ……
Boostrap 1
Boostrap 2
Boostrap n
Ogni volta che ricampiono i sotto-dati per il «training interno»provo il modello contro i sotto-dati che ho scelto per la «validazione interna»
Training «interno» validazione «interna»
A2 B2 C2
SStotalTotal squared distance of observations from mean of y
SSregDistance from regression line to mean of y . Variability due to x
SSresidualVariance around the regression line . Additional variability not explained by X
( ) ( ) ( )2...1
2
...1
2
...1
ˆ ˆ
valuesY fittedˆ
∑∑∑===
−+−=−
+==
Niii
Nii
Nii
ii
yyyyyy
xY βα
C A
B
A
yi
x
y
yi
C
B y
Il tipo più semplice di ML: Regressione lineare 2 soli parametri a , bModello: NO2 ~ Ozono NO2 = a*Ozono + b 2011={Training set}
2012={Validation set}
�𝑌𝑌𝑖𝑖 = fitted Y values = 𝑎𝑎𝑥𝑥𝑖𝑖 + 𝑏𝑏
Misuro l’accuratezza del modello con:
Var_spiegata_modello
Var_totale
R2= B / A = 1 – C / A
= SSreg/SStotal
= 1- SSRES/SStotal
R2= %=
R2 1 significa che il modello spiega interamente i dati , ma non succede quasi mai e di solito è un problema , si parla di Overfitting
26
[Fonte dati: https://dati.arpae.it/dataset/qualita-dell-aria-rete-di-monitoraggio], Bologna, Giardini Margherita
0
20
40
60
80
100
120
140
160
180
200
1-ge
n
31-g
en
1-m
ar
31-m
ar
30-a
pr
30-m
ag
29-g
iu
29-lu
g
28-a
go
27-s
et
27-o
tt
26-n
ov
26-d
ic
[µg /
m3
]
mesi dell'anno
OzonoNO2_realeNO2_cubic_mod
y = -0.2316x + 49.408R² = 0.5127
0102030405060708090
100
0 50 100 150 200 250
NO
2 [µ
g /m
3 ]
Ozono [µg /m3 ]
Ozono vs NO2 , ore 16, 2011
y = -2E-05x3 + 0.0065x2 - 0.8268x + 57.958R² = 0.5922
0102030405060708090
100
0 50 100 150 200 250
NO
2 [µ
g /m
3 ]
Ozono [µg /m3 ]
Ozono vs NO2 , ore 16, 2011
Regressione lineare: Y = a X + bRegr. cubica (NON lineare): Y = a X3 + bX2 + cX + dR2 migliora ! Quasi 60%
Pearson corr = -0.716 P-val <0.00001
R2= 0.55
Uso la regressione lineare anche per stimare i dati mancanti.La regressione cubica ottiene risultati miglioriDopo aver addestrato il modello sui dati 2011faccio una previsione di NO2 per il 2012 (validation set)R2 = 0.55 il modello cubico spiega il 55% della variabilità
2012
27
Voglio un modello più complesso che: includa tutte le variabili, Integri la non-linearità del sistema
Scelgo un metodo di regressione basato suAlberi decisionali("decision tree")Una struttura a rami ("branches"), decisioni binarie: X1 è > di …? X4 < di …? Si o No?
Ipotizziamo che ogni campione sia un "gettone"={X1,X2,X3,X4,X5,X6,X7} che cade. Lo infilo in cima ("root node"), ad ogni ramificazione ("decision node") il gettone sceglie destra o sinistra in base ai valori delle variabili fino a raggiungere una foglia (leaf) in fondo. Le foglie sono i valori di Y stimati dal modello Y = Xylene
28
Con questo albero R2 = 80.9%
X =
Oss
erva
zion
i
0.32
0. 75
0.52
2
1.52.8
3.5
1
1.3
2
2.7
Y = Xylene0 1.0 2.0 3.0 4.0
Lo spazio dei valori di Y è partizionato dall’albero. Ogni foglia corrisponde a un riquadro di valori di Y.
Per ogni osservazione {X1,X2,X3,X4,X5,X6,X7}il modello a singolo albero calcola:
Y = media dei punti del riquadro
Domanda ovvia:« solo 11 valori possibili per Y?»Risposta:«Certo, con UN solo albero, ma se ne uso molti…» metodi "Ensemble"
29
Foresta Casuale ("Random Forest") : RFLa regressione è basata su una vera foresta di alberi decisionali rovesciati. Quanti?
30Y = media di tutti gli alberi
… … … …
Almeno n=500 alberi in generale diversi tra loroSono generati da ricampionamenti casuali dei daticosì il modello diventa quasi una funzione continua, ed è in grado di descrivere comportamenti complessi.Servono centinaia-migliaia di casi per addestrare il modello.
Come combino gli alberi per la regressione ?
31
modello RF : 1000 alberi modello multi-lineare («iperpiano»), stavolta una vera somma algebrica
Y = aX1 + bX2 + cX3 + dX4+ eX5 + fX6 + gX7 + h
R2 = 85.6% R2 = 83.0%Meglio di
gen
feb
mar
apr
mag
giu
lug
ago
set
ott
nov
dic
2018 2018ge
n
feb
mar
apr
mag
giu
lug
ago
set
ott
nov
dic
Y =
Xyle
ne
Meglio di
Risultato del modello
Xylene_realeY_modello_RF
Xylene_realeY_modello_MultiLin
32
Posso interpretare facilmente il modello multi-lineare, attraverso il valore dei coefficientiY = -0.00028*X1 + 0.0078*X2 + 0.0068*X3 + 0.0035*X4 -0.1076*X5 + 0.075*X6 + 0.036*X7 – 0.14
I più “pesanti” sono qui nell’ordine: X5(benzene) , X6 (toluene), X7 (NO).
Ma come interpretare la selva del RF? E’ troppo complesso.Il modello è certamente più performante, ma pago il prezzo della ridotta decifrabilità. Ci sono migliaia di parametri che descrivono gli alberiQuesta difficoltà è vera in generale per tutti gli approcci avanzati di Machine Learning, in particolare per le “reti neurali”.
Per i metodi ad alberi decisionali, posso però estrarre un equivalente dei pesi delle variabili (“Variable Importance”).Un sistema è eliminare una variabile per volta: più l’errore aumenta, più vitale risulta la variabile.
0% 10% 20% 30% 40% 50%
PM10
NO2
NOx
CO
Benzene
Toluene
NO
% aumento errore sulla predizione
Variable Importance
Questo recentissimo studio è quasi interamente basato sul metodo Random Forest. I dati provengono sia da:campionamento temporale (2013-2015) campionamento spaziale (il territorio italiano)
Vari modelli Random Forest sono stati usati in varie fasi per:stimare i dati mancantisimulare le concentrazioni di PM10 e PM2.5 su base nazionale.
Metodi simili per stime di NO2 e Ozono
Modelli nel tempo e nello spazio
Invece di una sola centralina, raccolgo le misure dall’intera rete che copre:Una città (Roma) Italia USA
Avrò centinaia di serie temporali di dati da tutte le centraline, ognuno con le sue coordinate geografiche {Lat., Long.} un grande dataset spazio-temporale
Fonte: https://www.cittadiniperlaria.org/no2-anno-roma-2018/Stafoggia M et al, Environ Int. 2019 Mar;124:170-179Meng X et al, Environ Int. 2018 Dec;121(Pt 2):1137-1147
Modelli nel tempo e nello spazio
Come per le previsioni del tempo !
35
La distribuzione delle centraline è eterogenea, inoltre mancano molti dati spaziali è necessario interpolare per stimare tutti i valori mancanti Sempre attraverso modelli RF .Poi posso stimare i valori degli inquinanti con altri modelli RF che includano tutte le variabili temporali (mese giorno) e spaziali ( popolazione, altitudine, strade, industrie, meteorologia,…) LURF (Land Use Random Forest)
Fonte: https://www.cittadiniperlaria.org/no2-anno-roma-2018/Stafoggia M et al, Environ Int. 2019 Mar;124:170-179Meng X et al, Environ Int. 2018 Dec;121(Pt 2):1137-1147
RF
PM2.52015
NO2 ~ Var_temp + Var_spaz PM2.5 ~ Var_temp + Var_spazPM2.5 Nitati ~ Var_temp + Var_spaz
2015
2015
36
“Variable Importance” dei predittori per:
Italia: PM2.5 USA: PM2.5 nitrati
37
Gli stessi metodi (o simili) di Machine Learning si possonousare per costruire un modello degli
(eventi sanitari) in funzione delle ( concentrazioni di inquinanti)
38
Fig. 2. Representation of distribution of sensors of the Texas Commission on Environmental Quality network over the Houston area.
39
Giorno CO NO NO2 SO2 O3 PMs # Ricoveri PS1-gen-02 56.00 54.29 175.75 1.01 2.87 6.41 3
2-gen-02 62.00 61.96 245.50 1.43 3.89 9.32 7
3-gen-02 55.00 53.17 152.52 1.12 3.23 6.62 9
… … …
… … …
… … …
29-dic-12 4.00 52.39 150.04 0.86 1.88 4.47 11
30-dic-12 42.00 52.74 153.17 0.93 2.26 5.02 8
31-dic-12 42.00 39.13 101.87 0.84 2.20 3.61 5
X Y
Modello Y ~ X# Ricoveri per Asma ~ NO + NO2 + SO2 + CO + O3 + PMs
Y ~ X1 + X2 + X3 + X4 + X5 + X6Tipo di ML : Regole di associazione
40
Table 4: set of 10 rules with highest frequency across training sets
Risultato: regole che associano un aumentato Odd Ratio di ricoveri con il momento dell’esposizione (quanti giorni prima 0,1,2,3) ad alcuni inquinanti
41
Conclusioni
L’integrazione del tradizionale approccio tossicologico ed epidemiologico con dati genetici e biochimici campionati da soggetti esposti e non esposti, unitamente ai loro dati clinici, fornisce utilissime informazioni sui marcatori biomolecolari alla base del rischio di patologia e permette inoltre interventi preventivi mirati sulla salute dei singoli individui.
L’estensione di questo approccio ad una popolazione ampia, una epidemiologia di precisione, basata su dati genetici e non semplicemente sanitari, è una delle vie maestre da seguire.
I metodi di Machine Learning sono molto diffusi in epidemiologia e modellistica ambientalePermettono di integrare dati genetici e ambientali eterogenei all’interno dello stesso modelloSono estremamente flessibili e potentiRiescono a descrivere comportamenti non lineariMA ! necessitano di tanti [anni di…] misure ("BigData") per essere affidabili
42
STOP!
43
STOP!
44
STOP!
45
STOP!
Dati: centralina ARPA,Bologna, Giardini MargheritaO3 (Ozono), NO2 (Biossido di azoto)
Data O3 NO2 U1-gen-11 5 572-gen-11 4 593-gen-11 31 22
… … …… … …… … …
29-dic-11 14 3930-dic-11 34 3031-dic-11 41 29
Data O3 NO21-gen-12 5 572-gen-12 4 593-gen-12 31 22
… … …… … …… … …
29-dic-12 14 3930-dic-12 34 3031-dic-12 41 29
Campionamento della «popolazione» delle concentrazioni di O3 e NO2 ogni giorno alle ore 16 serie temporale di concentrazioni (µg/m3)
Cam
pion
i
variabili
2011 2012
Campioni = Osservazioni
In clinica
Campioni = casi = pazienti
variabili
46[Fonte dati: https://dati.arpae.it/dataset/qualita-dell-aria-rete-di-monitoraggio]
0102030405060708090
100
0 50 100 150 200 250
NO
2 [µ
g /m
3 ]
Ozono [µg /m3 ]
Ozono vs NO2 , ore 16, 2011
Statistica descrittiva e inferenziale sui dati
0
20
40
60
80
100
120
140
160
180
200
1-ge
n
31-g
en
1-m
ar
31-m
ar
30-a
pr
30-m
ag
29-g
iu
29-lu
g
28-a
go
27-s
et
27-o
tt
26-n
ov
26-d
ic
[µg
/m3
]
Ozono
NO2
0
50
100
150
200
2501-
gen
31-g
en
2-m
ar
1-ap
r
1-m
ag
31-m
ag
30-g
iu
30-lu
g
29-a
go
28-s
et
28-o
tt
27-n
ov
27-d
ic
[ µg
/m3
]
mesi dell'anno
NO2
Ozono
mesi
Ozono
NO2
Ozono
NO2
2011 2012
Media Mediana DevStd Media Mediana DevStdOzono 70.4 64.0 54.9 65.6 62.0 65.6NO2 33.3 31.0 18.0 27.6 22.0 19.9
2011 2012
M-W test, pval< 0.0001****
M-W test, pval=0.47n.s.
O3 NO2
47
Pearson corr = -0.716 P-val <0.0001
48
La statistica inferenziale e descrittiva è basata su modelli predefiniti
Media campionaria
Dev. standard
�̄�𝑥 =1𝑁𝑁
�i=1...N
𝑥𝑥𝑖𝑖
𝑆𝑆(𝑋𝑋) =1
𝑁𝑁 − 1�
i=1...N(𝑥𝑥𝑖𝑖 − �̄�𝑥)2
𝑃𝑃𝑃𝑃𝑎𝑎𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 𝐶𝐶𝑃𝑃𝑃𝑃𝑃𝑃 = 𝑃𝑃 =∑𝑖𝑖=1𝑛𝑛 (𝑥𝑥𝑖𝑖 − �̄�𝑋)(𝑦𝑦𝑖𝑖 − �̄�𝑌)
∑𝑖𝑖=1𝑛𝑛 (𝑥𝑥𝑖𝑖 − �̄�𝑋)2 ∑𝑖𝑖=1𝑛𝑛 (𝑦𝑦𝑖𝑖 − �̄�𝑌)2
T-test: distribuzioni gaussiana e T-student
con z = 12
log𝑒𝑒1+𝑟𝑟1−𝑟𝑟
∼
gaussiana
Mann-Witney test: distribuzione U
Data O3 NO2 U1-gen-11 5 572-gen-11 4 593-gen-11 31 22
… … …… … …… … …
29-dic-11 14 3930-dic-11 34 3031-dic-11 41 29
Data O3 NO21-gen-12 5 572-gen-12 4 593-gen-12 31 22
… … …… … …… … …
29-dic-12 14 3930-dic-12 34 3031-dic-12 41 29
Cam
pion
i
variabili
2011 2012
Campione X YC1 5 57
C2 4 59
C3 31 22… … …… … …… … …
Cn-2 14 39
Cn-1 34 30
Cn 41 29
Campione X YK1 5 57
K2 4 59
K3 31 22… … …… … …… … …
Kn-2 14 39
Kn-1 34 30
Kn 41 29
X= variabile predittore(possono essere tante)
Y=variabile risposta
Cerco un modello: NO2 ~ Ozono
Basato sui datiY ~ X
49
50
51
The first category of answer to the question is what IBM calls cognitive computing. It is about building machines (computers, software, robots, web sites, mobile apps, devices, etc) that do not need to be programmed explicitly. This view of machine learning can be traced back to Arthur Samuel's definition from 1959:
Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.
Arthur Samuel is one of the pioneers of machine learning. While at IBM he developed a program that learned how to play checkers better than him.
Samuel's definition is a great definition, but maybe a little too vague. Tom Mitchell, another well regarded machine learning researcher, proposed a more precise definition in 1998:
Well posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
Foresta Casuale ("Random Forest")
52
Y = average of all trees
[Fonte: Liarokapis MV et al, IEEE J Biomed Health Inform. 2013 Sep;17(5):915-21.]
53
0102030405060708090
100
1-ge
n
31-g
en
2-m
ar
1-ap
r
1-m
ag
31-m
ag
30-g
iu
30-lu
g
29-a
go
28-s
et
28-o
tt
27-n
ov
27-d
ic
[ mg
/m3
]
mesi dell'anno
Anno 2011
NO2Ozono
020406080
100120140160180
1-ge
n
31-g
en
2-m
ar
1-ap
r
1-m
ag
31-m
ag
30-g
iu
30-lu
g
29-a
go
28-s
et
28-o
tt
27-n
ov
27-d
ic
[ mg
/m3
]
mesi dell'anno
Anno 2011
NO2Ozono
Servono molti dati per avere un buon modello, NON posso sotto-campionareMeglio campioni rari e distribuiti nel tempo, piuttosto che “concentrati“ anni di misure...Altrimenti mi sfuggono i fenomeni periodici
0.000.100.200.300.400.500.600.700.800.90
30 60 90 120 150 180 210 240 270 300 330 360prendo i primi n giorni
R2
0.000.100.200.300.400.500.600.700.800.90
104 95 87 74 65 58 47 37 28 19 10 1Ricampiono random ogni n giorni
R2
54
ConclusioniI metodi di Machine Learning: sono ormai alla portata di tutti i PC Sono estremamente flessibili e potenti Riescono a descrivere comportamenti non lineari Sono molto diffusi in epidemiologia e modellistica ambientale
MA! necessitano di tanti [anni di…] misure ("BigData") per essere creati
Grazie alla SAGEN, all’ARPA e a tutti voi
55