E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
1
1
4. Matrici e Minimi Quadrati
E. Martinelli
4. Matrici e Minimi Quadrati
Matrici e sistemi di equazioni di lineariFormulazione matriciale del metodo dei minimi quadrati
Regressione polinomialeRegressione non lineare
Cross-validazione e overfittingRegressione lineare multipla (MLR)
2
4. Matrici e Minimi Quadrati
E. Martinelli
Sistemi Lineari e Matrici
• Un sistema lineare è un insieme di n equazioni lineari in n incognite• È noto che le incognite possono essere determinate con semplicità
utilizzando il formalismo matriciale
• Il sistema quindi ammette soluzione, cioè è invertibile, se la matrice Aammetta la sua inversa quindi se det(A) 0
• Quindi se tutte le equazioni sono linearmente indipendenti una rispettoall’altra
a x + b y = k
c x + d y = g
a b
c d
x
y
=
k
g
A x = k x = A
-1k
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
2
3
4. Matrici e Minimi Quadrati
E. Martinelli
Formalismo matriciale
[ ] [ ] 1
1 1 1 2 2
1
1 2 1 2 2 2 1 2 1 2 2 2
1 1
esempio: n=2 senza errori di misura
n
i i n xn x xn
x x x x x x
x xy a x b y y a b Y K X
Y K X K Y X
…= + … = =
…
= =
• X-1 è detta matrice inversa di X
• Inversamente proporzionale al determinante– Se due righe o colonne sono proporzionali o combinazione lineare delle altre il
determinante della matrice è 0 e la matrice inversa diverge!• Problema della co-linearità nella soluzione dei problemi lineari.
X 2 x2
1=
a b
c d
1
=
d
detX
c
det X
b
detX
a
det X
4
4. Matrici e Minimi Quadrati
E. Martinelli
In presenza di errori di misura
•• In In presenzapresenza didi errorierrori didi misuramisura cici sonosono n n righerighe indipendentiindipendenti con n>2 con n>2
• La soluzione minimi quadrati, in cui cioè la norma del vettore E1xn si ottiene,formalmente come nel caso precedente scambiando l’operazione di inversionecon quella di pseudo-inversione o inversa generalizzata (teorema di Gauss-Markov)
yi = a xi + b + ei y1 … yn[ ] = a b[ ]x1 … xn
1 … 1
+ e1 … en[ ]
Y1xn = K1x2 X 2xn + E1xn
esempio : n = 2 con errori di misura
Y1xn = K1x2 X 2 xn + E1xn; min E1xn K1x2 = Y1xn X nx2+
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
3
5
4. Matrici e Minimi Quadrati
E. Martinelli
Matrice Pseudo-inversa
• a.k.a. inversa generalizzata o inversa di Moore• Definita attraverso le relazioni di Moore:
• Calcolo pratico:
– Esiste se det XTX 0.
• Pinv(x) in Matlab• PseudoInverse[x] in Mathematica
X X + X = X X X +( )*
= X X +
X + X X + = X + X + X( )*
= X + X
X += X TX( )
1X T
6
4. Matrici e Minimi Quadrati
E. Martinelli
Regressione Polinomiale
• Una relazione funzionale polinomiale può essere scritta in formamatriciale. Il problema ai minimi quadrati si può risolvere applicando ilteorema di Gauss-Markov
• Polinomio di grado n; n+1 parametri; m>n+1 misure sperimentali
y = a0 + a1 x + a2 x2
+…+ an xn
y1 … ym[ ] = a0 a1 … an[ ]
1 … 1
x1 … xm
… … …
x1n … xm
n
+ e1 … em[ ]
Y1xm = K1xn+1 X N +1xm + E1xm
min E1xm K1xn+1 = Y1xm X mxn+1+
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
4
7
4. Matrici e Minimi Quadrati
E. Martinelli
Regressione non-lineare
• Se la funzione f(x) non permette l’applicazione della regressionematriciale il problema ai minimi quadrati ammette una soluzionenumerica.
• Algoritmi iterativi che generalizzano la soluzione al problema f(x)=0.• Metodo di Newton o della tangente
– Metodo iterativo che procede, da un punto iniziale, verso la soluzione– Sensibile al punto di partenza, false convergenze verso punti di minimo.
y = f x;k1 ,…,km( ) + e
xi +1 = xi
f xi( )df
dxxi( )
xixi+1
f(xi)
xa
x=f(xi )/tan(a) = f(xi )/f'(xi)
8
4. Matrici e Minimi Quadrati
E. Martinelli
Generalizzazione alla soluzione di sistemadi equazioni non lineari
• Algoritmo di Newton-Rhapson
• La soluzione passa attraverso l’inversione dello Jacobiano (Jij)
y1 = f x1 ,k1 ,… ,k n( )…
yn = f xn ,k1 ,… ,k n( )
k i +1 = k i J1
k i( ) f k i( ) y( )dove
J i j =f i
k j
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
5
9
4. Matrici e Minimi Quadrati
E. Martinelli
Minimi quadrati non-lineari
• Algoritmo di Ben-Israel
• Versione ottimizzata: algoritmoalgoritmo didi LevenbergLevenberg-Marquardt-Marquardt
y1 = f x1 ,k1 ,…,k n( ) + e1
…
ym = f xn ,k1 ,…,k n( ) + em
k i +1 = k i J+
k i( ) f k i( ) y( )dove
J i j =f i
k j
10
4. Matrici e Minimi Quadrati
E. Martinelli
Modello lineare o non-lineare?Il problema della validazione
• Quale è la migliore funzione che descrive i dati sperimentali?• Quella che consente di predirre con errore minimo le variabili che non
sono state usate per costruire il modello.• L’operazione che consente di stimare questo errore si chiama cross-
validation.
• Esempio: consideriamo i seguenti dati in cui si ha: y=f(x)+e– Quale è la migliore funzione che descrive la relazione tra y e x ?
x
y
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
6
11
4. Matrici e Minimi Quadrati
E. Martinelli
Esempi di soluzionelineare Moderatamente non lineare
Altamente non lineare
12
4. Matrici e Minimi Quadrati
E. Martinelli
Il metodo del test
• L’insieme dei dati viene diviso in due• Il modello viene determinato su un sottoinsieme dei dati (insieme di
calibrazione training set)• L’errore viene valutato sull’altro sottoinsieme (insieme di test test set)• La stima dell’errore di predizione dell’insieme di test è significativa
della capacità di generalizzazione del modello. Cioè della suaapplicabilità a dati non utilizzati per la calibrazione. Quindi all’utilizzodel modello nel mondo reale per stimare grandezze incognite.
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
7
13
4. Matrici e Minimi Quadrati
E. Martinelli
Applicazione del metodo del test
I dati segnati in rosso sono il test set. Il modello è calcolato sui restanti dati(punti blù).L’errore sui dati di test è valutato come RMSECV
RMSECV=2.4 RMSECV=0.9 RMSECV=2.2
14
4. Matrici e Minimi Quadrati
E. Martinelli
Discussione
• Il metodo migliore è quello moderatamente non lineare (quadratico)• Il metodo lineare ha un errore grande sia in calibrazione che in test• Il metodo fortemente non lineare ha un errore di calibrazione nullo ma
un errore di test elevato. Tale modello è “troppo specializzato” neldescrivere i dati di calibrazione e non è in grado di generalizzare cioèdi trattare adeguatamente i dati non usati per la calibrazione.– Tale effetto si chiama overfitting ed è tipico nel caso di modelli
fortemente non lineari.– Inciso: dati n punti questi sono fittati perfettamente da un polinomio di
ordine n
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
8
15
4. Matrici e Minimi Quadrati
E. Martinelli
Considerazioni sul metodo del test-set
• Il metodo è molto semplice ma richiede insiemi di dati numerosi.• La selezione degli insiemi non è semplice in generale va fatta in
maniera casuale ma bisogna evitare di sbilanciare i due insiemi– È bene controllare che i due insiemi abbiano la stessa varianza e la stessa
media– Se i due insiemi sono disgiunti si possono verificare fenomeni di overfitting
apparente• Inciso: a parte casi semplici, in genere i modelli falliscono nelle estensioni
analitiche cioè nella predizione di misure fuori del range considerato per lacalibrazione.
16
4. Matrici e Minimi Quadrati
E. Martinelli
Leave-One-Out cross-validation• Nel caso di insiemi numerosi di dati il metodo del test set si può
utilizzare senza problemi, ma quando il numero di dati diventa esiguoè necessario ricorrere ad altre strategie per la scelta della funzione eper la stima dell’errore.
• Il metodo più utilizzato in tal senso è il leave-one-out– Letteralmente lasciane uno fuori
• Il metodo consiste nel ridurre a 1 il contenuto dell’insieme di test, enel valutare l’errore di predizione rispetto al dato eliminato. Eliminandoconsecutivamente tutti i dati e facendo la media degli errori ottenuti siottiene una stima robusta dell’errore di predizione del modellofunzionale.
Passo i-esimo:Escludere il dato iCalcolare la regressione sugli n-1datiValutare l’errore di predizionerispetto al dato i-esimoImmagazzinare il valore in i
L’errore finale di predizione è lamedia degli i
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
9
17
4. Matrici e Minimi Quadrati
E. Martinelli
LOO modello lineare
RMSECV=2.12
18
4. Matrici e Minimi Quadrati
E. Martinelli
LOO modello moderatamente non lineare(quadratico)
RMSECV=0.96
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
10
19
4. Matrici e Minimi Quadrati
E. Martinelli
LOO modello altamente non lineare
RMSECV=3.33
20
4. Matrici e Minimi Quadrati
E. Martinelli
Confronto test - LOO
• LOO fornisce una stima migliore dell’errore di predizione rispetto altest set la cui stima dell’errore è inattendibile.
• LOO sfrutta al massimo l’intero set di dati.• Ovviamente LOO è il metodo del test set con insieme di validazione di
ampiezza minima.• Per insiemi di grandi dimensioni LOO è dispendioso dal punti di vista
del calcolo.• Può essere “ammorbidito” considerando più insiemi di k dati.
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
11
21
4. Matrici e Minimi Quadrati
E. Martinelli
Sistemi Lineari e matrici di dati
• In un sistema lineare, ogni equazione definisce una funzione di piùvariabili.
• Nella scienza analitica i sistemi lineari consentono di estrarreinformazioni da metodi di misura non specifici, cioè nei quali il risultatodella misura non è funzione solo di una grandezza ma di più grandezzecaratterizzanti un campione.
• Quando però si considerano dati sperimentali bisogna tenere conto ditre fattori:– Errori di misura– Dipendenza da più grandezze rispetto a quelle considerate– Limiti della relazione lineare
• Tutto ciò fa si che ad esempio la risposta di una misura (y) rispetto adue variabili (x1, x2) si possa scrivere come:
– Il termine e contiene i tre fattori sopra elencati y = k1 x1 + k2 x2 + e
22
4. Matrici e Minimi Quadrati
E. Martinelli
Sistemi lineari e matrici di dati
• Dato un metodo di misura come il precedente per la misura dellegrandezze x1 e x2 è necessario almeno disporre di un altro metodo dimisura ma con coefficienti differenti
– Si noti che in assenza dei termini e il sistema sarebbe deterministico, e dueequazioni sarebbero il massimo necessario per ricavare due variabili
• Nel senso che ogni altra equazione sarebbe necessariamente combinazionelineare delle prime due
• La presenza dei termini e fa si che il problema della determinazione dix1 e x2 sia un problema statistico simile al problema della regressione equindi risolvibile con il metodo dei minimi quadrati– In particolare, si possono avere più equazioni che termini incognite anzi
maggiore è il numero di equazioni minore è l’errore di stima
y1 = k1 x1 + k2 x2 + e1
y2 = w1 x1 + w2 x2 + e2
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
12
23
4. Matrici e Minimi Quadrati
E. Martinelli
Osservabili selettivi e non selettivi
• Le quantità osservabili possono essere, rispetto alle variabili damisurare, selettivi o non selettivi
– Selettivi: L’osservabile dipende in maniera dominante da una variabile– Non selettivi: l’osservabile dipende da più variabili
• Gli osservabili non selettivi sono gli oggetti della analisi multivariata
variabili
coefficiente
Osservabilespecifico
jj Ckz
variabili
coefficiente
OsservabileNon selettivo
=i
iiCkz
24
4. Matrici e Minimi Quadrati
E. Martinelli
Osservabili non selettivi
• Esempio:– Spettri ottici
• L’assorbimento ad una data frequenza dipende dalla concentrazione di più specie
– Gas cromatogrammi• L’intensità di una riga può risultare dalla concentrazione di più composti con
tempi di eluizione simili
– Sensori chimici• La risposta di una sensore è data dalla combinazione di più sostanze a seconda
della loro concentrazione e della loro affinità con il sensore stesso.
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
13
25
4. Matrici e Minimi Quadrati
E. Martinelli
Parametri importanti dei metodi analitici:la sensibilità e la risoluzione
• Dato un metodo analitico, si definisce sensibilità il rapporto tra lavariazione del risultato del metodo e la corrispondente variazione dellavariabile misurata.– Tale quantità corrisponde alla seguente derivata:
• La risoluzione indica la quantità minima misurabile della variabileconsiderata, essa è generata dall’errore di misura ed è definita da:
S =
Y
X
R =
X= Y
S
Y
X
SX0
=Y
XX0
X0
Y
XX0
Y
X
X0=
Y0
SX0
26
4. Matrici e Minimi Quadrati
E. Martinelli
Spazio delle variabili e spazio degli osservabili:caso di osservabili selettivi
Y1 = aX1 + bX2
Y2 = cX1 + dX2
Se I due osservabili sono i
Osservabile 1
Osservabile 2
Correlazione=1-det(K)=0
10
01==
dc
baK
X1
X2
Spazio delle variabili
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
14
27
4. Matrici e Minimi Quadrati
E. Martinelli
Spazio delle variabili e spazio degli osservabili:caso di osservabili non selettivi
0,,,
=
dcba
dc
baK
Osservabile 1
osservabile 2
0<C<1
Correlazione parziale
X1
X2
C=1
K =a b
c d
a d b c = 0
Correlazione totale
28
4. Matrici e Minimi Quadrati
E. Martinelli
Multiple Linear Regression
• Dati n osservabili ognuno dipendente da m variabili e caratterizzato daerrore di misura nel senso esteso del termine, le m variabili possonoessere statisticamente stimate utilizzando il metodo dei minimiquadrati.
• Ovviamente dovranno essere rispettate le 4 condizioni del metodo deiminimi quadrati:
Le misure hanno varianza uguale4
Gli eventi osservati sonoindipendenti
3
Y è distribuita normalmente2
L’errore su y è molto maggioredell’errore su x
1
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
15
29
4. Matrici e Minimi Quadrati
E. Martinelli
Multiple Linear Regression
Y = X
k
n
*B
q
k
q
n
k = n° osservabili
n =n° misure
q= n° variab ili misurabili
E
q
+
n
Y=XB+E
30
4. Matrici e Minimi Quadrati
E. Martinelli
Multiple Linear Regression
• Come nel caso dei minimi quadrati monovariati, si identificano due fasi:– Calibrazione: misurando gli osservabili Y relativi a variabili note X si
determina la matrice B– Utilizzo: conoscendo la matrice B si ricavano le migliori stime per le
quantità X dalle misure degli osservabili Y
• Calibrazione:– Noti X e Y la migliore stima per B è data dal teorema di Gauss-Markov:
– Se X è di rango massimo si può calcolare la pseudoinversa come:
• Significa imporre che ogni osservabile sia indipendente dagli altri
B
MLR= X
+Y
B
MLR= X
TX( )
1
XT
Y
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
16
31
4. Matrici e Minimi Quadrati
E. Martinelli
Significato della MLR
• La soluzione del teorema di Gauss-Markov è detta anche estimatoreBLUE (best linear unbiased estimator) cioè è lo stimatore di varianzaminima
• In pratica BMLR massimizza la correlazione tra X e Y• Geometricamente la soluzione trovata corrisponde ad una proiezione
ortogonale di Y in un sottospazio di X.
• è una matrice di proiezione ortogonale in un sottospazio di X Y
MLR= X B
MLR= X X
TX( )
1
XT
Y = Y
YLS
Y
e
32
4. Matrici e Minimi Quadrati
E. Martinelli
Utilizzo pratico
• In pratica conviene imporre la dipendenza lineare tra le grandezze damisurare e gli osservabili ipotizzando un errore distribuito normalmente
• La soluzione minimi quadrati è quindi data da:
• E la matrice BMLR viene stimata dalla seguente:
X = Y B + e
X
MLR= Y B
MLR
B
MLR= Y
+X
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
17
33
4. Matrici e Minimi Quadrati
E. Martinelli
Stimatori della prestazione dellaregressione
• PRESS- Predicted Sum of Squares
• RMSEC - Root Mean Square error of calibration
• RMSECV - Root Mean Square Error of Cross-Validation– Per un modello che include k campioni non inclusi nel modello stesso
PRESS = yiLS
yi( )2
i
RMSEC =PRESS
N
RMSECVk =PRESSk
N
34
4. Matrici e Minimi Quadrati
E. Martinelli
Limitazioni della MLR
• La Pseudoinversa può essere risolta agevolmente nel caso in cui ilrango di X sia massimo e quindi gli osservabili siano indipendenti– Questa condizione non è sempre vera:
• In una riga spettrale, tutte le frequenze della riga sono verosimilmente formatedalle stesse variabili con coefficienti pressochè simili
•• Nel caso in cui il rango non sia massimo siamo nella condizione diNel caso in cui il rango non sia massimo siamo nella condizione diavere osservabili fortemente correlati, questo dà luogo a grossi erroriavere osservabili fortemente correlati, questo dà luogo a grossi errorinel calcolo della nel calcolo della pseudoinversapseudoinversa che portano ad errori di stima delle che portano ad errori di stima dellevariabili non accettabili se la correlazione è troppo elevata.variabili non accettabili se la correlazione è troppo elevata.
• In questi casi bisogna trovare un metodo che riduca la correlazione tragli osservabili.
• Bisogna in pratica trovare delle nuove variabili dipendenti (funzionedegli osservabili) che non siano soggette alla eccessiva correlazione.
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
18
35
4. Matrici e Minimi Quadrati
E. MartinelliEsempio
misura di clorofilla ed antociani in unapopolazione di pesche con spettroscopia
Vis-NIR
• Spettri (Y)
0 50 100 1500
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
• Clorofilla e Antociani (X)
1 1.5 2 2.5 3 3.5 4 4.50
0.005
0.01
0.015
0.02
0.025
CLOROFILLA
ANTOCIANI
36
4. Matrici e Minimi Quadrati
E. Martinelli
Definizione di MLR
• Dati suddivisi in due insiemI: calibrazione e validazione• Ipotesi: le grandezze X sono calcolabili come combinazione lineare dei
valori spettrali Y più un errore che distribuito normalmente.
• La stima LS di X è quindi:
• E la matrice BMLR è data da:
X = Y B + e
X
MLR= Y B
MLR
B
MLR= Y
+X
E. Martinelli & C. Di Natale:Trattamento Statistico dei Dati
19
37
4. Matrici e Minimi Quadrati
E. Martinelli
Risultati
• Coefficienti matrice B
0 50 100 150-100
-50
0
50
100
0 50 100 150-0.6
-0.4
-0.2
0
0.2
0.4
Clorofilla
Antociani
38
4. Matrici e Minimi Quadrati
E. Martinelli
risultati
• Confronto YLS ed Y– Scatter plot: ascissa: valore vero; ordinata: valore stimato
2 2.5 3 3.5 4 4.52
2.5
3
3.5
4
4.5
0 0.005 0.01 0.015 0.02 0.0250
0.005
0.01
0.015
0.02
0.025
0 2 4 6 80
2
4
6
8
0 0.01 0.02 0.03 0.040
0.01
0.02
0.03
0.04
clorofilla
antociani
calibrazione validazione