valutazione dei modelli

Valutazione dei Modelli

Corso di Apprendimento AutomaticoLaurea Magistrale in Informatica

Nicola Fanizzi

Dipartimento di InformaticaUniversita degli Studi di Bari

30 dicembre 2008

Corso di Apprendimento Automatico Valutazione dei Modelli

Sommario

Principi di conservazione ed indeterminazioneErrore, Bias e VarianzaIntervalli di confidenza per l’errore osservato dell’ipotesi

StimatoriDistribuzioni: Binomiale, NormaleTeorema del Limite Centralet-Test a coppie

Confronto di algoritmi di apprendimentoMetodi di campionamento per la stimaAltri metodi


Valutazione

Quant’e predittivo il modello appreso?L’errore sui dati di training non e un buon indicatore dellaperformance su dati futuri

Altrimenti 1-NN sarebbe un classificatore ottimaleSoluzione semplice usabile se si hanno a disposizionemolti esempi classificati:

Suddividere i dati in training e test setTuttavia: i dati (soprattutto se classificati) sono in genere innumero limitato

Si necessitano tecniche piu sofisticate


Confronto di algoritmi

Domande1 Se si e interessati alla performance sulla generalizzazione,

ci sono ragioni per preferire un classificatore o unalgoritmo piuttosto che un altro ?

2 Se non si fanno assunzioni supplementari,ci si puo aspettare che un algoritmo sia globalmentesuperiore (o inferiore) rispetto agli altri ?

3 Si puo trovare un algoritmo che risulti in generale superiore(o inferiore) ad una procedura di classificazione casuale ?

Risposte1-2-3: NO

L’apparente superiorita di un algoritmo dipendedal particolare problema e dalla distribuzione dei dati


Principio di conservazione dell’errore I

Supponendo di lavorare nel discretosia P(h) la probab. a priori di h ∈ H esia P(h|S) la probab. di costruire h in base al campione S

Errore atteso:

E [err |S] =∑h,f

∑x 6∈S

P(x)[1− δ(f (x),h(x))]P(h|S)P(f |S)

dato S, e correlato alla somma degli input, pesati dalla loroprobabilita P(x), e all’allineamento della risposta dell’ipotesicon la risposta corretta, pesati, risp., da P(h|S) e P(f |S)

Quindi: non conoscendo P(f |S) a priori, si puo concluderepoco sulla performance dell’alg. di classificazione P(h|S)


Principio di conservazione dell’errore IIErrore atteso off-training del k -esimo algoritmo:

E [errk |f ,n] =∑x 6∈S

P(x)[1− δ(f (x),hk (x))]P(hk (x)|S)

Le assunzioni sul dominio del problema sono molto rilevanti

Anche per alg. apparentemente ottimali,vi sono problemi per i quali le prestazioni sono basse:quelli in cui algoritmo e probab. a posteriori non collimano

Si dimostra infatti una sorta di ”teorema di conservazione” perla generalizzazione:

per ogni alg. di apprendimento, la somma delle prestazionirispetto a tutte le possibili funzioni obiettivo e nulla

piu formalmente...


Teorema No Free Lunch

Theorem (No Free Lunch)

Dati due algoritmi, con probab. P(h1(x)|S) e P(h2(x)|S),indipendentemente dalla distribuzione dei campioni P(x) e dalloro numero n, sono vere le seguenti asserzioni:

1 Mediando uniformemente su tutte le funzioni f :E(err1|f ,n)− E(err2|f ,n) = 0;

2 Per ogni campione fissato S,mediando uniformemente su tutte le funzioni f :E(err1|f ,S)− E(err2|f ,S) = 0;

3 Mediando uniformemente sulle probab. a priori P(f ):E(err1|n)− E(err2|n) = 0;

4 Per ogni campione fissato S,mediando uniformemente sulle probab. a priori P(f ):E(err1|f ,S)− E(err2|f ,S) = 0


No Free Lunch – osservazioni I

1 Stesso errore se si media su tutte le funzioni possibili:∑f

∑S

P(S|f )[E(err1|f ,n)− E(err2|f ,n)] = 0

se le funzioni sono equiprobabili, allora in generale unalgoritmo (buono) non supera mai un altro (cattivo)

2 Fissato S, nessun algoritmo porta a migliorare l’erroreoff-training rispetto agli altri:∑

f

[E(err1|f ,D)− E(err2|f ,D)] = 0

3 come 1. per distribuzioni delle funzioni target non uniformi4 come 2. per distribuzioni delle funzioni target non uniformi


No Free Lunch – osservazioni II

poss

ibili

impo

ssib

ili spaz

i dei

pro

blem

i+

sopr

a la

med

ia-

sotto

la m

edia

0 in

med

ia

a) buona accuratezza su pochi problemi, ma molto bassa sugli altri

b) eccellente accuratezza su molti problemi, ma scarsa su molti altri

c) media accuratezza generale, con punte molto alte o molto basse

d) eccellenti prestazioni su tutto

e),f) impossibile andar mediamente bene su tutti i problemi


Similarita e indeterminazione I

Supponiamo di lavorare ancora nel discreto in logicaproposizionale

Dati due esempi, supponiamo di usare un numero finitofeature (e quindi di pattern) per descriverli

In assenza di informazione a priori sulla distribuzione, unamisura di similarita tra esempi potrebbe semplicementecontare il numero di pattern condivisi

Si stabilisce un risultato di indeterminazione basato sullauguale similarita di tutti gli esempi, se non si fannoassunzioni ulteriori in base alla conoscenza di fondo suldominio


Similarita e indeterminazione II

Esempio Istanze xi come triple di feature fi binarie:

a) f1: ha gambe, f2: ha braccio dx, f3: ha mano dx(notare che f3 ⇒ f2)

b) ...c) f1: arancio, f2: marrone, f3: blu

mutamente esclusive


Similarita e indeterminazione IIILe feature fi corrispondono ad insiemi elementari,le formule / pattern ad insiemi complessi

Diagramma generale per un problema con 2 feature

es. 4 insiemi descritti da formule congiuntive:x1 ∈ f1 ∧ ¬f2 x2 ∈ f1 ∧ f2 x3 ∈ ¬f1 ∧ f2 x4 ∈ ¬f1 ∧ ¬f2


Similarita e indeterminazione IV

Rango (rank) r di un pattern:numero di elementi che descrive/contieneNB. rank

(40

)= 0: ∅ = f1 ∧ ¬f1 ∨ f2 ∧ ¬f2

1 rank(4

1

)= 4: {x1} = f1 ∧ ¬f2 {x2} = f1 ∧ f2

{x3} = ¬f1 ∧ f2 {x4} = ¬(f1 ∨ f2)

2 rank(4

2

)= 6: {x1, x2} = f1

{x1, x3} = f1 ∧ ¬f2 ∨ ¬f1 ∧ f2 {x1, x4} = ¬f2{x2, x3} = f2 {x2, x4} = ¬(f1 ∧ f2) {x3, x4} = ¬f1

3 rank(4

3

)= 4: {x1, x2, x3} = f1 ∨ f2

{x1, x2, x4} = f1 ∨ ¬f2 {x1, x3, x4} = ¬(f1 ∧ f2){x2, x3, x4} = ¬f1 ∨ f2

4 rank(4

4

)= 1: {x1, x2, x3, x4} = > = f1 ∨ ¬f1 ∨ f2 ∨ ¬f2


Similarita e indeterminazione V

In assenza di ulteriori informazioni:Misura di similarita basata sul numero di pattern condivisi

Osservazioni Date d le istanze, # di pattern distinti condivisi:

0 di rank 1,1 di rank 2,(d−1

1

)= d − 2 di rank 3, . . .

In generale, dato r (r ≤ d), # pattern condivisi:(d−1

r−2

)Per cui il numero totale di predicati condivisi risulta:

d∑r=1

(d − 2r − 2

)= (1 + 1)d−2 = 2d−2

indipendentemente dalla scelta delle feature / pattern


Teorema del brutto anatroccolo – Ugly Duckling

Theorem (Ugly Duckling)Dato un insieme finito di pattern per distinguere coppie diesempi, il numero di pattern condivisi da due esempi risultacontante e indipendente dalla loro scelta.Inoltre, se la loro similarita dipende dal numero totale di patterncondivisi, allora tutte le coppie di esempi sono ugualmentesimili


Definizioni di errore I

L’errore vero dell’ipotesi h rispetto alla funzione target f edalla distribuzione D e la probabilita che h misclassificanoun’istanza presa a caso seguendo D:

errD(h) ≡ Px∈D[f (x) 6= h(x)]

L’errore sul campione di h rispetto ad f ed al campione didati S e la proporzione di esempi che h misclassifica:

errS(h) ≡ 1n

∑x∈S

δ(f (x),h(x))

dove δ(f (x),h(x)) vale 1 se f (x) 6= h(x) e 0 altrimenti

Quanto si riesce a stimare bene errD(h) con errS(h)?


Definizioni di errore II

In caso di regressione (f ,h a valori reali)Si definisce una loss function: L(f (x),h(x))Tipicamente:

L(f (x),h(x)) =

{(f (x)− h(x))2 errore quadratico|f (x)− h(x)| errore assoluto

Quindi l’errore di generalizzazione sara:

errD(h) ≡ E [L(f (x),h(x))]

Mentre l’errore di training e:

errS(h) ≡ 1n

∑x∈S

L(f (x),h(x))


Problemi di stima dell’errore I

complessità del modello

erro

re d

i pre

dizi

one

bias altobassa varianza

bias bassoalta varianza

alta bassa

errS(h) non e una buona stima di errD(h): decresce al crescere dellacomplessita del modello, arrivando a 0 per modelli complessi

Tali modelli, pero risultano sovradattati (overfit) sul campione di training:scarsa generalizzazione


Problemi di stima dell’errore II

In caso i dati abbondino: suddivisione del dataset in 3 parti:training set: per costruire i modelli;

validation set: per stimare l’errore di predizione al fine diselezionare il modello migliore;

test set: per stabilire l’errore di generalizzazione delmodello finale scelto

Idealmente, il test set andrebbe preservato ed usato soloalla fine del processoSe si usasse il test set per la scelta del modello con ilminimo errore di test, allora sottostimerebbe il vero errore

Suddivisione tipica:training validation test

50% 25% 25%


Problemi di stima dell’errore III

BiasSe S e il training set, errS(h) e una stima troppo ottimista(biased)

bias ≡ E [errS(h)]− errD(h)

Per una stima non falsata (unbiased),h e S devono essere scelti in modo indipendente

VarianzaAnche con un campione S falsato,errS(h) potrebbe nondimeno differire da errD(h)


Bias vs. Varianza I

Supponendo che h(x) = f (x) + ε con E(ε) = 0 e Var(ε) = σ2ε

allora l’errore atteso sara:

errD(h(x)) = E [L(h(x), f (x))]

= E [(h(x)− f (x))2]

= σ2ε + [Eh(x)− f (x)]2 + {E [h(x)− Eh(x)]}2

= σ2ε + [Bias(h(x))]2 + Var [h(x)]

= Errore irriducibile + Bias2 + Varianza

Adottando una loss function 0/1 il compromesso bias/varianzasi comporta diversamente


Bias vs. Varianza II

S1

S2

S3

Osservazionibias basso: in media, h rappresenta una buona stima di fusando il campione Svarianza bassa: in media, le stime h di f non cambianomolto al variare del campione S

err

bias

var

0/1

loss

func

tion

sq. l

oss

func

tion


Stimatori

Esperimento:1 scegliere il campione S di cardinalita n

secondo la distribuzione D2 misurare errS(h)

errS(h) e una variabile aleatoria(ossia, il risultato di esperimento)

errS(h) e uno stimatore non falsato (unbiased) di errD(h)

Dato il valore di errS(h) osservato,cosa si puo concludere su errD(h) ?


Intervalli di confidenza I

SE

S contiene n esempi,scelti indipendentemente da h e da ognuno degli altri

n ≥ 30

ALLORA

con probabilita di circa il 95%,errD(h) cade nell’intervallo

errS(h)± 1.96

√errS(h)(1− errS(h))

n


Intervalli di confidenza II

SES contiene n esempi,scelti indipendentemente da h e da ognuno degli altrin ≥ 30

ALLORAcon probabilita di circa N%,errD(h) cade nell’intervallo

errS(h)± zN

√errS(h)(1− errS(h))

n

doveN%: 50% 68% 80% 90% 95% 98% 99%zN : 0.67 1.00 1.28 1.64 1.96 2.33 2.58


Predire le prestazioni

Assumendo che il tasso di errore stimato sia del 25%Quant’e vicino questo valore al tasso d’errore reale ?

dipende dal numero di datiLa predizione e come il lancio di una monetina (falsata)

ad es. testa sta per ”successo”, croce sta per ”errore”

In statistica,una sequenza di eventi indipendenti come questa sichiama processo di Bernoulli

La teoria della statistica fornisce intervalli di confidenza perla vera proporzione nascosta


errS(h) come variabile aleatoria

Ripetere l’esperimento con diversi campioni S estratticasualmente (di card. n)

Probabilita di osservare r esempi misclassificati:

P(r) =n!

r !(n − r)!errD(h)r (1− errD(h))n−r


Distribuzione binomiale

Probabilita P(r) di r teste in n lanci (con p = P(testa))

P(r) =n!

r !(n − r)!pr (1− p)n−r

Valore atteso, o media, di X :

E [X ] ≡n∑

r=0

rP(r) = np

Varianza di X :

Var(X ) ≡ E [(X − E [X ])2] = np(1− p)

Deviazione standard di X :

σX ≡√

E [(X − E [X ])2] =√

np(1− p)


Approssimazione della binomiale tramite normale I

errS(h) segue una distribuzione Binomiale, con

media: µerrS(h) = errD(h)

deviazione standard:

σerrS(h) =

√errD(h)(1− errD(h))

n

Per approssimare con una Normalemedia: µerrS(h) = errD(h)

deviazione standard:

σerrS(h) ≈√

errS(h)(1− errS(h))

n


Approssimazione della binomiale tramite normale IIPer usare la normale N(0,1) si riduce la var. casuale X inmodo da avere una media pari a 0 e varianza unitaria:

trasformazione di X :

f − psqrtp(1− p)/N

(ossia si sottrae la media e si divide per la dev. standard)Equazione risultante

P[−z ≤ f − p√p(1− p)/N

≤ z] = c

Soluzione:

p = X +z2

2N±√

XN− X 2

N+

z2

4N2 /

(1 +

z2

N

)


Distribuzione normale I

p(x) =1√

2πσ2exp

[−1

2

(x − µσ

)2]

La probabilita che X cada nell’intervallo [a,b] e data da∫ b

ap(x)dx


Distribuzione normale II

Valore atteso o media di X :

E [X ] = µ

Varianza di X :Var(X ) = σ2

Deviazione standard di X :

σX = σ


Distribuzione normale III

L’80% della superficie (probabilita) cade nell’intervallo µ± 1.28σ

N% della superficie (probabilita) cade nell’intervallo µ± zNσ

N% 50% 68% 80% 90% 95% 98% 99%zN 0.67 1.00 1.28 1.64 1.96 2.33 2.58


Intervalli di confidenza I

SE

S contiene n esempi,estratti in modo indipendente da gli altri e da h

n ≥ 30

ALLORA

con circa il 95% di probabilita,errS(h) ricade nell’intervallo

errD(h)± 1.96


n


Intervalli di confidenza II

Equivalentemente,errD(h) ricade nell’intervallo

errS(h)± 1.96


n

che e approssimativamente

errS(h)± 1.96√

errS(h)(1− errS(h))/n


Teorema del Limite Centrale

Si considera un insieme di variabili indipendenti edidenticamente distribuite (i.i.d.) Y1 . . .Yn, che seguono unadistribuzione arbitraria con media µ e varianza finita σ2

Media campionaria

Y ≡ 1n

n∑i=1

Yi

Theorem (Teorema del Limite Centrale)

Al tendere di n→∞, la distribuzione di Y si avvicina allaNormale, con media µ e varianza σ2

n

ossia, la somma di un gran numero di variabili i.i.d.segue una distribuzione che e approssimativamente Normale


Calcolo degli intervalli di confidenza

1 Si considera il parametro p da stimareerrD(h)

2 Scegliere uno stimatoreerrS(h)

3 Determinare la distribuzione che segue lo stimatoreerrS(h) segue una distribuzione Binomiale,approssimata da una Normale quando n ≥ 30

4 Trovare l’intervallo [L,U] tale cheil N% della massa di probabilita ricada nell’intervallo

Si usa la tavola dei valori di zN


Valutare ipotesi differenti I

Testare h1 sul campione S1 e h2 su S2

1 Scegliere il parametro da stimare

d ≡ errD(h1)− errD(h2)

2 Scegliere uno stimatore

d ≡ errS1(h1)− errS2(h2)

3 Determinare la distribuzione che regola lo stimatore

σd ≈

√errS1(h1)(1− errS1(h1))

n1+

errS2(h2)(1− errS2(h2))

n2


Valutare ipotesi differenti II

4 Trovare l’intervallo [L,U] tale che l’N% della massa diprobabilita ricada nell’intervallo

d±zN

√errS1(h1)(1− errS1(h1))

n1+

errS2(h2)(1− errS2(h2))

n2


t-Test accoppiato per confrontare hA e hB I

1 Partizionare i dati in k test set disgiunti T1,T2, . . . ,Tk dipari cardinalita (≥ 30)

2 Per i da 1 a k , eseguire:

δi ← errTi (hA)− errTi (hB)

3 Restituire il valore δ, dove

δ ≡ 1k

k∑i=1

δi


t-Test accoppiato per confrontare hA e hB II

Stima dell’intervallo per d con confidenza dell’N% :

δ ± tN,k−1 sδ

sδ ≡

√√√√ 1k(k − 1)

k∑i=1

(δi − δ)2

Nota: δi ha approssimativamente una distribuzione Normale


Confronto degli algoritmi LA e LB I

Cosa si deve stimare:

ES⊂D[errD(LA(S))− errD(LB(S))]

dove L(S) e l’ipotesi in output da L sul training set S

ossia, la differenza attesa, in termini di errore reale, tra leipotesi prodotte dagli algoritmi LA e LB, addestrati su campionidi training casuali S costruiti secondo la distribuzione D


Confronto degli algoritmi LA e LB II

Ma, dato il numero limitato dei dati D0, qual e un buonostimatore ?

Si potrebbe partizionare D0 in un training set S e untraining set T0, e quindi misurare

errT0(LA(S0))− errT0(LB(S0))

Ancor meglio se si ripete la procedura molte volte e simediano i risultati


Confronto degli algoritmi LA e LB III

1 Partizionare i dati D0 in k test set disgiunti T1,T2, . . . ,Tk dipari cardinalita (≥ 30)

2 Per i da 1 a k , eseguire:Usare Ti come test set e i dati rimanenti per il training set SiSi ← {D0 − Ti}hA ← LA(Si )hB ← LB(Si )δi ← errTi (hA)− errTi (hB)

3 Restituire il valore δ, dove

δ ≡ 1k

k∑i=1

δi


Confronto degli algoritmi LA e LB IV

Si noti che si dovrebbe usare il t-test accoppiato su δ perottenere un intervallo di confidenza

Ma questo non e del tutto corretto poiche i training set in questoalgoritmo non sono indipendenti (si sovrappongono)

E piu corretto considerare l’output dell’algoritmo come unastima di

ES⊂D0 [errD(LA(S))− errD(LB(S))]

aniziche di

ES⊂D[errD(LA(S))− errD(LB(S))]

a volta anche l’approssimazione puo almeno dare un’idea


Stima Holdout

Che fare se i dati sono pochi ?Il metodo holdout riserva un certo quantitativo per il test eusa il resto per il training

In genere: 1/3 per il test, 2/3 per il trainingProblema: i campioni potrebbero non essererappresentativi

Ad es. la classe target potrebbe mancare nei dati di testUna versione avanzata usa la stratificazione

Assicura che ogni classe sia rappresentata in proporzioneequa (approssimativamente) in entrambi i sottoinsiemi


Metodo di Holdout Ripetuto

La stima Holdout puo essere resa piu affidabileripetendo il processo con differenti sottoinsiemi di dati

Ad ogni iterazione, si seleziona casualmente una certaproporzione e per il training (possibilmente con lastratificazione)I tassi d’errore nelle diverse iterate sono mediati in modo daprodurre un tasso globale

Questo metodo si dice anche holdout ripetutoAncora non rappresenta il metodo ottimo:i diversi test set si sovrappongono

Come prevenire tale sovrapposizione ?


Cross-validation I

La Cross-validation evita le sovrapposizioni di test set1 primo passo: dividere i dati in k sottoinsiemi di pari

cardinalita2 secondo passo: usare un sottoinsieme alla volta per il test,

ed il resto per il training

1: 2: 3: 4: 5: 6:train train test train train train

Si chiama anche k -fold Cross-Validation (CV)

Le varie stime dell’errore sono mediate per produrre unastima dell’errore globale


Cross-validation II

Stima dell’errore

CV =1n

n∑i=1

L(f (xi),h−π(i)(xi))

dove π : {1, . . . ,n} 7−→ {1, . . . , k} fa da indice della partizionenella quale l’i-esimo esempio e casualmente assegnato eh−p viene costruita togliendo la p-esima parte

Spesso i sottoinsiemi sono stratificati prima di eseguire ilmetodo di cross-validation

In caso di pochi esempi, si puo usare la leave-one-out CV:il numero di fold corrisponde a quello degli esempi k = n


Cross-validation III

dim. sottoinsieme

erro

re m

iscl

assi

ficaz

ione

cverr


Bootstrap

La CV usa il campionamento senza rimpiazzo:una stessa istanza, una volta selezionata,non puo figurare di nuovo in un particolare training/test setPer costituire il training set, il metodo di bootstrap usa ilcampionamento con rimpiazzo

Training set:campionare un dataset di n istanze n volte con rimpiazzo inmodo da costituire un nuovo dataset di n istanzeTesting set:usare le istanze dal dataset originario che non figurino neltraining set


0.632 Bootstrap

Questo metodo si chiama anche 0.632 bootstrapUna data istanza ha probabilita pari a 1− 1/n di nonessere selezionataPertanto la probabilita di finire nel test set sara:(

1− 1n

)n

≈ e−1 ≈ 0.368

Cio significa che il training set conterraapprossimativamente il 63.2% delle istanze


Stima dell’errore nel metodo Bootstrap

La stima dell’errore sul test set sara molto pessimisticaAddestramento solo su circa il 63% delle istanze

Pertanto,Si combina tale errore con quello di rimpiazzo:

err = 0.632× errtest + 0.368× errtraining

Notare che errtraining ha un peso inferiore di errtest

Si ripete il processo diverse volte con differenti campioni(con rimpiazzo)Infine, si mediano i risultati


Osservazioni sul metodo di Bootstrap

E tra i metodi migliori quando i dati sono limitatiProblemi,

ad es. si consideri un dataset casualeun classificatore che semplicemente memorizzi gli esempiavra errtraining = 0% e errtest =∼ 50%la stima del metodo di bootstrap sara:

0.632× 50% + 0.368× 0% ≈ 31.6%

mentre l’errore vero atteso e del 50%

Si ricorre in tali casi a metodi piu complessi come ilBootstrap 0.632+

vedere anche metodo Jacknife


Altri metodi

Lift chartCurve ROCAltre misure


Lift chart I

Metodo grafico per il confronto tra diversi scenari

Si crea una tabella ordinando le istanze secondo laprobabilita della previsione di positivita

Probabilita prevista Classificazione reale.95 +.94 +.93 -.92 +.88 -.87 +

......


Lift chart IISi costruisce un grafico con:

sulle ascisse la dim. del campione esulle ordinate il numero TP di veri positivi


Curve ROC I

Le curve ROC sono simili alle lift chartsROC sta per ”Receiver Operating Characteristic”

Si usano in teoria del segnale per mostrare ilcompromesso tra tasso di successi e falsi allarmi sucanale rumorosoDifferenze con le lift chart:

sulle ordinate: percentuale dei veri positivi TP nel campionesulle ascisse: percentuale dei falsi positivi FP nel campione


Curve ROC II

uso della cross validation

set di dati di test generico


Curve ROC III

Per ricavare la ROC curve dalla CV:

Raccogliere le probabilita delle istanze nelle ripetizioni(fold) di test

Ordinare le istanze secondo le loro probabilita

Un’altro modo consiste nel generare una ROC curve per ognifold e poi fare una media


Curve ROC IV

campione piccolo: usare il metodo Acampione grande: usare il metodo Bcaso intermedio: scegliere tra A e B usando le probabilita


Altre misure I

Dall’Information Retrieval

Precision: percentuale di doc. ritrovati che sono rilevanti

TPTP + FP

Recall: percentuale di doc. rilevanti che sono ritrovati

TPTP + FN

Le curve di precision e recall hanno una forma iperbolica


Altre misure II

Misure riassuntivemediazione della precision a diversi valori della recall(es. 20%, 50% and 80% three-point average recall)F1-measure

2× recall × precisionrecall + precision

Sensitivity × Specificity

TPTP + FN

× TNFP + TN

Area sotto la curva ROC (AUC):probabilita che un’istanza positiva scelta casualmente siposizioni al di sopra di una negativa (sempre presa a caso)


Fonti

R. Duda, P. Hart, D. Stork: Pattern Classification, WileyT. Hastie, R. Tibshirani, J. Friedman: The Elements ofStatistical Learning, SpringerT. M. Mitchell: Machine Learning, McGraw HillI. Witten & E. Frank: Data Mining: Practical MachineLearning Tools and Techniques, Morgan Kaufmann


http://rii.ricoh.com/%7Estork/DHS.html

http://www.cs.cmu.edu/afs/cs.cmu.edu/user/mitchell/ftp/mlbook.html

http://www.cs.waikato.ac.nz/~ml/weka/book.html

http://www.cs.waikato.ac.nz/~ml/weka/book.html

valutazione dei modelli

Documents