Università degli Studi di Padova Università degli Studi di Padova
Corso di Laurea Magistrale in BioingegneriaCorso di Laurea Magistrale in Bioingegneria
A.A. 2013A.A. 2013--20142014
ANALISI ANALISI DIDI DATI BIOLOGICIDATI BIOLOGICI(parte 0)
1
(parte 0)
Giovanni SparacinoDipartimento di Ingegneria dell’Informazione
Università degli Studi di PadovaVia Gradenigo 6/B, 35131 Padova
Tel. 049 827 7741; e-mail: [email protected]
web: http://www.dei.unipd.it/~gianni
Presentazione del CorsoPresentazione del Corso
2
Web page del corso (unico riferimento ufficiale per avvisi, esami, ...)
•www.dei.unipd.it / ~gianni / adb2013
Orario delle lezioni
Lunedì ore 10.15-12.15 aula Te
Giovedì ore 14.15-16.15 aula Te
3
Ricevimento studenti
•Giovedì ore 16.15-17.15, subito dopo il termine della lezione (prenotarsi
con 24 ore di anticipo via mail)
•Dopo la fine del corso, solo su appuntamento, presso il DEI
Obiettivi Generali di Analisi di Dati Biologici (ADB)
L’obiettivo di ADB è fornire all’allievo bioingegnere la conoscenza di metodi
avanzati di analisi di dati biologici.
In particolare, si fa ricorso a metodologie di analisi statistica integranti
l’approccio modellistico con quello di elaborazione del segnale, in cascata
logica all’insegnamento obbligatorio di Elaborazione di Segnali Biologici (e
per certi aspetti anche a Modelli e Controllo di Sistemi Biologici)
4
per certi aspetti anche a Modelli e Controllo di Sistemi Biologici)
L’approccio del corso è completamente ingegneristico ed “hands on”: si parte
da problemi di significativo interesse clinico e medico-biologico (EEG, potenziali
evocati, segnali endocrino-metabolici, segnali rivelati da biosensori, serie
epidemiologiche, …), li si analizza, si identificano le metodologie di soluzione più
adatte e le si implementa a basso livello in Matlab mediante algoritmi di cui si
cura anche l’efficienza numerica
Non si usano mai codici fatti da altri (logica: si capisce solo se si fa …)
Teoria: 60%
Pratica: 40%
COMPONENTI DEL CORSO
5
Cosa aspettarsi alla fine di questo corso
Al termine del corso, lo studente sarà in grado di padroneggiare, e
implementare numericamente in modo efficace, metodi di analisi dati tra i
più usati in campo di ricerca (non solo clinica) e industriale in senso ampio
(es. saper implementare a basso livello e in autonomia tool di smoothing,
FdW, FdK, PCA, …, è un must per ogni ingegnere)
In particolare, ai fini della professione, questo corso renderà l'allievo in grado
di
6
di
•effettuare l'analisi di un certo problema che richiede l’ “interpretazione di
dati” (dall’elaborazione del segnale o alla simulazione o identificazione di un
sistema)
•individuare le metodologie di soluzione più appropriate
•tradurre le metodologie mediante algoritmi numerici adatti
•implementare gli algoritmi in Matlab
Cosa non aspettarsi alla fine di questo corso
Aver imparato altre formule e teorie che poi non so come mettere in pratica …
7
Feedback dagli studenti
In tutte e cinque le sue edizioni (06/07, 07/08, 08/09, 09/10, 11/12 i dati di
confronto del 12/13 non sono stati forniti dall’Ateneo), ADB è risultato al primo
posto, relativamente a tutti i corsi della LM in Bioingegneria, per gradimento
degli studenti (in particolare per: soddisfazione complessiva; chiarezza
espositiva; capacità di stimolare l’interesse; adeguatezza delle competenze
acquisite per future applicazioni in ambito lavorativo)
A livello dell’intera Facoltà di Ingegneria, ADB è sempre stato per gradimento nel
8
A livello dell’intera Facoltà di Ingegneria, ADB è sempre stato per gradimento nel
top 5% dei corsi (nel 07/08 al primo posto assoluto sui 698 corsi monitorati
dalla facoltà)
Valutazioni anonime degli studenti su ADB disponibili su
http://www.dei.unipd.it/~gianni/valutazioni_adb/
Conoscenze date per consolidate
Informatica di Base
Elementi di Probabilità e Statistica
Conoscenza di base di Matlab
CONOSCENZE PRELIMINARI RICHIESTECONOSCENZE PRELIMINARI RICHIESTE
9
Insegnamenti dati come prerequisiti
Segnali e Sistemi e Sistemi e Modelli (LT)
Elaborazione di Segnali Biologici
Modelli e Controllo di Sistemi Biologici
Per homework si intende la soluzione, svolta al di fuori dell’orario di lezione, di
un problema assegnato dal docente.
Nell’A.A. 2013/14 verranno proposti tre homework (indicativamente a fine
ottobre, fine novembre, e a fine corso) e verrà richiesta la riconsegna di almeno
due (lo studente sceglie quali)
Gli argomenti dei tre homework riguarderanno tipicamente problematiche viste a
lezione per le quali non c’era stato tempo di fare delle esercitazioni specifiche in
I DUE HOMEWORK
10
lezione per le quali non c’era stato tempo di fare delle esercitazioni specifiche in
aula. Tipicamente, verrà richiesto di risolvere un problema di analisi dati
utilizzando Matlab e producendo, oltre al codice, una brevissima relazione.
Ci si aspetta che, in media, un homework non richieda più di 4-5 ore di lavoro a
casa
Per la riconsegna degli homework si fisseranno di volta in volta delle scadenze
(es. 15-20 gg.) E’ inteso che gli homework vengano svolti individualmente, dato
che la loro discussione verrà affrontata, di fronte al calcolatore, in sede di esame
ESEMPIO DI HOMEWORK
11
MODALITA’ DI ESAMEMODALITA’ DI ESAME
1) IN ITINERE (solo per chi consegna due homework su tre, e nei tempi previsti)
•Solo colloquio orale (da sostenere nella sessione gen-feb)Il colloquio verterà, per circa il 30%, sugli homework, che verranno discussi davanti al
computer, anche nelle scelte algoritmiche e di programmazione
•NB: nelle precedenti edizioni del corso, il 100% degli studenti ha usato questa modalità di
esame. Nel 2010, 16 esami registrati, media 27.2 (fonte:
www.ing.unipd.it/Download/Statistiche/Esami2010/StatEsami_LM.pdf )
12
www.ing.unipd.it/Download/Statistiche/Esami2010/StatEsami_LM.pdf )
•Date: durante la sessione, verrà offerto un appello ogni 7-10 giorni (nel 2011/12 erano stati
offerti 6 appelli da gennaio a inizio marzo).
•Pre-appelli per studenti in partenza per Erasmus concordabili (di solito sotto Befana …)
2) APPELLI ORDINARI
•Prova pratica (progetto in laboratorio, 3 ore) + Colloquio orale
•Date degli appelli ordinari: <da comunicare>
Parte 1. Richiami di Calcolo Scientifico con Matlab
Algoritmi iterativi per la soluzione di equazioni non lineari e di sistemi.
Algoritmi numerici per la soluzione di eq.differenziali
2 ore di laboratorio (codifica di algoritmi per la soluzione di equazioni e per
l’integrazione numerica di eq.differenziali)
PROGRAMMA DI MASSIMA - 1
13
Parte 2. Interpolazione di dati
Interpolazione polinomiale. Interpolazione non parametrica. Natural splines.
Minimizzazione della curvatura.
2 ore di laboratorio (codifica per spline quadratiche; applicazione tecniche non
parametriche a serie temporali endocrino-metaboliche)
PROGRAMMA DI MASSIMA - 2
14
Parte 3. Approssimazione di dati
Approssimazione vs interpolazione. Metodi polinomiali. Smoothers locali (bin,
running mean, running line, kernel smoothers). Smothing splines Dilemma bias-
varianza (simulazione Monte Carlo). Approccio bayesiano allo smoothing.
Applicazioni: potenziali evocati; analisi di trend di lungo e breve periodo, serie
temporali endocrino-metaboliche. Estensione alla deconvoluzione.
PROGRAMMA DI MASSIMA - 3
15
4 ore di laboratorio (codifica di smoothing bayesiano ed estensione alla
deconvoluzione)
Esempio: stima di potenziali evocati uditivi (ABR e SVR)
16
Esempio: studio di potenziali evocati cocleari
17
Parte 4. Aspetti algoritmici nell’approssimazione di dati
Complessità computazionale e ricerca dello smoother ottimo: algoritmi di
diagonalizzazione. Implementazione dei criteri di smoothing.
Problemi con tanti dati e problemi vincolati: algoritmi iterativi (GC e GCV).
Iterazione veloce del GC (Toeplitz). Cenni su altri metodi vincolati. Metodi Monte
Carlo per la misura dell’incertezza
PROGRAMMA DI MASSIMA - 4
18
Carlo per la misura dell’incertezza
2 ore di laboratorio (codifica diagonalizzazione)
Parte 5. Predizione
Predizione per serie temporali. Approcci polinomiali e mediante modelli ARIMA.
Aspetti algoritmici: forgetting factor e recursive least squares. Applicazioni al
settore del diabete e valutazione clinica.
2 ore di laboratorio (codifica predittori polinomiali e AR)
PROGRAMMA DI MASSIMA - 5
19
2 ore di laboratorio (codifica predittori polinomiali e AR)
Esempio: predizione
PREDITTORE
a k passimodello del segnale
previsione del segnale
k passi avanti
û(t+k)
storia passata del
segnale u(1), u(2), …u(t)
20
Problema principale: determinare un modello del segnale valido al tempo t
utilizzabile per predire a t+k
time (hours)
gluc
ose
conc
entr
atio
n (m
g/dl
)
5 10 15 20 25 30 35 40 45
50
100
150
200
250
300
?
PASSATO FUTURO
Ad esempio, se
voglio predire con
60 min di anticipo e
T=3 min, k= 20
Parte 6. Applicazioni biomediche del filtraggio stocastico
Filtraggio alla Wiener e alla Kalman. Fondamenti teorici e aspetti
computazionali. Applicazioni biomediche. Cenni sul filtro di Kalman esteso.
2 ore di laboratorio (codifica di un filtro alla Kalman per rimuovere rumore)
PROGRAMMA DI MASSIMA -6
21
State of the Art: Moving Average (e.g. Medtronic)
CGM Signal Denoising
180
200
220
240Noisy vs MA-filtered (M=15,µ=0.94) time series
22
0 3 6 9 12
100
120
140
160
180
mg/
dl
Time (hours)
Sensor-to-sensor SNR variability
0 5 10 15 20 25 30 35 400
50
100
150
200
250
300
350
Glu
cose
(m
g/dl
)
FreeStyle Navigator representative time series
SNR in the
Glucoday
time-series
seems
Navigator
23
0 5 10 15 20 25 30 35 400
50
100
150
200
250
300
350
Time (hours)
Glu
cose
(m
g/dl
)
Glucoday representative time seriesseems
worse than
in the
Navigator
time-series
Glucoday
Inter-individual SNR variability
0 5 10 15 20 25 30 35 400
50
100
150
200
250
300
350
Glu
cose
(m
g/dl
)
FreeStyle Navigator representative time series #1
SNR in
Navigator #1
is worse
Navigator #1
24
Time (hours)0 5 10 15 20 25 30 35 40
0
50
100
150
200
250
300
350
400
Glu
cose
(m
g/dl
)
FreeStyle Navigator representative time series #2 is worse
than in
Navigator #2Navigator #2
Intra-individual SNR variability
50
100
150
200
250
300
350G
luco
se (
mg/
dl)
Glucoday representative time series #1
25
0 5 10 15 20 25 30 35 400
50
Time (hours)
“very low” SNR
“better” SNR
Esempio: studio di trend
26
Parte 7. Tecniche di analisi non lineare
Algoritmi di riconoscimento di picchi. Concordanza statistica.Misure di entropia
approssimata. Applicazione a serie endocrino metaboliche
PROGRAMMA DI MASSIMA -7
27
0 20 40 60 80 100 120 140 160 1800.2
0.25
0.3
0.35
0.4C-PEPTIDE CONCENTRATION IN PLASMA (2 MIN)
GLUCOSE CONCENTRATION IN PLASMA (2 MIN)
pmol
/ml
Esempio: analisi di concordanza
28
0 20 40 60 80 100 120 140 160 18072
74
76
78
80
82
84
GLUCOSE CONCENTRATION IN PLASMA (2 MIN)
mg/
ml
minutes
Esempio: analisi di regolarità
29
Parte 8. Separazione di sorgenti
Problema “cocktail party” e tecniche di decomposizione: singular value
decomposition, principal component analysis, independent component analysis.
Applicazione allo studio di segnali biomedici (EEG, EMG, …).
2 ore di laboratorio (PCA per la compressione e ICA per la separazione di
PROGRAMMA DI MASSIMA -8
30
2 ore di laboratorio (PCA per la compressione e ICA per la separazione di
sorgenti)
Esempio: ICA
31
Esempio: ICA per separare
ECG della mamma e del feto
32
Appunti delle lezioni
Copia delle slide, fornite dal docente sul sito web dell’insegnamento:
http: // www.dei.unipd.it / ~gianni / adb2013
MATERIALE DIDATTICOMATERIALE DIDATTICO
33
NOTA: le slide verranno pubblicate progressivamente, di norma il giorno prima
della lezione. Le slide 2012 non verranno significativamente modificate, quindi
sono eventualmente già scaricabili (password 2012 a lezione)
Riferimenti bibliografici (articoli, capitoli di libro, …) verranno indicati di volta in
volta