francesco piva istituto di biologia e genetica università politecnica delle marche introduzione...

14
Francesco Pi Istituto di Biologia e Geneti Università Politecnica delle Marc Introduzione alla bioinformatica Novembre 2004

Upload: marcella-raimondi

Post on 01-May-2015

217 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004

Francesco PivaIstituto di Biologia e Genetica

Università Politecnica delle Marche

Introduzione alla bioinformatica

Novembre 2004

Page 2: Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004

Obiettivi della bioinformatica

Banche dati: raccolta dati, ordinamento, correlare quelli che trattano i diversi aspetti di uno stesso tema, renderli fruibili in modo semplice, unificare le banche adti.

Ricerca dei geni in un genoma

Inferire la funzione delle proteine a partire dalla sequenza del gene, da qui la possibilità di creare nuove proteine con nuove funzioni

Prevedere lo splicing dell’mRNA a partire dalla sequenza del pre-mRNA, capire l’effetto delle mutazioni

Descrivere la rete genica di una cellula, chi attiva o reprime chi, da chi si fa attivare o reprimere. Prevedere al computer l’effetto di uno stimolo esogeno… sapere come compensarlo. Sapere che stimolo generare per produrre certi effetti

Capire l’evoluzione delle specie

Poter prevedere la ricombinazione nel DNA Francesco PivaIst Biologia e Genetica, Ancona

Page 3: Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004

Metodi della bioinformatica

database

Risorse umane, formazione, mezzi

Teoria dell’informazione, studio dei linguaggi, ridondanza, entropia, correlazione…

Metodi statistici

Data mining

Reti neurali

Algoritmi matematici: FFT, Wavelet, ICA, PCA, teoria delle reti…

…Francesco PivaIst Biologia e Genetica, Ancona

Page 4: Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004

Predizione teorica dei geni in un genoma

metodi

Analisi discriminante lineare e quadratica

Modelli di Markov a variabili nascoste

Metodo del perceptron

Stima degli esameri codificanti

Metodo della matrice di pesi e del vettore di pesi

Decomposizione secondo le direzioni di massima dipendenza

Alberi di decisione

Reti neurali artificiali

Francesco PivaIst Biologia e Genetica, Ancona

Page 5: Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004

Analisi discriminante lineare e quadratica

L’obiettivo di questo metodo è:

Identificare le variabili e le relazioni tra di esse che permettono di differenziare due o più gruppi di dati

Classificare nuovi casi nei gruppi ricavati (predittività)

Concentrazione di A

Con

cent

raz i

o ne

di B

Es: distinguere gli individui sani e malati in base alla misura della concentrazione di due enzimi.Con il metodo dei minimi quadrati si minimizza l’errore di classificazione e si ottiene una relazione lineare tra le due variabili

Concentrazione di A

Con

cent

raz i

o ne

di B

Nel caso del riconoscimento degli esoni in una sequenza di pre-mRNA, come variabili si sceglie la frequenza di certe triplette nei siti di splicing in 5’ e in 3’.

linearequadratico

Francesco PivaIst Biologia e Genetica, Ancona

Page 6: Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004

Modelli di Markov a variabili nascoste

Un sistema viene descritto da una successione di stati discreti e dalla probabilità di transizione da uno stato all’altro

AA

C C

G

T

G

T

0,32

0,31

0,31

0,18

0,36

0,37

0,35

0,26 0,20

0,15

0,20

0,17

0,16

0,18

0,15

0,36

 

AC GT A

Data una sequenza esonica:…catga…

Possiamo rappresentarla come la successione di stati di un sistema e ricavare un modello descrittivo che a partire da un certo stato indichi la probabilità di transizione verso un altro stato.La parola nascosti indica che uno stato non può essere osservato

Gli schemi di transizione sono caratteristici delle zone codificanti e non.

Francesco PivaIst Biologia e Genetica, Ancona

Page 7: Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004

Date le cinque sequenze sotto, cerchiamo di ricavare un modello di Markov

Si ricava questo modello

E.g. P(ACACATC) = (0.8 * 1)*(0.8*1)*(0.8*0.6)*(0.4*0.6)*(1*1)*(0.8*1)*(0.8) A C A C A T C

(S = logP(sequenza) - lunghezza(sequenza)*log0.25 )

Inserzione di uno stato (regioni altamente variabili)

Stati principali

Francesco PivaIst Biologia e Genetica, Ancona

Page 8: Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004

L’attuale modello di predizione di un gene

Stati principali

Inserzione di uno stato (regioni altamente variabili)

Stati particolari (es: n)

- si possono rappresentare regole semplici- non si considera la frequenza dei dinucleotidi- non si considera la dipendenza (correlazione) fra i nucleotidi- in realtà ci vorrebbe un modello di Markov per gli esoni, uno per gli introni, uno per le regioni non tradotte

Francesco PivaIst Biologia e Genetica, Ancona

Page 9: Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004

Perceprton

w1

w2

w3

wn

x1

x2

x3

xn

b

biasweightsinputs

non linearfunction

)(1

bfyn

iii xw

assoni sinapsi

dendritiassone

corpo

E’ un algoritmo realizzato con una rete neurale artificiale che realizza l’analisi discriminante lineare, questo prova iterativamente vari piani di separazione cercando ad ogni passo di minimizzare l’errore di discriminazione.

Francesco PivaIst Biologia e Genetica, Ancona

Page 10: Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004

Stima degli esameri

Le sequenze vengono trattate come successioni di parole. Ciascuna parola è un insieme di basi, ad esempio sei simboli formano un esameroLa distinzione tra sequenze codificanti e non, si basa sulla frequenza con cui si trovano certi esameri

Alcune parole sono caratteristiche delle sequenze codificantiEs: CAGCAGAltre sono caratteristiche di quelle non codificantiEs: TAATAADall’osservazione dei geni si ricava un punteggio che viene assegnato ad ogni esamero.Il punteggio può essere positivo o negativo a seconda che sia indizio di una sequenza codificante o meno.

In fase di analisi, data una sequenza che potrebbe rappresentare un potenziale gene, si estraggono tutti gli esameri e si ricava un punteggio totale.

Francesco PivaIst Biologia e Genetica, Ancona

Page 11: Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004

Metodo della marice di pesi

Questo metodo è usato per assegnare un punteggio ad un sito di DNA o RNA per indicare quanto questo sia affine a legare una proteina o altro

Punto debole: non si tiene conto delle correlazioni tra basi in diversa posizioneEs:

Punteggio (gtcacgt) = -0.21 -0.5 +0.73 +1.32 +0.94 +0.99 +0.27 = 3,54

GTCACGT

GTCACTT

Questi siti di legame differiscono solo per la sesta posizione. Non è detto che il punteggio in posizione 4 (A) dipenda solo dal nucleotide che si trova in quella posizione: potrebbe dipendere da quali altri nucleotidi sono presenti nelle vicinanze. In altre parole, a volte non vale la semplice proprietà additiva per calcolare l’affinità di legame

Il metodo del vettore dim pesi associa un punteggio ad un’intera parola anziché ad una singola base

Page 12: Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004

Decomposizione secondo la direzione di massima dipendenza

Francesco PivaIst Biologia e Genetica, Ancona

Page 13: Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004

Reti neurali artificiali

Francesco PivaIst Biologia e Genetica, Ancona

Page 14: Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Introduzione alla bioinformatica Novembre 2004

Campus di PadricianoCampus di Basovizza

SISSA Scuola Internazionale Superiore di Studi Avanzati

the abdus salam international centre for theoretical physics

Osservatorio Astronomico di Trieste INAF

Laboratorio di biologia marina Istituto talassograficoIl castello di Miramare