materiale didattico - unina.stidue.netunina.stidue.net/bioinformatica/slide...

107
POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 1 MATERIALE DIDATTICO

Upload: truongnhan

Post on 16-Feb-2019

223 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

1

MATERIALE DIDATTICO

Page 2: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

2

Concetti di base

di INFORMATICA

Page 3: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

3

Definizione di Informatica ed Informazioni

La parola INFORMATICA indica l‟insieme delle discipline e delle tecniche che permettono la

trattazione automatica delle informazioni che sono alla base delle nostre conoscenze e delle loro

comunicazioni.

Il termine INFORMATICA è nato nel 1966 in Francia dalla contrazione delle parole

INFORmazione e autoMATICA

Una Informazione è una “Sequenza (o stringa) di simboli associata a un significato”.

I possibili supporti fisici per l‟informazione sono suono (conversazioni tra persone), onde radio

(radio e televisione), correnti e tensioni elettriche (cavi telefonici), campi magnetici (audiocassette,

floppy disk), segni su carta (libri, giornali).

Sull‟informazione si possono effettuare numerose operazioni: creazione, trasmissione,

immagazzinamento (archiviazione), recupero, copia, distruzione, elaborazione (trasformazione).

I simboli che fanno parte della sequenza vengono scelti all‟interno di un insieme detto alfabeto.

Esempi di alfabeti:

- Alfabeto italiano, 21 simboli (lettere): {A, B, …., V, Z}

- Alfabeto numerico decimale, 10 simboli (cifre): {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}

- Alfabeto telegrafico Morse, 2 simboli: {., -}

- Alfabeto del Totocalcio, 3 simboli: {1, X, 2}

Da questi esempi risulta evidente la necessità di regole che associno un significato a queste stringhe

di simboli.

Un siffatto insieme di regole prende il nome di codice. Nei sistemi per l‟elaborazione

dell‟informazione viene adottato un alfabeto composto da soli 2 simboli, rappresentati dalle cifre 0

e 1. Tale alfabeto è detto alfabeto binario.

Page 4: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

4

Una cifra binaria viene definita bit (da binary digit, “cifra binaria”). Una stringa di 8 bit è definita

byte (28=256 valori diversi)

Ci sono vari tipi di informazioni:

1. Informazione di tipo numerico è indicata da una quantità numerica.

2. Informazione di tipo alfanumerico è rappresentata da un carattere {A, …, Z, a, …, z, 0, …, 9, ;,

:, ., @, $, ... }

3. Informazione di tipo logico è rappresentata da grandezze logiche, cioè grandezze che possono

avere soltanto due valori: vero o falso. Questo tipo di informazione è associato al valore di verità di

un determinato enunciato: vero se l‟enunciato è vero, falso se l‟enunciato è falso. Le informazioni

di tipo logico si possono manipolare in maniera simile ai numeri; la differenza è che invece delle

operazioni aritmetiche (+, -, etc) si utilizzano delle operazioni logiche (AND, OR, NOT).

L‟operazione AND agisce su due operandi. Il valore dell‟AND di due operandi è vero soltanto

quando entrambi gli operandi hanno valore vero.

falso AND falso = falso

falso AND vero = falso

vero AND falso = falso

vero AND vero = vero

L‟operazione OR agisce su due operandi. Il valore dell‟OR è vero se almeno uno dei due operandi è

vero.

falso OR falso = falso

falso OR vero = vero

vero OR falso = vero

vero OR vero = vero

L‟operatore NOT agisce su un solo operando e ha come valore il contrario del valore dell‟operando.

Page 5: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

5

NOT falso = vero

NOT vero = falso

4. Informazione di tipo istruzione è un‟operazione da eseguire. Il codice che associa ad ogni stringa

binaria l‟azione da eseguire viene detto linguaggio macchina, che è interpretabile dalla CPU.

5. Altri tipi di informazioni sono suoni, immagini, filmati, oggetti tridimensionali

Page 6: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

6

Caratteristiche generali di un Computer

Il Computer è definito come il “sistema per l‟elaborazione dell‟informazione”.

Questo sistema è costituito da due componenti: Hardware e Software. L‟hardware è l‟insieme di

tutti i circuiti delle macchine e dei componenti elettronici, elettrici e meccanici di un sistema di

elaborazione. Il software è l‟insieme dei programmi operanti su di esso.

Un Computer è definito

digitale poichè tutti i suoi principi di funzionamento sono fondati su basi logiche e matematiche;

automatico dal momento che evolve da uno stato iniziale a uno stato finale eseguendo

automaticamente, senza interventi esterni, un numero finito di operazioni;

elettronico poiché sono elettronici i circuiti preposti all‟esecuzione delle istruzioni, così come gli

elementi bistabili che costuiscono le memorie del sistema;

a programma registrabile poiché la sequenza di istruzioni costituenti il programma è immagazzinata

nella stessa memoria dell‟elaboratore. Ciò conferisce ampia flessibilità al sistema, poiché

cambiando il programma registrato si può cambiare l‟elaborazione che viene compiuta.

Page 7: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

7

Le varie Componenti del computer

Le unità che compongono un computer sono indicate nel Modello di Von Newman:

Il Processore (CPU) comprende l‟unità di controllo, l‟unità aritmetico-logica ed i registri interni.

L‟Unità di Controllo (CU, Control Unit) presiede a tutte le operazioni eseguite dall‟elaboratore,

interpretando le istruzioni prelevate in sequenza dalla memoria centrale e inviando alle specifiche

unità i segnali abilitanti.

L‟Unità logico-aritmetica (ALU, Arithmetical Logical Unit) esegue le operazioni aritmetiche e

logiche richieste dall‟unità di controllo.

I registri interni servono per memorizzare i dati sui quali il processore sta operando, come ad

esempio i risultati intermedi dei calcoli.

La Memoria comprende la memoria centrale, la memoria ROM e le memorie ausiliarie. Le funzioni

di memoria di un elaboratore sono distribuite in una gerarchia con il principio di allocare negli strati

più bassi le informazioni che vengono richiamate più spesso e gestire il loro trasferimento fra i

diversi strati.

La Memoria centrale (RAM, Random Access Memory) è un insieme ordinato locazioni (anche

dette celle) numerate in successione. Ogni locazione è identificata dal suo numero d‟ordine, che

Page 8: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

8

prende il nome di indirizzo della locazione. LA RAM è una memoria ad accesso casuale.

L‟operazione di scrittura in una locazione consiste nell‟alterare lo stato dei singoli bit che la

costituiscono in modo da registrare la sequenza di 0 e 1 da memorizzare. Tale operazione è

distruttiva. L‟operazione di lettura di una locazione consiste nel riprodurre (copiare) lo stato dei

singoli bit che la costituiscono nei bit corrispondenti di un‟altra locazione o registro. Tale

operazione è non distruttiva perché l‟informazione letta viene preservata e può essere letta di nuovo.

La ROM (Read Only Memory) è elettronica e ad accesso casuale come la RAM. Inoltre, è

permanente e a sola lettura: una volta che le informazioni vi sono state memorizzate non è più

possibile modificarle. I chip di ROM vengono inizializzati in fabbrica all‟atto della produzione e

contengono software specializzato (gestione di periferiche, set aggiuntivi di caratteri per stampanti,

programma di avvio del sistema (boot loader))

Le memorie di massa sono dischi rigidi, floppy disk, CD-ROM, nastri ed etc.

L‟Unità di Ingresso(Input devices) sono impiegate per immettere il programma in fase di

caricamento e i dati in fase di esecuzione. Sono indicate come unità di ingresso: tastiera, mouse,

penna ottica, floppy disk drive (unità a floppy), hard disk drive (unità a disco rigido), CD-ROM

(lettore di CD-ROM), scanner, modem, telecamera, scheda per la connessione in rete locale

(Ethernet), microfono.

L‟Unità di Uscita (Output devices) sono impiegate per presentare i risultati dell‟elaborazione. Sono

indicate come unità di uscita: monitor, stampante, plotter, floppy disk drive e hard disk drive,

masterizzatore di CD-ROM, modem, interfacce varie, scheda per la connessione in rete locale,

dispositivi audio.

Page 9: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

9

Hardware e Software

Un sistema per l‟elaborazione dell‟informazione consiste di due componenti : l‟hardware ed il

software

Una macchina reale è costituita solo dall‟hardware mentre una macchina virtuale è costituita dalla

macchina reale + software.

La macchina reale esplica le funzioni fondamentali del sistema di elaborazione ed è in grado di

effettuare un grande numero di operazioni elementari in tempi molto ridotti rispetto a quelli umani

La macchina reale è programmabile esclusivamente in linguaggio macchina ed è, pertanto, molto

scomoda da utilizzare direttamente: infatti, la programmazione in linguaggio macchina è ardua e

poco efficace. E‟ difficile adattare la logica sintetica del pensiero umano a quella analitica ed

elementare della macchina reale. Per superare queste difficoltà si realizzano degli strati di software

che vanno a ricoprire la macchina reale.

Si possono distinguere due tipi di software: software di base e software applicativi.:

Il Software di base è l‟insieme di programmi necessari per lo stesso funzionamento del sistema che

costituiscono macchine virtuali di basso livello.

Il Software applicativo è costituito da tutti i programmi orientati alla risoluzione di problemi

specifici utilizzati direttamente dall‟utente finale.

Page 10: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

10

Sistema operativo

Il sistema operativo è una collezione di moduli software che gestiscono le risorse hardware e

software e controllano lo svolgimento delle diverse procedure di elaborazione.

Le macchine virtuali di livello più basso sono tutte realizzate da moduli di sistema operativo.

Fra i vari moduli c‟è un supervisore o kernel che risiede stabilmente in memoria centrale,ossia

viene caricato una tantum all‟atto dell‟accensione del sistema.

Gli altri moduli, residenti in memoria di massa, vengono richiamati dal supervisore e caricati in

memoria centrale quando devono svolgere i compiti specifici di loro competenza (ad esempio

loader, shell, driver)

Il sistema operativo gestisce le risorse disponibili e le periferiche, controlla l‟esecuzione dei

programmi ed interagisce con l‟utente.

In dettaglio, il sistema operativo deve fare in modo che le richieste per accedere a tali risorse

vengano servite in maniera ottimale (come l‟esecuzione di vari programmi, le code di stampa,

l‟accesso ai file su disco..).

Per ogni periferica il sistema operativo ha un modulo chiamato driver. I driver di periferica sono

programmi specializzati nel tradurre richieste formulate dall‟utente in una forma comprensibile

dalla periferica (Es. Driver per una stampante).

Quando si ci propone di eseguire un programma, che risiede in memoria di massa, il sistema

operativo deve copiarlo in memoria centrale. In questo caso, viene avviato un modulo del sistema

operativo chiamato loader, che si occupa di copiare il programma dalla memoria di massa nella

RAM.

Inoltre, un altro modulo all‟interno del sistema operativo è l‟interprete di comandi, anche detto

shell. Esso è un interprete che risponde i comandi forniti dall‟utente tramite la tastiera o il mouse e

Page 11: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

11

li traduce uno ad uno in comandi di livello più basso che portino a termine le azioni specificate

dall‟utente.

I sistemi operativi più diffusi sono MS-DOS, Windows e Unix/Linux.

MS-DOS non risiede nella memoria ROM ma viene caricato da disco. Esso implementa la

monoprogrammazione per singolo utente, con delle limitatissime capacità di multiprogrammazione.

Windows non è nato come un sistema operativo ma come un programma applicativo che

aggiungeva una interfaccia grafica al sistema operativo MS-DOS. Oggi è il più diffuso sistema

operativo che implementa la multiprogrammazione in monoutenza e permette la condivisione di

risorse fra elaboratori connessi in rete.

Unix/Linux permettono la multiprogrammazione e multiutente; l‟accesso a questo sistema è

possibile anche attraverso terminali remoti.

Page 12: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

12

Collegamenti fra sistemi elaborativi

Un sistema per l‟elaborazione dei dati può essere dislocato in un impianto singolo o può essere

distribuito su vari laboratori. In quest‟ultimo caso le varie unità sono interconnesse tramite una rete

di trasmissione dati (rete). Possiamo distinguere 3 tipi di rete: LAN, MAN e WAN.

Una Rete locale (LAN) è una rete di interconnessione di estensione limitata tipicamente all‟ambito

di un solo edificio, e che non attraverso suolo pubblico.

Una Rete geografica è una rete di interconnessione di estensione maggiore, che può coprire un‟area

cittadina (MAN, Metropolitan Area Network) o anche un territorio più vasto (Widea Area Network)

Reti locali

I vari componenti sono connessi mediante un cavo coassiale. Sia i sistemi sia le periferiche possono

essere di natura e marca diversa, creando una rete eterogenea (ethernet), in cui tutte le risorse

presenti sono utilizzabili da ciascuno dei punti di accesso alla rete.

Un apposito insieme di programmi (software di rete) implementa una serie di macchine virtuali, che

si occupano di gestire lo scambio di informazioni secondo un preciso protocollo. Con il termine

protocollo si intende un insieme di regole che governano i dettagli tecnici dello scambio di

informazioni. Il software di rete risolve anche gli eventuali conflitti (collisioni) dovuti alla richiesta

contemporanea di accesso alla stessa risorsa da parte di due o più utenti della rete.

Reti geografiche

Una rete geografica può essere privata (banca, industria) o pubblica (università , enti di ricerca).

Più reti separate possono essere collegate mediante gateway. Poiché ciascuna delle reti collegate

Page 13: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

13

può avere un protocollo diverso, il gateway provvede all‟opportuna conversione di protocollo al

fine di garantire una corretta trasmissione delle informazioni.

Tutte le reti create da organizzazioni tecnico-scientifiche sono collegate tra loro, pervenendo così

alla costituzione di una rete unica internazionale che tocca quasi tutti i paesi del mondo: Internet,

Inter-network, cioè “reti fra reti”.

Ogni sistema connesso in rete è definito nodo.

Page 14: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

14

Servizi di rete

I principali sono:

1) Posta elettronica o E-mail consente lo scambio di messaggi personali tra utenti dei nodi della

rete. È possibile spedire messaggi a più persone contemporaneamente (mailing list).

2) FTP (File Transfer Protocol) èservizio di rete che consente di trasferire file da un nodo ad un

altro.

3) Telnet (Teletype Network) è possibile effettuare procedure di elaborazione su un sistema remoto.

4) World Wide Web o WWW è definito ragnatela diffusa in tutto il mondo. In questa modalità di

fruizione della rete, l‟utente sfoglia un ipertesto suddiviso in pagine. All‟interno di ciascuna pagina

esistono degli oggetti chiamati link (parole o icone) che, se attivati, richiamano suoni, animazioni o

altre pagine (scritte in HTML).

Indirizzi Internet

Possiamo distinguere due tipi di indirizzi internet (Domain name e IP).

Domain name è una stringa di caratteri, intervallata da punti, che individua un nodo della rete

Ad esempio l‟indirizzo: sirio.acme.it

Indica che il nodo si trova in Italia (it)

il nodo sta in un sub-network che si chiama „acme‟ (rete privata di un‟aziena o di

un‟università)

il nodo che ci interessa nel sub-network acme.it si chiama „sirio‟.

Page 15: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

15

Indirizzi IP è costituito da 4 numeri separati da punti.

Esempio: 192.9.18.1

La traduzione da indirizzo IP a FQDN si chiama name serving e richiede la consultazione di un

enorme database che, a causa delle proprie dimensioni, è distribuito su tutta Internet invece di

risiedere su un solo elaboratore.

Indirizzi di posta elettronica

Questo tipo di indirizzo oltre a specificare un nodo, deve anche specificare un utente di quel nodo.

Il formato è utente @ host, dove host è il domain name del sistema utilizzato dal destinatario,

mentre utente è il nome con cui il destinatario è conosciuto presso il suo sistema remoto.

Negli indirizzi di posta elettronica non si usano l‟ indirizzo IP al posto del FQDN.

Indirizzi www

Gli indirizzi www sono indirizzi di pagine Web e si dicono URL (Uniform Resource Locator).

Il formato usato è prot://host/pathname dove

-„prot‟ indica il protocollo da utilizzare (tipo http o ftp)

-„host‟ è il domain name o l‟indirizzo IP su cui risiede la pagina (tipo www)

-„pathname‟ è il pathname del file che contiene la pagina.

Page 16: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

16

Varie topologie di rete

Possiamo distinguere 5 tipologie di rete.

Nella topologia di rete ad albero (a) il traffico va dai terminali dei livelli più bassi verso i sistemi

intermedi o il sistema del livello più alto. Il sistema del livello più alto è il più potente dell‟intera

struttura, infatti provvede alle richieste di tutta la rete. Tale livello è responsabile della gestione

completa dell‟intera rete, ma può anche esistere una cooperazione, per la gestione il controllo della

rete, fra il nodo principale ed alcuni o tutti i sistemi di livello inferiore (a cui vengono assegnati

compiti gestionali specifici o limitati ad una specifica sottorete.

In questo caso l‟inconveniente è che il sovraccarico del sistema principale provoca il rallentamento

dei servizi per tutti gli utenti.

a b

e

c

d

Page 17: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

17

La topologia di rete a stella (b) è simile alla rete ad albero, da cui differisce per il fatto che non c‟è

alcuna distribuzione funzionale: tutte le funzioni riguardanti gli utenti periferici sono realizzate nel

nodo centrale.

La Topologia di rete a maglia (c) collega le varie stazioni con diversi circuiti. Ciò assicura buone

prestazioni perché il traffico viene ripartito sui vari percorsi ed aumenta l‟affidabilità dell‟intera

struttura, grazie ai percorsi multipli.

Nella topologia di rete dorsale (d) un unico cavo collega tutte le stazioni: la trasmissione di una

stazione viene ricevuta da tutte le altre.

L‟inconveniente è che l‟eventuale interruzione del cavo mette fuori uso l‟intera rete e la mancanza

di punti di concentrazione rende difficoltosa l‟individuazione di eventuali punti di

malfunzionamento.

Nella topologia di rete ad anello (e) la trasmissione è unidirezionale ma, essendo l‟anello un circuito

chiuso su se stesso, è possibile inviare un messaggio da qualsiasi stazione verso qualsiasi altra

anche trasmettendo sempre nello stesso senso.

Page 18: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

18

Concetti di base

di BIOCHIMICA

Page 19: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

19

Concetti fondamentali riguardo le proteine

Le proteine sono le macromolecole più abbondanti delle cellule e sono presenti in tutte le cellule ed

in tutti i compartimenti cellulari.

Una singola cellula può contenere migliaia di proteine diverse, con svariate funzioni diverse.

Tutte le proteine sia che derivino dal batterio più vecchio che dalla forma di vita più complessa,

sono costituite dallo stesso numero gruppo di 20 amminoacidi, legati tra loro in modo covalente in

caratteristiche sequenze lineari.

Poiché ognuno dei 20 amminoacidi ha una sua caratteristica catena laterale da cui dipendono le

proprietà chimiche, questo gruppo di precursori chimici può essere considerato come l‟alfabeto con

cui viene scritto il linguaggio delle proteine.

Le proteine sono catene di amminoacidi, uniti tra loro da uno specifico legame covalente. È

importante il fatto che le cellule possano produrre proteine con proprietà diverse solo legando tra

loro gli stessi 20 amminoacidi, ma in combinazioni ed in sequenze diverse.

Da questi blocchi di costruzione, organismi diversi ottengono una varietà di prodotti diversi, come

enzimi, ormoni, anticorpi ed una miriade di altre sostanze con attività biologiche diverse.

Gli amminoacidi

Tutti i 20 amminoacidi presenti nelle proteine hanno un gruppo carbossilico ed un gruppo amminico

legati allo stesso atomo di carbonio.

Essi differiscono l‟uno dall‟altro per la catena laterale o gruppo R, che ha struttura, dimensioni e

carica diversa ed influenza la solubilità dell‟amminoacido in acqua.

Questa è la struttura generale di un amminoacido:

Page 20: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

20

Questa è la struttura dell‟amminoacido in acqua (zwitterione):

Il carbonio in è asimmetrico, perché è legato a 4 sostituenti diversi: un gruppo carbossilico, un

gruppo amminico, un idrogeno ed un gruppo R. Poiché la disposizione degli orbitali di legame

intorno al carbonio a è di tipo tetraedrico, i quattro sostituenti possono disporsi nello spazio in due

modi nello spazio, che sono immagini speculari non sovrapponibili l‟uno dell‟altro.

Queste due forme sono dette enantiomeri o diastereoisomeri.

I due diastereoisomeri dell‟alanina:

L-alanina D-alanina

Page 21: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

21

Proprietà delle catene laterali degli ammino-acidi

La catena laterale (gruppo R) degli amminoacidi gioca un ruolo importante per la determinazione

delle proprietà delle proteine. Possiamo distinguere 6 tipi di catena laterale:

Alifatica: Glicina, alanina, valina, leucina, isoleucina

Contenente idrossile o solfuro: Serina, cisteina, treonina, metionina

Aromatica: Fenilalanina, tiroxina, triptofano

Basica: Istidina, lisina, arginina

Acida e la forma ammidica: Acido aspartico,acido glutammico, asparagina, glutammica

Ciclica: prolina (che ha proprietà in comune con i gruppi alifatici).

Possibili reazioni delle catene laterali

La cisteina ha un gruppo R (un gruppo tiolico) che si comporta come un acido, come l‟ossidrile

della tirosina.

La cisteina richiede una particolare attenzione in quanto è facilmente ossidabile trasformandosi

mediante la formazione di un legame covalente con un‟altra molecola di cisteina, nel dimero cistina,

in cui i due monomeri sono uniti da un ponte disolfuro.

Page 22: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

22

I ponti disolfuro sono spesso presenti in proteine quali l‟insulina.

Catene laterali e punto isoelettrico

Di seguito sono riportati i valori di pka relativi alle catene laterali dei vari amminoacidi:

Catena laterale Campo di pKa

-Carboxyl 1.8-2.6

Asp, Glu 4.0-4.8

His 6.5-7.4

Cys (SH) 8.5-9.0

Tyr (OH) 9.5-10.5

-Amino 8.0-9.0

Lys 9.8-10.4

Arg 12.0-12.5

Gli ammino-acidi aromatici (triptofano, tirosina e fenilalanina) assorbono luce nella regione

ultravioletta dello spettro (250-300 nm). Il triptofano ha la più alta assorbanza molare, seguito dalla

tirosina e dalla fenilalanina con un piccolo contributo.

Alcune catene laterali degli amminoacidi nelle proteine sono modificate come le seguenti:

Page 23: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

23

O-fosfoserina 4-Idrossiprolina

Il legame Peptidico

Nelle proteine gli amminoacidi sono legati insieme per mezzo del legame peptidico che si forma da

una reazione del gruppo carbossilico di un amminoacido con il gruppo amminico di un altro

amminoacido.

Di seguito è riportato in celeste il legame peptidico che si forma tra una Glicina ed una Alanina.

Se questo processo si ripete con più amminoacidi, si produce una lunga catena che prende il nome

di peptide e polipeptide.

Page 24: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

24

La sequenza del polipeptide si scrive iniziando con il residuo che contiene il gruppo amminico

libero (N- terminale) e finendo con il residuo che contiene il gruppo carbossilico terminale.

I quattro atomi impegnati nel legame peptidico (O, C, N e H) si trovano quasi su uno stesso piano.

Infatti, a causa del parziale carattere di doppio legame del legame peptidico non c‟è libera rotazione

attorno al legame peptidico.

Generalmente la configurazione del legame peptidico è di tipo trans per rendere minime le

interazioni steriche.

Cis Trans

Esempi di reazioni chimiche degli Amminoacidi

Tutti gli amminoacidi hanno almeno due gruppi reattivi, l‟ammino gruppo e il gruppo carbossilico,

e possono reagire con una serie svariata di reagenti.

Page 25: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

25

Ecco due esempi:

Page 26: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

26

Struttura delle proteine

La struttura di una proteina è formata da

Struttura primaria, cioè la sequenza di amminoacidi delle sue catene peptidiche.

Struttura secondaria, l‟arrangiamento spaziale dello scheletro peptidico.

Struttura terziaria, la forma che l‟intero peptide assume nello spazio.

Struttura quaternaria, la struttura nello spazio di proteine composte di due o più catene

polipeptidiche denominate subunità.

Page 27: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

27

La struttura primaria delle proteine

La composizione degli amminoacidi

La composizione in amminoacidi è una caratteristica fondamentale di ogni proteina.

Infatti, l‟idrolisi in ambiente acido libera gli amminoacidi che analizzati mediante cromatografia a

scambio ionico in un analizzatore automatico. I picchi relativi agli amminoacidi sono determinati

usando la Ninidrina che reagendo con i gruppi NH2 liberi produce un color porpora secondo la

reazione che segue.

La determinazione della sequenza degli amminoacidi viene fatta per deduzione usando il

sequenziamento dei geni

Si usano processi automatici basati sulla degradazione di Edman. Però anche se la reazione

procede con rese del 90% dopo circa 25 cicli è difficile determinare il nuovo prodotto rilasciato.

Perciò una degradazione di Edman singola non basta.

Di seguito è riportato uno schema relativo alla degradazione di Edman:

Page 28: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

28

Precisamente la proteina viene degradata con un enzima, come la tripsina, che genera vari polipetidi

che vengono separati e sequenziati. In particolare, la tripsina taglia il legame peptidico sui carbonili

di Lys o Arg, come illustrato in seguito, mentre la chimotripsina sui carbonili della Phe, Trp o Tyr.

Negli ultimi anni viene spesso utilizzata la spettrometria di massa associata a vari strumenti

bioinformatici che permettono di verificare la somiglianza della sequenza caratterizzata con altre

sequenze depositate nelle banche dati.

Page 29: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

29

Di seguito è riportato un esempio:

#1

MKRTYQPNRRKRSKVHGFRARMSTKNGRKVLARRRRKGRKVLSA

#2

MKRTWQPSKLKHARVHGFRARMATKNGRKVIKARRAKGRVRLSA

#3

MKRTYQPSRVKRNRKFGFRARMKTKGGRLILSRRRAKGRMKLTV

#4

MKRTFQPSILKRNRSHGFRTRMATKNGRYILSRRRAKLRTRLTV

#5

MKRTYQPSKQKRNRTHGFRARMATKNGRQVLNRRRAKGRKRLTV

#6

TKRTFQPNNRRRARKHGFRARMRTRAGRAILSARRGKNRAELSA

#7

SKRTFQPNNRRRAKTHGFRLRMRTRAGRAILANRRAKGRASLSA

#8

GKRTFQPNNRRRARVHGFRLRMRTRAGRSIVSDRRRKGRRTLTA

Il grado di identità tra le sequenze può essere usato per costruire una matrice di distanza che ci

indica la correlazione tra sequenze differenti. Basandosi su questa matrice si può costruire un albero

filogenetico. Di seguito è riportato un esempio di matrice di distanze e di albero filogenetico.

Page 30: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

30

Esempio della sequenza (struttura primaria) di una proteina

Questa è la struttura primaria dell‟insulina bovina, composta da due catene polipeptidiche (A e B).

In verde è riportata la catena A ed in rosso la catena B. Le due catene sono unite da due ponti

disolfuro. La catena A contiene a sua volta un ponte disolfuro interno.

Page 31: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

31

La struttura secondaria delle proteine

Il legame peptidico ha un parziale carattere di doppio legame che induce gli atomi O-C-N-H dello

scheletro peptidico a trovarsi su di un piano.

Quindi gli unici gradi di libertà per la rotazione nello scheletro peptidico sono i legami attorno al

C, phi () e psi (). Comunque ci sono significative limitazioni ai valori degli angoli e a

causa degli ingombri sterici tra gli atomi. Di seguito è riportato un esempio del grafico di

Ramachandran che mostra le zone permesse per gli angoli e

Page 32: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

32

Tipi struttura secondaria

Le proteine hanno le catene laterali idrofobiche rivolte verso l‟interno e quelle idrofile sulla

superficie. Si conoscono vari tipi di struttura secondaria (-elica, -foglietti e ripiegamenti).

Conformazione -elica

In questa conformazione lo scheletro del polipeptide è strettamente arrotolato intorno all‟asse

longitudinale della molecola e le catene laterali dei residui sporgono verso l‟esterno dello scheletro.

I residui amminoacidici in una a-elica hanno conformazioni con angoli psi variabili tra -45° e -50° e

phi di circa -60°. Ogni giro dell‟elica contiene 3,6 residui amminoacidici ed è stabilizzata da legami

ad idrogeno che si formano tra il gruppo CO di un residuo n ed il gruppo NH del residuo n+4.

L‟-elica possiede un momento dipolare. Infatti, i legami ad idrogeno in una -elica sono orientati

lungo l‟asse, tutte le unità del legame peptidico sono allineati nella stessa direzione. A causa del

Page 33: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

33

dipolo presente nei legami NH e C=O, anche l‟elica avrà un suo momento di dipolo che attraversa

l‟elica con una parziale carica positiva sul N terminale e parziale carica negativa sul C terminale.

Conformazione

Questa conformazione, al contrario dell‟-elica, che è costituita da un‟unica regione continua,

risulta dalla combinazione di più regioni della catena polipeptidica.

Queste regioni, dette filamenti beta, hanno lunghezza di 5-10 residui ed una conformazione quasi

completamente distesa, con coppie di angoli phi e psi che ricadono nell‟ampia regione presente nel

quadrante superiore sinistro del grafico di Ramachandran.

Se i filamenti sono orientati in modo tale che l‟estremità N terminale e C terminale vanno nella

stessa direzione, si parla di struttura a pieghe parallela. Nel disegno i C sono in rosso, in azzurro i

legami ad idrogeno.

Page 34: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

34

Se i filamenti sono orientati nel senso che l‟estremità N terminale e C terminale si trovano in

direzioni opposte, allora si parla di strutture a

pieghe antiparallele.

Page 35: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

35

Loop e turn

La maggior parte delle proteine contengono una combinazione delle due strutture interconnesse per

mezzo di anse (loop). Queste strutture hanno lunghezza e forma irregolari e sono localizzate sulla

superficie della proteina. Di solito i loop formano legami idrogeno con l‟acqua.

Di seguito sono elencati vari motivi che si ripetono nelle proteine:

Elica-loop-elica: motivo utile per legare il Calcio.

Forcina (-turn): che sarebbe un beta-loop-beta. Esso consiste di due filamenti adiacenti uniti

da una regione loop che può contenere da 2 a 5 residui. Questo motivo si ha quando i filamenti sono

antiparalleli.

Beta-elica-beta: motivo che si ha quando i filamenti sono paralleli.

Page 36: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

36

Struttura terziaria

La maggior parte delle proteine hanno una forma globulare organizzandosi a formare una struttura

terziaria compatta.

È stata determinata mediante metodi sperimentali la struttura tridimensionale di molte proteine

mediante Risonanza Magnetica Nucleare (NMR) e diffrazione ai raggi X (RX).

La combinazione di elementi di sruttura secondaria porta alla definizione di motivi.

Alcuni di questi motivi hanno un significato funzionale, come il motivo elica-loop-elica che lega il

DNA o il Calcio, altri, invece, hanno solo un ruolo strutturale.

Una catena con più di 200 amminoacidi si organizza in due o più gruppi compatti che possono

essere definiti come domini. Ci sono tre tipi principali di domini:

domini alfa, composti solo di alfa eliche (ad es. mioglobina).

domini beta, con tutta struttura beta. (ad es. superossido dismutasi (SOD))

domini alfa beta, contenenti struttura beta e alfa-eliche. (ad es. ubiquitina).

Domini adiacenti sono connessi da uno o due segmenti di catena peptidica. Ad esempio la

proteina SEB (Enterotoxin type B) ha un dominio alpha-beta ed uno beta.

Esaminando la struttura delle proteine, si sono raggiunte alcune considerazioni generali circa il

ripiegamento della catena polipeptidica a raggiungere la struttura terziaria:

1. Tutte le proteine globulari hanno le catene idrofobiche rivolte verso l‟interno e quelle idrofile

verso l‟Esterno.

2. Le proteine globulari sono compatte.

Page 37: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

37

3. Loop e turn si trovano di solito all'esterno.

4. Mutazioni amminoacidiche delle sequenze che portano catene laterali idrofobicheverso l‟esterno

(sulla superficie) causano cambiamenti significativi nel foding (ripiegamento) della proteina.

La stabilizzazione della struttura terziaria

Il modo per dimostrare l‟importanza di una specifica struttura di una proteina per la sua funzione

biologica è quello di alterare la struttura e stabilirne l‟effetto sulla funzione.

Un tipo di alterazione estrema è la perdita totale dell‟organizzazione tridimensionale, con

l‟assunzione di strutture casuali; questo processo va sotto il nome di denaturazione. Le proteine

possono denaturarsi non soltanto con il calore ma anche con pH estremi, con certe miscele di

solventi organicicome l‟alcol e l‟acetone, con alcuni tipi di soluti come l‟urea oppure con

determinati detergenti.

Per esempio bollendo una proteina si rompono molte interazioni deboli. I solventi organici, l‟urea

ed i detergenti agiscono disturbando le interazioni idrofobiche che rendono stabile il nucleo delle

proteine; i pH estremi modificano la carica netta della proteina determinando repulsioni

elettrostatiche e la rottura di legami idrogeno.

In realtà, è bene ricordare che la struttura nativa di una proteina è solo marginalmente stabile; non è

quindi necessario rompere tutte le interazioni deboli per ridurre la stabilità termodinamica ad un

livello insufficiente per mantenere la conformazione proteica nativa.

Comunque un processo di denaturazione di una proteina è un processo reversibile. Infatti, alcune

proteine globulari denaturate con il calore o a pH estremi possono riacquistare la loro struttura

Page 38: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

38

nativa e la loro attività biologica (rinaturazione) se vengono portate nelle condizioni in cui la

conformazione nativa è stabile.

Page 39: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

39

La Struttura Quaternaria delle proteine

Molte proteine contengono due o più catene polipeptidiche denominate Subunità. La disposizione

delle proteine e delle subunità proteiche in complessi tridimensionali costituisce la struttura

quaternaria della proteina. Le forze che tengono insieme le varie subunità sono le forze di Van der

Waals, ponti salini e legami idrogeno.

L‟esempio classico per questo tipo di struttura è l‟Emoglobina (Vedi capitolo sull‟Emoglobina).

Il folding (ripiegamento) delle proteine

La sequenza di amminoacidi di una proteina contiene tutte le informazioni necessarie alla proteina

per ripiegare in una struttura tridimensionale corretta e biologicamente attiva. Uno degli importanti

problemi insoluti in biochimica “il problema del folding” cioè “di come si ripiegano le proteine?”

Page 40: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

40

Il processo più probabile comincia con la formazione di elementi della struttura secondaria che

servono come centri di enucleazione attorno ai quali la struttura nativa della proteina si può

formare. Questi nuclei con appropriata struttura secondaria interagiscono tra loro finché non

formano una superstruttura (dominio). Poi questi domini strutturali e secondari si avvicinano a

formare una struttura secondaria estesa ma a struttura terziaria disordinata. Questo stadio è definito

globulo fuso.

Infine, un piccolo riordinamento del globulo fuso genera la conformazione nativa (come si vede

dall‟animazione che segue). È una Cold Shock Protein (CspA) da Escherichia Coli e sono mostrati

anche gli ipotetici stadi del processo.

In realtà, è ormai chiaro che ci sono delle proteine accessorie che partecipano al processo del

ripiegamento. Fra queste ci sono le Chaperones che, costituite da molte subunità, utilizzano ATP

per "guidare" le proteine nel processo corretto di ripiegamento.

Page 41: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

41

La determinazione sperimentale della struttura delle proteine

La struttura tridimensionale di una proteina può essere determinata sperimentalmente mediante due

tecniche principali: la diffrattometria ai raggi X di cristalli proteici o la risonanza magnetica

nucleare (NMR). L‟utilizzo di questi metodi richiede attrezzature molto sofisticate e costose ed

inoltre la disponibilità della proteina in forma estremamente pura. Nel caso dell‟NMR la proteina

viene analizzata in soluzione, ma si richiedono concentrazioni elevate, con il rischio che la proteina

precipiti; nel caso della cristallografia è necessario disporre di un cristallo proteico di adeguata

qualità, il che può richiedere tempi lunghi o addirittura non essere possibile. La complessità

dell'interpretazione dei dati cresce con il numero di amminoacidi, soprattutto nel caso dell‟NMR,

per cui questa tecnica è risultata finora applicabile solo per piccole proteine (non più di 250-300

amminoacidi), mentre nel caso della cristallografia a raggi X si possono ottenere risultati anche con

proteine molto grandi, ma a risoluzioni relativamente basse (2-3 Å) che non consentono

un‟interpretazione esatta delle posizioni degli atomi nello spazio.

Tali difficoltà spiegano la differenza esistente tra il numero di strutture tridimensionali note

(dell‟ordine di 104) e il numero di sequenze note (dell‟ordine di 10

6), recentemente incrementato

esponenzialmente grazie anche ai progressi e all‟automazione dei metodi di sequenziamento.

Perciò, in alternativa ai metodi sperimentali, ma anche sulla base dei loro risultati, si sono sviluppati

dei metodi computazionali aventi come scopo la predizione della struttura secondaria e terziaria di

una proteina, partendo dalla sola conoscenza della sua sequenza di amminoacidi. Anche se possono

esserci difficoltà, che impediscono il raggiungimento di una predizione affidabile, questi metodi

costituiscono un‟alternativa promettente alla cristallografia e all'NMR, ed inoltre, sono in continua

evoluzione. I miglioramenti sono possibili grazie sia alle sempre maggiori conoscenze sulla

struttura proteica, che consentono di sviluppare metodi più accurati, sia al potenziamento degli

strumenti di calcolo, che permettono l‟utilizzo di algoritmi sempre più complessi.

Page 42: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

42

Concetti di base

sull’algebra delle matrici e sull’analisi statistica

Page 43: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

43

Vettori

Definizione 1. Si definisce vettore numerico di ordine n un insieme ordinato di n numeri che

vengono detti scalari non necessariamente distinti.

Definizione 2. Si definiscono componenti di un vettore v elementi del vettore.

Definizione 3. Un vettore si dice di dimensione o di ordine n se è rappresentato da una n-pla

ordinata di numeri.

Esempio 1. Ad esempio un vettore v di dimensione 4 e di componenti a1, a2, a3 e a4 sarà

rappresentato dalla seguente quaterna ordinata:

v =( a2, a2, a3, a4 )

Operazioni sui vettori

Dati due vettori: a = (a1, a2, …,an), b = (b1, b2, …,bn) dimensione n, valgono le seguenti definizioni:

Definizione 4. Due vettori numerici si dicono uguali se hanno uguali le componenti omonime,

distinti in caso contrario

a = b a1 = b1, a2 = b2, …, an = bn

Definizione 5. Si definisce somma di due o più vettori numerici dello stesso ordine il vettore

numerico che ha come componenti le somme delle componenti omonime

Page 44: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

44

c = a + b = (c1 = a1 + b1, c2 = a2 + b2, …, cn = an + bn ) = (c1, c2, …, cn )

Definizione 6. Si definisce prodotto di uno scalare per un vettore numerico, il vettore le cui

componenti sono uguali ai prodotti delle componenti del vettore dato per lo scalare.

c = a * b = (a1, a2, …,an) * b == (c1 = a1 * b, c2 = a2 * b, …, cn = an * b) = (c1, c2, …, cn )

Definizione 7. Si definisce prodotto scalare fra due vettori numerici, lo scalare:

c = a * b = (c1 = a1 * b1, c2 = a2 * b2, …, cn = an * bn ) = (c1, c2, …, cn )

Page 45: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

45

Matrici

Definizione 8. Si definisce matrice una tabella di numeri detti coefficienti disposti secondo righe e

colonne.

Definizione 9. Si definisce ordine o dimensione di una matrice, la coppia ordinata (n, m) che

rappresentano rispettivamente il numero di righe ed il numero di colonne della matrice considerata.

Definizione 10. Si dice che una matrice A è quadrata, se presenta un numero delle righe uguale al

numero di colonne: A (m m). In tal caso la matrice si dirà di ordine m. Un esempio di matrice di

ordine 3 (m = 3) è mostrata di seguito:

Definizione 10. Si dice che una matrice A è rettangolare, se presenta un numero delle righe diverso

dal numero di colonne: A (n m) con n m.

Definizione 11. Si definisce diagonale principale di una matrice A(m,m), l‟insieme dei coefficienti

con indice ( i, i ) con 1 ≤ i ≤ m.

11 12 13

21 22 23

31 32 33

a a a

a a a

a a a

4 14 1 3 6

6 2 1 74 3

67 32 1 3 99

Page 46: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

46

Definizione 12. Si definisce diagonale secondaria di una matrice A(m,m), l‟insieme dei coefficienti

con indice (i, m –i +1) con 1 ≤ i ≤ m.

Definizione 13. Si definiscono matrici diagonali quelle matrici che sono quadrate e cui coefficienti

NON diagonali sono uguali a 0.

Definizione 14. Si definiscono matrici scalari quelle matrici diagonali in cui tutti i coefficienti sono

tra loro uguali:

1 0

0 2

5 0 0 0

0 5 0 0

0 0 5 0

0 0 0 5

Page 47: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

47

Operazioni su Matrici

Date due matrici A e B, valgono le seguenti definizioni:

Definizione 15. Si definisce prodotto di uno scalare per una matrice, la matrice le cui componenti

sono uguali ai prodotti delle componenti della matrice data per lo scalare.

Dati:

, , risulta:

Definizione 16. Data una matrice A si definisce opposta di A la matrice –A, ottenuta moltiplicando

ogni elemento di A per lo scalare -1.

Definizione 17. Date due matrici A e B delle medesime dimensioni, si definisce somma di A e B, la

matrice A + B tale che:

+ =

Definizione 18. Date due matrici A e B delle medesime dimensioni, si definisce come loro prodotto

per componenti la matrice C tale che:

* =

2 4 2

2 6 5

8 4 8

A

3

2*3 4*3 2*3

2*3 6*3 5*3

8*3 4*3 8*3

A

Page 48: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

48

Siano A e B due matrici tali che il numero di colonne di A sia uguale al numero di righe di B.

Definizione 19. Si definisce prodotto di A e B righe per colonne, la matrice C ottenuta eseguendo il

prodotto di vettore riga per vettore colonna tra tutte le righe di A e tutte le colonne di B. La matrice

C avrà lo stesso numero di righe di A e lo stesso numero di colonne di B.

Page 49: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

49

Introduzione alla Statistica

Definizione 20. Si definisce Statistica quella scienza che si occupa di raccogliere, analizzare e

interpretare i dati numerici raccolti da una o più osservazioni fatte su di un fenomeno.

Nell‟ambito della metodologia statistica si distinguono, due filoni fondamentali:

1. la Statistica descrittiva

2. la Statistica inferenziale.

La Statistica descrittiva è volta alla rappresentazione, attraverso mezzi matematici, di uno o più

fenomeni reali, conducendo lo studio sull‟intera popolazione in cui si manifesta il fenomeno o i

fenomeni oggetto di studio.

La Statistica inferenziale è volta all'induzione probabilistica circa la struttura incognita di una

popolazione. Questo filone della Statistica si occupa di risolvere il cosiddetto problema inverso,

ossia, sulla base di osservazioni su un campione (problema della scelta del campione) di unità

selezionate con date procedure dalla popolazione, perviene a soluzioni valide, entro dati livelli di

probabilità, anche per la popolazione stessa.

Definizione 21. Si definisce carattere o caratteristica, l‟elemento che consente di descrivere una

popolazione o un campione.

Definizione 22. Si definisce modalità i valori che può assumere un carattere su una unità statistica.

Page 50: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

50

Un carattere può essere:

1. Qualitativo

2. Quantitativo

Un carattere qualitativo si manifesta nell‟unità statistica mediante modalità, dette attributi e può

essere indicato solo con espressioni verbali (aggettivi, sostantivi etc.).

Un carattere quantitativo o variabile è indicato mediante espressioni numeriche, in altre parole, per

esso è realizzabile una misurazione espressa in cifre, come il reddito delle persone, il loro peso, la

loro età, ecc.

Il carattere quantitativo può essere di due tipi:

1. Continuo

2. Discreto

1. Un carattere quantitativo è continuo, quando può assumere come modalità un numero reale

qualsiasi, come la temperatura, la statura, l‟età, il peso di un individuo ecc.;

2. Un carattere quantitativo è discreto, quando può assumere come modalità solo numeri interi,

come il numero dei componenti di una famiglia, il numero di studenti di un corso universitario, ecc.

Definizione 23. Si definisce frequenza assoluta di una data modalità i di un carattere, il numero di

volte che la modalità si presenta nel collettivo. Essa verrà indicata con fi

Page 51: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

51

Definizione 24. Si definisce frequenza relativa di una data modalità i di un carattere, e sarà indicata

con fi, il rapporto tra la frequenza assoluta della modalità i e il numero totale di unità statistiche del

collettivo.

Definizione 25. Si definisce frequenza percentuale di una data modalità i di un carattere e sarà

indica con f i, il prodotto della frequenza relativa per 100.

Definizione 26. Si definisce frequenza cumulata assoluta di una data modalità i di un carattere e

sarà indica con , la somma delle frequenze assolute delle prime i modalità, ordinate in senso non

decrescente.

Definizione 27. Si definisce frequenza cumulata relativa di una data modalità i di un carattere e

sarà indica con , la somma delle frequenze assolute delle prime i modalità, ordinate in senso non

decrescente diviso n, cioè il numero totale di unità statistiche del collettivo.

Definizione 28. Si definisce classe, o classe di modalità, ciascuno degli intervalli di prefissata

ampiezza in cui risulta suddiviso l‟insieme delle modalità di un carattere quantitativo X.

Definizione 29. Si definiscono limiti di una classe, gli estremi dell‟intervallo rappresentante la

classe.

Definizione 30. Si definisce valore centrale di una classe i, la semisomma dei limiti superiore e

inferiore della classe.

Ca

if

Cr

if

Page 52: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

52

Nel caso di caratteri qualitativi continui, invece di limiti di una classe si parla di confini della

classe, i quali rappresentano gli estremi “ reali ” della classe:

Definizione 31. Si definisce confine superiore di una classe, l‟estremo superiore della classe e si

ottiene dalla semisomma del limite superiore della classe data col limite inferiore della classe

immediatamente successiva;

Definizione 32. Si definisce confine inferiore di una classe l‟estremo inferiore di una classe che si

ottiene dalla semisomma del limite inferiore della classe data col limite superiore della classe

immediatamente precedente.

Definizione 33. Si definisce ampiezza di una classe [xi , xi+1], la differenza fra il suo confine

superiore ed il suo confine inferiore:

A (Ampiezza) = confine superiore – confine inferiore

Page 53: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

53

Organizzazione dei dati

I dati possono essere rappresentati in:

forma tabellare

forma grafica

La più importante rappresentazione statistica dei dati in forma tabellare è la distribuzione di

frequenza:

Definizione 34. Si definisce distribuzione di frequenza secondo il carattere di un campione di unità

statistiche, una tabella in cui sono rappresentate le frequenze con le rispettive classi o valori di

modalità di quel carattere.

Definizione 35. Si definiscono distribuzioni di frequenze relative (distribuzioni di frequenza

percentuali) secondo un carattere di un campione di unità statistiche, una tabella in cui sono

rappresentate le frequenze relative (percentuali) con le rispettive classi o valori di modalità di quel

carattere.

E‟ possibile convertire una distribuzione di frequenza semplice, in una distribuzione di frequenze

raggruppate riunendo le modalità di un carattere in gruppi o intervalli. In questo caso ogni gruppo

della distribuzione di frequenze raggruppate si chiama classe e il modo usato per rappresentare la

classe (esempio: 59-61) è detto intervallo della classe

Page 54: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

54

Organizzazione dei dati in forma grafica

Un grafico è un diagramma che visualizza le relazioni tra le variabili, mostrando come le variazione

di una variabile siano correlate a quelle di un‟altra, ossia il modo in cui una variabile (la variabile

dipendente) è funzione di un‟altra (la variabile indipendente).

Si useranno grafici di tre tipi:

1. grafici a barre,

2. grafici lineari,

3. grafici circolari.

Definizione 36. Si definisce grafico a barre un grafico costituito da un insieme di rettangoli o barre

che visualizzano la relazione tra le variabili. Esso si rappresenta in un sistema di assi cartesiani

ortogonali Oxy, dove per convenzione sull‟asse delle x viene rappresentata la variabile indipendente

e sull‟asse delle y, quella dipendente.

I grafici a barre che noi analizzeremo sono:

1. Diagrammi a barre

2. Istogrammi.

Definizione 37. Un diagramma a barre è un grafico a barre usato per dati numerici di tipo discreto

o per dati non numerici (mesi, colori, ecc) che mostra le frequenze assolute, le frequenze relative o

quelle percentuali, mediante l‟altezza dei rettangoli e non mediante le loro aree (come avviene per

Page 55: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

55

gli istogrammi), ed evidenzia l‟indeterminatezza o la discontinuità delle misure separando i

rettangoli con degli spazi vuoti.

Definizione 38. Si definisce istogramma un grafico a barre per dati numerici continui.

Un istogramma è diverso da un diagramma a barre in quanto esso mostra le frequenze, le frequenze

relative o le percentuali, tramite l‟area dei rettangoli, la quale è proporzionale alle frequenze delle

classi

Definizione 39. Un grafico lineare mostra le relazioni tra le variabili per mezzo di punti uniti da

segmenti o da linee continue ed è rappresentato in un sistema di assi cartesiani ortogonali Oxy, dove

per convenzione sull‟asse delle x viene rappresentata la variabile indipendente e sull‟asse delle y,

quella dipendente.

I grafici lineari che noi analizzeremo sono:

1. Poligoni di frequenza

2. Ogive.

Definizione 40. Un poligono di frequenza è un grafico lineare di distribuzioni di frequenze

assolute, di frequenze relative o di frequenze percentuali delle classi, passante per i valori centrali

delle classi stesse.

Page 56: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

56

Definizione 41. Un‟ogiva è un grafico lineare, usato per la rappresentazione grafica di una

distribuzione di frequenze assolute cumulate, frequenze relative cumulate o di frequenze percentuali

cumulate.

I grafici circolari, mostrano la relazione tra variabili dividendo un cerchio in settori di dimensioni

appropriate. Diversamente dai grafici a barre e lineari, non si rappresentano in un sistema di

coordinate cartesiane ortogonali Oxy. Noi li useremo per mostrare le distribuzioni di frequenze

relative e percentuali.

Definizione 42. Si definiscono grafici circolari (o diagrammi circolari o diagrammi a torta) una

rappresentazione grafica delle distribuzioni di frequenza relative o percentuali, che avviene

utilizzando cerchi divisi in settori circolari le cui aree sono proporzionali ai valori delle frequenze

relative o a quelli delle frequenze percentuali. Se le categorie (o le classi) della distribuzione sono

disposte secondo un ordine, di solito l‟ordine si conserva procedendo in senso orario a partire dalle

ore 12.

Page 57: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

57

Indici Statistici

Gli indici statistici sono fondamentalmente di tre tipi:

1. Indici di tendenza centrale o di posizione

a) indici di posizione di tipo analitico:

media aritmetica

ecc.

b) indici di posizione di tipo posizionale:

moda

mediana

ecc.

2. Indici di dispersione o di variabilità

a) Campo di variazione

b) Scarto quadratico medio

c) ecc

3. Indici di forma (che non saranno trattati)

a) Simmetria

b) Curtosi

Page 58: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

58

Indici di tendenza centrale o di posizione

Definizione 43. Considerato un insieme di dati X, ordinato secondo l‟ordine di grandezza, si

definiscono indici di posizione o di tendenza centrale, quei valori che tendono a cadere

centralmente all‟interno dell‟insieme di dati X.

Definizione 44. Si definisce media aritmetica o media di un insieme di N numeri X1, X2, … XN e

viene indicata con il valore definito dalla seguente relazione:

Più in generale se i numeri X1, X2, … XN, compaiono rispettivamente con frequenza f1, f2, … fN la

media aritmetica è data dalla relazione:

X

1 2 1...

N

i

N i

XX X X

XN N

1 1 2 2 1 1

1 2

1

...

...

N N

i i i i

N N i i

N

Ni

i

f X f Xf X f X f X

Xf f f N

f

Page 59: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

59

Media aritmetica di dati raggruppati

Quando i dati vengono presentati in una distribuzione di frequenze raggruppate, è possibile

considerare come valore rappresentativo, di tutti i valori che cadono nella classe, il valore centrale

della classe stessa.

Definizione 45. Considerato un insieme di N dati X1 X1, X2, … XN ordinato secondo l‟ordine di

grandezza, si definisce mediana il valore corrispondente alla posizione centrale, se il numero N di

elementi è dispari, oppure la media aritmetica dei due valori corrispondenti alle due posizioni

centrali, se il numero N di elementi è pari. La relazione che individua la posizione della mediana in

un insieme di dati è data da:

La mediana per dati raggruppati.

Per dati raggruppati la mediana è definita dalla relazione:

In cui

Li = confine inferiore della classe contenente la mediana (classe mediana),

fT = frequenza totale,

1

2

Nmediana

2T

i

i

mediana

ff

mediana L cf

Page 60: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

60

fi = somma delle frequenze di tutte le classi precedenti alla classe mediana,

fmediana = frequenza della classe mediana,

c = ampiezza della classe mediana

Definizione 46. Considerato un insieme di dati X, si definisce moda di X, quel dato di X con la

frequenza più alta, ovvero il valore che si ripete più volte in X.

La moda può non esistere e se anche esistesse può essere non unica. Chiameremo un insieme di dati

con due mode: bimodale, con tre mode: trimodale e con più di tre mode: plurimodale.

Per dati raggruppati la moda è definita dalla relazione:

dove:

Li = confine inferiore della classe contenente la moda (classe modale),

1 = eccesso della frequenza modale rispetto alla frequenza della classe immediatamente

precedente,

2 = eccesso della frequenza modale rispetto alla frequenza della classe immediatamente

successiva,

c = ampiezza della classe modale,

1

1 2

imoda L c

Page 61: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

61

Indici di dispersione o di variabilità

Gli indici di variabilità misurano la variabilità.

Definizione 47. Si definisce variabilità, l‟attitudine di un carattere quantitativo ad assumere diverse

modalità.

Definizione 48. Si definisce campo di variazione un indice di variabilità definito come la

differenza fra il valore massimo ed il valore minimo delle modalità di un carattere:

Definizione 49. Si definisce scarto quadratico medio o deviazione standard di un insieme di n

numeri X1, X2, …, Xn, un indice assoluto di variabilità definito come la radice quadrata della

varianza

MAX MINcampo di variazione X X

2

1

n

i i

i

f X X

sn

Page 62: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

62

Cenni di probabilità

La Teoria della Probabilità ci permette di studiare e descrivere i fenomeni aleatori.

Definizione 50. Un fenomeno è aleatorio quando di esso non si può predire con certezza il risultato.

Definizione 51. Si definisce esperimento un qualsiasi processo di osservazione o misurazione.

Definizione 52. (Spazio campione). Si definisce spazio campione, e si indicherà col simbolo (S),

l‟insieme dei possibili esiti di un esperimento.

Definizione 53. Si definisce evento, ogni sottoinsieme dello spazio campione .

Definizione 54. Si definisce evento elementare, l‟evento costituito da un singolo elemento dello

spazio campione .

Per la rappresentazione degli spazi campionari e dei loro elementi si utilizza la NOTAZIONE

INSIEMISTICA: Diagrammi di Venn o forma tabulare.

Definizione 55. Siano A e B due eventi associati ad un esperimento: l‟evento C è definito unione di

A e B se comprende tutti gli elementi di A e B presi una sola volta.

C = A B

Page 63: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

63

Definizione 56. Siano A e B due eventi associati ad un esperimento: l‟evento C è definito

intersezione di A e B se comprende tutti gli elementi che appartengono ad A e contemporaneamente

a B.

C = A B

Definizione 57. Dato un evento A, la sua negazione identifica un nuovo evento A* costituito da

tutti gli elementi di non appartenenti ad A. A* è detto complemento di A in .

Definizione 58. Se due eventi A e B non hanno elementi in comune essi sono detti eventi disgiunti

o mutuamente esclusivi perché il verificarsi dell‟uno esclude il verificarsi dell‟altro.

Osservazione. Se A e B sono mutuamente esclusivi, allora: A B =

Page 64: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

64

La TEORIA DELLA PROBABILITA’ : tre modi di concepire la probabilità.

Concezione classica della probabilità

La probabilità di un evento A è il rapporto tra il numero di casi favorevoli al verificarsi di A (h ) e il

numero di casi possibili (N )

Concezione frequentista della probabilità

La probabilità di un evento A è la frequenza relativa di successo (occorrenza di A) in una serie

tendente all’infinito di prove, ripetute sotto identiche condizioni:

Concezione soggettivista della probabilità

Non tutti gli eventi, pur valutabili in termini di probabilità, possiedono il requisito della ripetitività

sotto le stesse condizioni. La probabilità di un evento A è la valutazione del grado di fiducia che un

individuo o un gruppo di individui può coerentemente formulare sull‟occorrenza di A, in base alle

proprie opinioni e informazioni. Su queste basi si fonda la TEORIA BAYESIANA

h

P AN

limN

hP A

N

Page 65: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

65

Regole del calcolo della probabilità

Il calcolo della probabilità è estremamente utile per stabilire sia la probabilità associata ad un

evento, sia la probabilità associata ad un insieme di eventi.

REGOLA DELL‟ADDIZIONE: Se A e B sono due eventi in tali che: A B allora:

P(A B) = P(A) + P(B) – P(A B)

Definizione 59. (definizione assiomatica di probabilità) Considerato uno spazio campione , A un

suo generico evento e P una funzione definita in ed a valori reali, tale che: P : A P (A)

[0,1] . Allora, il numero reale P(A) sarà detto probabilità dell‟evento A, se soddisfa i seguenti

assiomi:

1. 0 P(A) 1 , A ,

2. P() = 1,

3. P(A B) = P(A) + P(B) , se A B = (eventi incompatibili)

Probabilità condizionata, eventi dipendenti, indipendenti

Dati due eventi A e B, valgono le seguenti definizioni:

Definizione 60. Si dice che l‟evento B è condizionato dall‟evento A e si indica con B A, se il

verificarsi dell‟evento A influenza l‟evento B.

Page 66: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

66

Definizione 61. Si definisce probabilità condizionata, la probabilità dell‟evento B condizionato A o

viceversa, la probabilità dell‟evento A condizionato B.

Dunque, la probabilità di B A, che indicheremo con P(B A), rappresenta la probabilità che

presentatosi A, si presenti B.

|

P A BP A B

P B

Page 67: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

67

Regola della moltiplicazione:

Se il verificarsi di B non condiziona la probabilità del verificarsi di A, segue che:

Definizione 62. Dati due eventi A e B, diremo che essi sono indipendenti se:

P(A B) = P(A)P(B),

altrimenti si diranno dipendenti.

Teorema di Bayes:

Siano A1, A2, … ,An, n eventi escludentisi a vicenda (Ai Aj = , per i j) e sia B Ai, i = 1…n.

Risulta:

Osservazione.

Nel teorema di Bayes, la probabilità P(Ai) è spesso definita probabilità a priori, mentre la P(Ai|B) è

definita probabilità a posteriori.

|

|

P A B P A B P B

P A B P B A P A

|

|

P A B P A

P A B P A B P B P A P B

Page 68: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

68

BIOINFORMATICA

Page 69: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

69

Bioinformatica

La Bioinformatica nasce negli anni 70 quando vennero pubblicate le prime sequenze nucleotidiche

e si cominciò a sentiree l‟esigenza di avere a disposizione sistemi informatici per l‟archiviazione e

l‟analisi di dati di sequenza che sono state prodotte nel futuro in grande quantità. I compiti della

bioinformatica comprendono il mettere a punto dei sistemi idonei per collezionare ed interrogare

l‟enorme mole di dati biologici (le discipline omiche) e la progettazione, implementazione ed

applicazione di metodi matematico-statistici rivolti alla caratterizzazione funzionale delle sequenza

biologiche, a studi di evoluzione molecolare, a studi strutturali degli acidi nucleici e delle proteine.

La differenza tra i termini di Bioinformatica e Biologia Computazionale è la seguente:

La Bioinformatica è la disciplina che usa l‟informatica per analizzare i dati biologici al fine di

formulare ipotesi sui processi della vita

La Biologia Computazionale è la disciplina che sviluppa tecniche bioinformatiche per la raccolta e

la manipolazione di dati biologici e dell‟uso di tali dati per ottenere scoperte o predizioni

biologiche.

Page 70: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

70

Evoluzione Molecolare

Gli ERRORI nella trasmissione genetica sono alla base dei processi evolutivi. La trasmissione

dell‟informazione genetica si ottiene attraverso il processo della replicazione del DNA. Durante il

processo di replicazione possono avvenire due tipi di errori: 1)mutazioni della sequenza di DNA

(cioè sostituzione din un nucleotide con un altro) e 2) inserzioni e delezioni di tratti più o meno

lunghi di DNA.

Tutto ciò spiega perché gli organismi viventi pur discendendo da un unico progenitore comune,

posseggono genomi di dimensioni molto diversi tra loro. L‟evoluzione molecolare studia la velocità

ed i vari tipi di cambiamenti che hanno luogo nel materiale genetico o nei suoi prodotti.

Gli studi di evoluzione molecolare sono ormai diventati uno strumento per l‟interpretazione dei

processi che sono alla base dell‟evoluzione della materia vivente. Essi si basano essenzialmente su

analisi comparative e quindi presuppongono la conoscenza delle macromolecole biologiche almeno

a livello della struttura primaria.

Le variazioni genetiche, che sono il presupposto fondamentale per l‟evoluzione biologica, hanno

origine spontaneamente in seguito ad errori che hanno luogo nel processo della replicazione oppure

a mutazioni accidentali dovute a fattori ambientali, che alterano la sequenza del DNA. Una

mutazione viene fissata all‟interno di una popolazione attraverso due processi distinti: 1)selezione

Naturale, 2)la deriva genica casuale.

La selezione naturale è definita come la capacità differenziata di riproduzione di individui

geneticamente distinti all‟interno di una popolazione. La capacità di riproduzione di un individuo è

determinata dal proprio livello di adattamento all‟ambiente rispetto ad altri individui della stessa

specie. La selezione naturale contrasta la fissazione di mutazioni svantaggiose e favorisce la

fissazione di mutazioni vantaggiose.

La deriva genica può produrre la fissazione di mutazioni neutrali attraverso un processo casuale che

vede aumentare nel tempo la frequenza dell‟allele mutato fino alla sua fissazione nella popolazione

Page 71: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

71

La distanza genetica tra due sequenze omologhe (nucleotidiche o amminoacidiche) è determinata

dal numero di sostituzioni che hanno avuto luogo nel corso dell‟evoluzione nelle sequenze stesse.

Tale quantità viene solitamente normalizzata rispetto alla lunghezza delle sequenze analizzate,

opportunamente allineate, e pertanto l‟unità di misura generalmente utilizzata per la distanza

genetica è data dal numero di sostituzioni per sito.

A causa della possibilità di sostituzioni multiple sullo stesso sito (multiple hits), di sostituzioni

convergenti o di retromutazioni, il numero di sostituzioni che viene osservato tra una coppia di

sequenze è inferiore rispetto al numero di sostituzioni che effettivamente ha avuto luogo.

Nello studio dell‟evoluzione si possono considerare sia sequenze di acidi nucleici sia di proteine. Le

sequenze nucleotidiche sono più accurate sia per la possibilità di effettuare studi evolutivi anche su

regioni non codificanti del menoma sia per il fatto che si osservano cambiamenti a livello del DNA

anche quando non ci sono cambiamenti a livello della sequenza aminoacidica.

Per classificare i geni omologhi appartenenti ad una stessa famiglia è fondamentale la costruzione di

un albero filogenetico che ne descriva in modo accurato le relazioni evolutive.

Due geni (o proteine) si dicono omologhi se derivano da un progenitore comune. L‟omologia è un

carattere qualitativo a cui non può essere attribuito un valore percentuale che può essere riferito al

grado di similarità tra sequenze. Quindi non possiamo parlare di percentuale di omologia ma di

percentuale di identità (o similarità) di sequenza. E‟ bene comprendere che se due sequenze

mostrano un significativo livello di similarità lungo tutta la loro lunghezza possono quasi

certamente definirsi omologhe. Al contrario due geni o proteine possono non mostrare un

apprezzabile grado di similarità, pur essendo omologhi, a causa di una divergenza molto remota.

Due sequenze omologhe possono essere ortologhe o paraloghe. Due sequenze si definiscono

ortologhe se appartengono a due specie diverse ed il loro processo di divergenza ha avuto origine in

seguito al processo di speciazione da cui le due specie suddette hanno avuto origine. Due sequenze

Page 72: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

72

omologhe si definiscono paraloghe se il loro processo di divergenza ha avuto origine in seguito ad

un processo di duplicazione genica.

Le relazioni evolutive tra gli organismi possono essere rappresentate attraverso alberi filogenetici.

Un albero filogenetico è costituito da nodi e da rami in cui ogni ramo mette in relazione due nodi. I

nodi rappresentano le unità tassonomiche mentre i rami definiscono le relazioni tra queste in termini

di ascendenza e discendenza. In un albero noi possiamo distinguere i nodi interni da quelli

terminali. I nodi terminali rappresentano le unità tassonomiche attuali mentre i nodi interni

rappresentano le unità tassonomiche ancestrali. Le unità tassonomiche attuali corrispondono alle

sequenze omologhe oggetto dell‟analisi e vengono comunemente definite unità tassonomiche

operative (OTUs).

Se un albero descrive esclusivamente le relazioni filogenetiche tra i vari nodi e la lunghezza dei

diversi rami non ha alcun significato: Cladogramma

Se in un albero la lunghezza dei rami è proporzionale alla distanza evolutiva tra i nodi, l‟albero è

definito Filogramma.

I metodi utilizzati per la costruzione di alberi filogenetici si suddividono in metodi che applicano

algoritmi di clustering o raggruppamento delle OTUs analizzate, generalmente basati su misure di

distanza genetiche ed in metodi che utilizzano algoritmi che massimizzano una funzione obiettiva di

qualità dell‟albero (criterio di ottimalità). Tra i metodi basati su algoritmi di clustering il più

semplice è noto come UPGMA che utilizza un algoritmo di clusterizzazione iterativo che procede

associando via via le sequenze o cluster di sequenze più simili tra loro.

Page 73: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

73

Banche dati molecolari e sistemi di interrogazione di banche dati mediante SRS ed ENTREZ

Le banche dati hanno lo scopo di consentire la consultazione e l‟analisi delle informazioni in esse

contenute e di ogni altra informazione ad esse correlate e memorizzate in altre banche dati. Le

banche dati si distinguono in primarie o derivate, curate e non curate e relazionali.

Le banche dati primarie contengono solo le informazioni minime necessarie da associare ai dati per

identificarli al meglio mentre quelle derivate comprendono insiemi di dati omogenei che possono

derivare da banche dati primarie, ma rivisti e annotati con varie informazioni che danno un valore

aggiunto alla banca dati stessa.

Le banche dati non curate contengono i dati grezzi così come sono forniti da chi li ha ottenuti, o con

annotazioni da sistemi automatici. Le banche dati curate presentano informazioni che sono

verificate, confrontate con quelle di altre banche dati, opportunamente corrette (o per lo meno con

segnalazione di possibili errori e conflitti con altri dati)

Nelle banche dati relazionali i dati sono gestiti come tabelle, tutte correlate tra loro (ACCESS è un

esempio di programma per creare database).

Una banca dati biologica raccoglie informazioni e dati derivanti dalla letteratura e da analisi

effettuate sia in laboratorio sia attraverso analisi bioinformatiche. Ogni banca dati biologica è

caratterizzata da un elemento biologico centrale che costituisce l‟oggetto principale intorno al quale

viene costruita la entry della banca dati. Esempi di elementi centrali sono le sequenze nucleotidiche

di DNA nelle banche dati di acidi nucleici.

Ciascuna entry raccoglie tutte le informazioni che caratterizzano l‟elemento centrale ed è spesso

organizzata come flat file. Un flat file è un file sequenziale nel quale ogni classe di informazione è

riportata su una o più linee consecutive identificate da un codice a sinistra caratterizzante gli

attributi annotati nella linea stessa.

Page 74: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

74

Molte sono le banche dati che sono state createcome supporto per la ricerca scientifica e di seguito

saranno riportati degli esempi. PUBMED è considerata la banca dati per eccellenza della letteratura

medica e biologica. Essa è consultabile in modo gratuito e permette il link diretto ai siti delle riviste

per visionare o scaricare l‟articolo. Le ricerche in PubMed possono essere effettuate tramite diverse

opzioni (ad es. autore, rivista e parole chiave).

Sono note tre banche dati di sequenze nucleotidiche: EMBL (Inghilterra), GenBank (America) e

DDBJ (Giappone). Per ogni sequenza le informazioni riportate sono identiche anche se la struttura

dei file è abbastanza diversa; infatti, solo l‟EMBL riporta le informazioni usando un file di tipo flat

file.

La UNIPROT è la banca dati di riferimento per le sequenze proteiche. Essa deriva da un consorzio

tra Swissprot, Trembl e Pir. In particolare, la SWISSPROT è una banca dati, sviluppata in Svizzera,

con un alto livello di annotazione (descrizione della proteina, delle funzioni, della sua struttura, di

modificazioni post-traslazionali e post-trasduzionali, di varianti, di polimorfismi etc), alto livello di

integrazione con altri database, basso livello di ridondanza. Questa banca dati ci fornisce entry di

formato flat-file che si differenzia da quello di EMBL soprattutto per quanto riguarda le features che

descrivono nelle proteine la presenza degli ammioacidi modificati, regioni peptidiche

corrispondenti ad isoforme, domini strutturali e siti di polimorfismi. La TREMBL è una banca dati

di sequenze proteiche ottenute tramite traduzione delle sequenze nucleotidiche contenute in EMBL,

annotate automaticamente. Di queste sequenze annotate una parte che costituisce SPTREMBL è

inserita in SWISSPROT mentre la parte relativa alle proteine immunologiche è raccolta in

REMTREMBL. La PIR è un‟altra banca dati di sequenze proteiche sviluppata negli USA. Essa è

molto curata e ben annotata, ma è poco integrata con altri database e quindi offre minori vantaggi

nel suo uso.

Page 75: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

75

La banca dati di strutture proteiche tridimensionali è la PDB. Essa contiene le coordinate atomiche

di strutture proteiche determinate attraverso analisi cristallografiche ai raggi X, analisi NMR o altre

tecniche (microscopia elettronica etc.).

Tre le altre banche dati che riguardano la struttura delle proteine bisogna ricordare DSSP per le

strutture secondarie; PDBsum che riassume per ogni proteina tutte le informazioni derivanti dalle

varie banche dati correlati; SCOP [Structural Classification of Proteins] che organizza le strutture

proteiche gerarchicamente seguendo criteri evolutivi e di similarità strutturale; CATH che presenta

una classificazione strutturale simile a quella offerta da SCOP, basata su confronti di strutture;

InterPro che raccoglie varie informazioni strutturali e funzionali relative ad una proteina o ad una

famiglia di proteine; PROSITE che annota patterns amminoacidici individuati in un set di sequenze

proteiche attraverso analisi in silico e studi sperimentali; PRODOM che raccoglie dati relativi a

famiglie di proteine generate dall‟applicazione di PSI-BLAST, che partendo dal confronto di una

sequenza proteica contro un database di proteine, raccoglie in un multiallineamento tutte le

sequenze proteiche per le quali Blast ha determinato uno score più aòtro di un score indicato come

threshold; PFAM che è una banca dati di famiglie di proteine accomunate da elementi strutturali e

funzionali.

Esistono due sistemi di interrogazione utilizzabili su database ben diversi tra loro: Entrez ed SRS.

ENTREZ (Cross-database search engine) è un sistema disponibile sul sito dell‟NCBI per interrogare

ed estrarre dati dalle più varie banche dati esistenti. Non è commercialmente disponibile e quindi

non può essere scaricato ed installato localmente, né è possibile modificare le banche dati

implementate sul sistema. SRS (Sequence Retrieval System) è un sistema utilizzabile (e utilizzato)

su qualunque tipo di database. Esso è stato sviluppato inizialmente da ricercatori dell‟EMBL/EBI ed

è attualmente un prodotto distribuito da una società privata (Lion Bioscience) che, finora, continua

a offrirlo gratuitamente ad enti di ricerca accademici. Molti centri di ricerca hanno installato SRS

sul proprio web server utilizzandolo per offrire un servizio di consultazione di banche dati. Uno dei

Page 76: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

76

sistemi SRS più curati è quello presente sul sito dell‟EBI (www.ebi.ac.uk). In pratica SRS ci

permette di 1) scegliere i database da utilizzare per la ricerca, 2) immettere una o più query

concatenate, 3) visualizzare i risultati in modo personalizzabile, 4) applicare i programmi di analisi

ai risultati ottenuti, 5) salvare nel server EBI i risultati di una ricerca e di richiamarli

successivamente.

Ricerca di similarità di sequenze nucleotidiche e proteiche ed Allineamenti di sequenze

Gli acidi nucleici e le proteine sono costituite da catene di quattro possibili residui nucleotidici e

venti possibili residui amminoacidici. La sequenza determina le proprietà di queste macromolecole

che sono rappresentate come semplici sequenze di lettere dove ogni lettera simboleggia un residuo

diverso. Queste stringhe possono essere analizzate con metodi informatici che consentono di

cercare pattern particolari o di effettuare allineamenti di sequenze.

L‟Allineamento di due sequenze ha lo scopo di confrontare tra loro due sequenze e rappresenta il

presupposto per analisi più complesse, come per esempio le ricerche di similarità nelle banche dati,

la costruzione di alberi filogenetici o l‟identificazione di domini funzionali. L‟allineamento

dovrebbe portare all‟appaiamento delle regioni simili condivise dalle due sequenze.

Vari sono i criteri che possono essere utilizzati per misurare la similarità tra due o più sequenze. Il

problema è che i concetti di similarità ed allineamento sono intimamente associati: infatti non si

possono allineare sequenze senza definire dei criteri di similarità ed allo stesso tempo per valutare

quanto due sequenze siano simili è necessario allinearle. Comunque per allineare varie sequenze è

necessario disporre anche di un metodo (che in informatica è definito algoritmo) che sulla base dei

criteri di similarità sia in grado di produrre un allineamento.

Se definissimo come criterio di similarità quello di valutare il numero di lettere che si appaiano

esattamente, si potrebbe implementare un semplice algoritmo che faccia virtualmente scorrere una

Page 77: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

77

sequenza sull‟altra e che valuti ad ogni spostamento tutte le lettere abbinate per stabilire il numero

di appaiamenti esatti. L‟applicazione di questo algoritmo comporta che ad ogni avanzamento della

sequenza si dovranno confrontare tutte le lettere appaiate tra le due sequenze. In questo modo

potremo facilmente dimostrare che alla fine si dovranno effettuare un numero di confronti pari al

prodotto delle lunghezze delle due sequenze che si vogliono allineare. Infatti ogni lettera della

prima sequenza dovrà essere confrontata con ogni lettera dell‟altra.

L‟efficienza di un algoritmo dipenderà dal tempo impiegato per eseguire le varie operazioni. Questo

tempo viene spesso indicato come proporzionale alla lunghezza O(nm) dove n e m sono le

lunghezze delle due sequenze che stiamo andando a confrontare.

La crescita esponenziale delle banche dati ha portato allo sviluppo di programmi (FASTA e

BLAST) che sono in grado di effettuare velocemente delle ricerche di similarità, grazie a soluzioni

euristiche che sono basate su assunzioni non certe ma estremamente probabili.

La complessità del problema di allineare sequenze di acidi nucleici e di proteine deriva dal fatto che

deve essere considerata la possibilità che il migliore allineamento comporti l‟inserimento di gap.

Questa esigenza è necessaria dal momento che nel corso dell‟evoluzione si possono avere processi

di inserzione o delezione che comportano una diversa lunghezza di sequenze omologhe.

Però l‟inserimento dei gap produce due complicazioni :1) la necessità di definire dei criteri di

similarità; 2) la possibilità di disporre di adeguati algoritmi. Per risolvere il primo problema

possiamo attribuire un‟opportuna penalità ad ogni gap oppure attribuire penalità diverse per

l‟apertura di un gap e per il suo allungamento. Se la definizione di criteri per valutare gli

allineamenti con gap è semplice, molto più complesso è lo studio di un algoritmo che possa

implementare questi criteri. Infatti, un algoritmo di scorrimento di una sequenza sull‟altra non è

adatto a questo scopo poiché ci sarebbero troppi modi con cui inserire un gap nelle sequenze da

allineare.

Page 78: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

78

Infatti se noi considerassimo una sequenza di n caratteri è possibile inserire un singolo gap in n-1

posizioni generando n sequenze diverse (compresa quella originale). Consentendo un numero

maggiore di gap il numero di possibili sequenze aumenta in modo esponenziale, per cui sarebbe

improponibile analizzare ogni possibile sequenza con l‟algoritmo di scorrimento.

Per semplificare questo problema sono state sviluppate le DOT MATRIX che permettono di

individuare e localizzare similarità di sequenza anche in presenza di gap che graficamente appaiono

come salti in diagonale.

Inoltre, bisogna anche tenere in considerazione che amminoacidi diversi possono essere “più o

meno simili”. Nel corso degli anni sono stati sviluppati alcuni metodi statistici che valutano quanto

due amminoacidi sono simili tra loro ed assegnano a ciascuna coppia di amminoacidi un valore che

rispecchia quanto i due amminoacidi sono intercambiabili in famiglie di proteine omologhe. In

particolare sono state sviluppate due tipi di matrici di sostituzione (PAM e BLOSUM).

Le Matrici PAM sono state proposte da Margaret Dayhoff nel 1978 sulla base di studi di filogenesi

molecolare su 71 famiglie di proteine. Esse partono dall‟assunzione di base che analizzando

sequenze correlate filogeneticamente si può calcolare la probabilità con cui ogni amminoacido

subisce una mutazione, ovvero una PAM (Percent Accepted Mutation). Due sequenze sono ad 1

PAM di distanza se mediamente per convertirsi l‟una nell‟altra è tollerata 1 mutazione ogni 100

aminoacidi (tollerata sta ad intendere che la mutazione non altera la funzione della proteina). Per

sequenze filogeneticamente vicine, è meglio usare matrici PAM a basso indice (es. PAM 10),

mentre per sequenze lontane è meglio usare matrici PAM ad alto indice (es. PAM 250)

Le Matrici BLOSUM sono state introdotte da Henikoff e Henikoff nel 1992. Esse si basano sulla

banca dati BLOCKS, che contiene una collezione di allineamenti multipli di segmenti proteici senza

gap. Ciascun blocco ha sequenze con un numero di amminoacidi identici allineati superiore a un

valore P compreso in genere tra 30 e 95%. In questo modo si ricava la frequenza relativa di

sostituzione degli amminoacidi. Al contrario delle matrici PAM, non si fanno presupposti di

Page 79: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

79

omologia tra le proteine allineate. Le matrici BLOSUM sono contrassegnate da un indice (il valore

P ) che rappresenta la percentuale di identità minima all‟interno del blocco.

Per evitare l‟eccessivo uso di gap, vengono usati dei punteggi di penalizzazione.

Alcune possibili combinazioni da BLAST su NCBI sono

Matrice: PAM30 Gap opening: -9 Gap extension: -1

Matrice: BLOSUM62 Gap opening: -11 Gap extension: -1

Matrice: BLOSUM45 Gap opening: -12 Gap extension: -2

Page 80: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

80

Ricerca per similarità di banche dati

Questi metodi sono stati sviluppati allo scopo di permettere una ricerca per similarità rapida tra le

migliaia di sequenze che sono depositate in banca dati. In questi casi è necessario effettuare migliaia

di allineamenti di sequenze e per questo motivo sono stati sviluppati dei metodi euristici, cioè basati

su assunzioni probabili. Questi metodi sono più veloci ma non danno la certezza assoluta di avere

trovato l‟allineamento migliore (FASTA e BLAST).

FASTA (FAST-All) è un programma sviluppato da Lipman&Pearson nel 1988. Questo algoritmo

considera ogni sequenza come formata da “parole” la cui lunghezza è detta ktup che è un parametro

variabile (di solito per le proteine si assume pari a 2). Questo tipo di programma procede in 4 step:

1) Identificazione delle regioni a più alta identità di parole sulla matrice di allineamento tra le

sequenze. In dettaglio, FASTA crea un indice in cui elenca, per la sequenza query e per il subject, le

regioni dove si hanno dei matches tra le varie “parole”. Successivamente, FASTA costruisce grazie

a questo indice una matrice di allineamento ed evidenzia su di essa le regioni in cui si ha un

maggiore numero di matches tra le varie parole, salvando le migliori regioni allineate, senza tenere

conto se si trovano o no sulla stessa diagonale.

2) Confronto di queste regioni con le matrici di score e salvataggio delle migliori regioni. Dopo

aver individuato le migliori regioni di allineamento delle “parole”, FASTA usa una matrice di

allineamento (in genere PAM250) per raffinare la ricerca di somiglianze solo all‟interno di quelle

regioni. In questo modo si ricavano le “best initial regions” identificate come Init1. Gli Init1 sono

usati da FASTA per compilare una graduatoria delle migliori similarità trovate in banca dati e per

selezionare le sequenze con cui continuare le fasi successive.

3) Congiungimento delle regioni ottimali con uno score superiore a una soglia prefissata. A questo

punto, FASTA cerca di congiungere le “best initial regions” per creare regioni il più possibile

Page 81: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

81

estese, dette InitN; ove sia necessario introdurre dei gap, ne tiene conto con opportune

penalizzazioni dei punteggi.

4) Ricalcolo dell‟allineamento migliore ottimizzato sulle regioni selezionate. L‟ultima fase di

FASTA è quella di effettuare un allineamento molto accurato utilizzando una variante

dell‟algoritmo Smith&Waterman che è limitato però ai soli percorsi di allineamento che

fiancheggiano per una stretta banda le regioni già individuate. Il risultato di questo calcolo è il

punteggio ottimizzato di allineamento detto Opt, che viene utilizzato per creare l‟allineamento

definitivo. La soglia significativa di Opt è calcolata confrontando i punteggi ottenuti su una query

generata casualmente

BLAST – Basic Local Alignment Search Tool (BLAST) è un programma sviluppato da Altschul

e colleghi nel 1990. Questo programma si basa come FASTA sull‟indicizzazione di parole, ma usa

criteri diversi.

Gli step del programma sono tre. In dettaglio,

1) Creazione di un elenco di parole di W lettere dove il parametro W per le proteine è generalmente

pari a 3 (W-meri)

2) Analisi delle sequenze nelle banche dati e ricerca dei W-meri corrispondenti alle parole della

lista prodotta dall‟analisi della sequenza query.

3)Ogni volta che viene identificato un possibile appaiamento (“hit”) l‟algoritmo verifica se è

possibile estenderlo in entrambe le direzioni senza inserire gap. Si identifica un segmento di

allineamento locale non ulteriormente estendibile chiamato HSP.

BLAST è un insieme di più programmi, ognuno per le diverse forme di confronto che si possono

realizzare:

Page 82: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

82

Blastp: Confronta una sequenza di amminoacidi (query sequence) contro un database di sequenze

proteiche

Blastn: Confronta una sequenza di nucleotidi (query sequence) contro un database di sequenze

nucleotidiche

Blastx: Confronta una sequenza di nucleotidi (query sequence), tradotta in tutte le sei reading

frames, contro un database di sequenze proteiche

Tblastn: Confronta una sequenza di amminoacidi (query sequence) contro un database di sequenze

nucleotidiche traducendo “dinamicamente” ogni sequenza del database in tutte le reading frames

Tblastx: Confronta tutte le sei traduzioni (secondo le reading frames) di una sequenza di nucleotidi

(query sequence) contro tutte le sei traduzioni (secondo le reading frames) di un database di

sequenze nucleotidiche

Le Differenze tra BLAST e FASTA sono le seguenti:

a) lunghezze delle “parole usate”;

b) FASTA si limita ad un‟indicizzazione diretta della parola invece BLAST seleziona da ogni

parola diverse parole simili.

c) BLAST utilizza una matrice di sostituzione sin dalle prime fasi dell‟analisi

d) BLAST è ottimizzato per trovare segmenti di similarità locale privi di gap

Page 83: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

83

Allineamenti multipli

Un allineamento multiplo fornisce un‟informazione biologica maggiore rispetto a quella riportata

nell‟allineamento di due sole sequenze; infatti, i residui più importanti dal punto di vista strutturale

o funzionale saranno estremamente conservati tra tutte le sequenze dell‟allineamento.

Infatti in molti libri di testo è riportata la frase:

“Una sequenza amminoacidica fa la timida; un paio di sequenze omologhe sussurrano; molte

sequenze allineate gridano”.

Per essere informativo un allineamento multiplo dovrebbe contenere una distribuzione di sequenze

sia strettamente sia lontanamente correlate.

E‟ importante sottolineare che in un allineamento multiplo si prendono in considerazione le colonne

dei residui più che le proteine a cui appartengono. Ogni residuo incolonnato è da considerarsi in

modo implicito come evolutivamente correlato.

Per poter costruire allineamenti multipli sono stati sviluppati metodi per l‟allineamento progressivo

di coppie di sequenze. Questi metodi partono da un set di n sequenze disposte a caso e non allineate

e determinano tutti i possibili allineamenti a coppie. A questo punto determinano un albero

filogenetico in base ai punteggi di similarità ottenuti. A partire dalla coppia più simile vengono

determinate le colonne conservate e la coppia successiva viene allineata mantenendo queste colonne

e ricalcolando lo score complessivo.

CLUSTALW è il programma più utilizzato per gli allineamenti multipli. Esso è implementato sul

server EBI ed ha una interfaccia grafica. Inoltre, usa come input un file con le sequenze in formato

FASTA.

Page 84: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

84

Qual è l‟utilità di un allineamento multiplo? Da un allineamento multiplo possiamo riuscire ad

individuare i residui importanti per una famiglia di proteine e possiamo ottenere il profilo.

Un profilo esprime tutta l‟informazione contenuta in un multiallineamento. Infatti si attribuisce un

punteggio a ciascun amminoacido per ogni colonna dell‟allineamento (con le matrici di

sostituzione) e ciò permette di valutare la sua conservazione. Analogamente, osservando la

frequenze dei gap, si attribuisce una penalità per il loro inserimento.

PROFILEMAKER è il programma più usato per generare profili. Il profilo di un allineamento

riporta sulla prima colonna la sequenza CONSENSO, cioè una sequenza derivante da tutti gli

allineamenti e contenente solo i residui più frequenti. Ogni colonna successiva descrive la

situazione di tutti gli amminoacidi in quella posizione.

Page 85: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

85

Analisi della struttura primaria delle proteine

Il sito Expasy è la principale fonte di programmi per poter studiare le proteine.

Esso prevede una serie di tool: DNA Protein, Similarity searches, Predizione di topologia.

Traslate fa una traduzione da sequenze nucleotidiche a sequenze proteiche

Backtraslate: data una sequenza amminoacidica cerca di “indovinare” la sequenza nucleotidica

chiedendo in input il tipo di organismo, la tavola d‟uso dei codoni.

MultiIdent tool permette di individuare una proteina non dalla sequenza ma da dati sperimentali

(ad es. una serie di pesi molecolari, il punto isoelettrico, il peso molecolare, la composizione

percentuale dei suoi amminoacidi).

AACompIdent identifica una proteina dalla sola sequenza amminoacidica

Tra le Similarity searches possiamo elencare Blast, MPsrch, FASTA3, PropSearch e SAMBA.

BLAST è una serie di link alternativi per tutti i possibili Blast residenti su server diversi da quello

della NCBI.

MPsrch permette di fare una ricerca in banche dati modificate usando l‟algoritmo di Smith &

Waterman.

PropSearch permette di fare una ricerca in banca dati per proteine non usando la sequenza ma una

serie di dati che il programma ricava (ad esempio, composizione amminoacidica o idrofobicità).

Fasta3 permette di fare una ricerca in banca dati usando l‟algoritmo FASTA e tutte le sue varianti.

SAMBA usa l‟algoritmo di Smith & Waterman usando un array di 128 processori ed una

architettura completamente dedicata.

Tra i metodi dedicati alla predizione della topologia si devono considerare Psort e TargetP che

predicono il compartimento cellulare in vui una proteina potrebbe trovarsi (ad es. citoplasma,

membrana, nucleo).

Page 86: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

86

Tutti gli altri programmi elencati di seguito servono ad evidenziare e studiare le caratteristiche

chimicofisiche degli amminoacidi presenti in una sequenza proteica.

Colorseq colora gli amminoacidi (idrofili, idrofobici, carichi positivamente o

negativamente,aromatici)

ThreetoOne converte gli amminoacidi dalla nomenclatura tre lettere a quella ad una lettera

ProtScale calcola l‟idrofobicità degli amminoacidi in una sequenza

SYFPEITHI – predice i siti di binding di peptidi con MHC type I and II

Coils predice regioni random coil in proteine

Compute pI/MW valuta il punto isoelettrico (pH a cui la carica netta è 0) ed il peso molecolare

ProtParam che valuta il numero di amminoacidi, il punto isoelettrico, il peso molecolare, la

composizione amminoacidica, la composizione in atomi, la formula chimica.

Page 87: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

87

Ricerche di pattern in sequenze proteiche e nucleotidiche

Un motivo di interesse biologico (o definito pattern) è costituito da un insieme di caratteri

(nucleotidi o amminoacidi) non necessariamente contigui nella sequenza ma che si trovano sempre

o sono spesso associati ad una precisa struttura e funzione biologica (ad esempio: promotori o

hanno la stessa capacità di legare nucleotidi).

La bioinformatica si occupa di sviluppare metodi per il riconoscimento di pattern di interesse

biologico e di curare banche dati in cui tali pattern siano organizzati e resi disponibili per l‟analisi

strutturale e funzionale di nuove sequenze.

Per calcolare l‟affidabilità di un motivo, si possono utilizzare dei parametri che si calcolano a

partire dal numero di veri positivi (VP), veri negativi (VN), falsi positivi (FP) e falsi negativi (FN)

che il motivo seleziona in una banca dati di controllo in cui sia nota da evidenze sperimentali

l‟identità dei VP e dei VN.

In particolare, la sensitività è una misura di quale sia la proporzione di sequenze della famiglia

selezionate dal motivo; la selettività misura la proporzione di sequenze della famiglia sul totale

delle sequenze selezionate dal motivo; la specificità misura la proporzione di sequenze che non

fanno parte della famiglia e che non vengono selezionate dal motivo.

Ricerca di pattern e di motivi funzionali in sequenze proteiche

Le proteine possono essere raggruppate in un numero limitato di famiglie sulla base della similarità

di sequenze. Le proteine ed i domini proteici appartenenti ad una stessa famiglia condividono

attributi funzionali e strutturali derivanti da un progenitore comune.

Dallo studio di allineamenti multipli di sequenze appartenenti ad una stessa famiglia è evidente che

alcune regioni sono più conservate di altre: queste regioni conservate sono in generale importanti

per la funzione e la struttura di una proteina.

Page 88: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

88

Analizzando le regioni costanti e variabili in un allineamento multiplo è possibile identificare un

motivo che possa servire alla classificazione funzionale delle proteine che lo contengono.

La banca dati PROSITE raccoglie più di 1600 motivi proteici associati ad una determinata struttura

e funzione. Ogni motivo è catalogato insieme con una approfondita documentazione di carattere

bibliografico.

Questa banca dati contiene motivi codificati in due modi diversi: i pattern e le matrici (o profili).

Le matrici sono definite facendo ricorso alle matrici posizionali di peso mentre i pattern sono motivi

definiti con una sintassi riconducibile ad espressioni regolari.

La sintassi di PROSITE:

- x indica la posizione in cui ciascun residuo viene accettato;

- tra le parentesi [ ] sono indicati i residui consentiti in una posizione;

- tra le parentesi { } sono indicati i residui NON consentiti in una posizione;

- la ripetizione di un elemento può essere indicata con un numero o con una coppia di numeri

indicante gli estremi in parentesi.

Quindi

x2 significa x-x

x(2,4) significa x-x oppure x-x-x oppure x-x-x-x

Per poter automatizzare le ricerche di pattern all‟interno delle banche dati sono stati sviluppati

alcuni metodi di apprendimento automatico. Questi metodi fanno predizioni estraendo informazioni

utili da un insieme di dati attraverso la costruzione di modelli probabilistici.

I metodi che sono più frequentemente utilizzati sono Reti Neurali, catene di Markov (HMM) ed

algoritmi genetici.

Page 89: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

89

Le reti neurali sono circuiti di informazioni con un numero fissato di nodi definiti STATI in cui

vengono immagazzinate le informazioni risultanti dalle varie interconnessioni. Questi nodi sono

organizzati secondo una precisa ARCHITETTURA che rappresenta l‟interconnessione tra i vari

nodi.

Se forniamo ad una rete neurale una informazione ed il suo risultato (training set), gli stati

memorizzano il modo di andare dall‟informazione al risultato sfruttando le varie interconnessioni.

Quindi se ripetiamo più volte la fase di training con set diversi, ma sempre veri, la rete sarà in grado

di arrivare da sola al risultato. Questa è quella che viene definita fase di apprendimento.

In questo modo se forniamo alla rete una informazione di cui non è noto il risultato, essa risponderà

fornendoci il risultato secondo lei più appropriato.

Una catena di Markov è una successione di numeri o di caratteri in cui ogni numero dipende solo

dai k numeri che lo precedono. k è definito come ordine della catena.

Questo tipo di modelli riesce a descriver le probabilità di trovare una data sequenza in un database

(per esempio contenente una serie di proteine multiallineate).

Gli algoritmi genetici sono metodi di ottimizzazione che utilizzano una strategia di esplorazione

delle possibili varianti simile a quella utilizzata dall‟evoluzione genetica.

Se consideriamo un problema che ha una soluzione dipendente da n parametri e da k valori,

un‟esplorazione completa richiederebbe kn operazioni.

Ma se noi sappiamo come si può evolvere il sistema (perché abbiamo un training set) per ricavare il

risultato, sappiamo che alcuni passaggi non sono possibili o non si sono mai verificati, e sappiamo

che ci sono percorsi che sono preferiti rispetto ad altri.

Page 90: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

90

Pertanto se viene sviluppato un algoritmo che rispetti gli schemi osservati e viene calcolato per ogni

passaggio un valore di attendibilità (definito fitness), potremo arrivare in un certo numero di cicli ad

avere un risultato che abbia un valore fitness ottimale.

Ricerca di pattern e di motivi funzionali in sequenze nucleotidiche

Non ci sono strumenti che possono essere utilizzati indifferentemente per l‟analisi di una qualsiasi

sequenza nucleotidica. Infatti alcuni programmi sono stati sviluppati per un organismo specifico o

per un numero limitato di organismi e ciò implica che non possono essere usati per analizzare ogni

tipo di sequenza ma solo sequenze specifiche

Inoltre, per tutte le sequenze è necessario un filtro che escluda dall‟analisi le sequenze ripetitive.

Grande parte del DNA è costituito da sequenze di DNA ripetute che non fanno parte di regioni

codificanti. Queste sequenze devono essere eliminate perché possono interferire con le misure di

similarità biologicamente significative nel corso delle ricerche in banche dati.

Per risolvere questo tipo di problema ci sono due programmi: CENSOR e RepeatMasker.

Questi due programmi accedono a raccolte di sequenze di DNA ripetute ed operano un confronto

con le sequenze sottomesse al programma riuscendo ad identificare le sequenze ripetute presenti e

le sottraggono dalla ricerca.

Molti altri programmi sono stati sviluppati per analizzare le sequenze nucleotidiche:

Promoter Scan ricercare i promotori eucaristici. Infatti, la predizione dei promotori è importante per

l‟identificazione di sequenze geniche codificanti e per la corretta assegnazione di esoni tra i geni

situati nella stessa porzione del cromosoma.

NetGene e GenScan permettono di ricercare i siti di giunzione tra introni ed esoni. Un gene è

costituito da una sequenza codificante interrotta da sequenze non codificanti (dette introni). I geni

sono combinazioni di corti esoni ed introni di lunghezza variabile. Il termine esoni si applica a tutte

Page 91: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

91

le regioni che non sono eliminate nel corso di maturazione del RNA [cioè le regioni non tradotte al

5‟ dei geni, quelle codificanti vere e proprie (CDS) e le regioni non tradotte al 3‟]. Pertanto

identificare i siti di giunzione tra introni ed esoni è necessaria per una corretta predizione della

struttura di un gene.

GeneMark permette di identificare i siti di inizio della traduzione. Il codone di inizio è in generale

(anche se non sempre) il codone AUG che codifica per la Metionina.

GRAIL permette l‟identificazione dei segnali di poliadenilazione e di terminazione della traduzione.

La più nota sequenza segnale coinvolta nella poliadenilazione è AATAAA

SPIDEY ci permette di determinazione la struttura di un gene. Il risultato in SPIDEY mostrerà la

struttura del gene esaminato cioè il numero di esoni che lo costituiscono

Page 92: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

92

Necessità dei metodi di predizione di struttura delle proteine

L‟organizzazione strutturale delle proteine è generalmente rappresentata mediante una successione

di livelli organizzativi: la struttura primaria è determinata dalla sequenza di amminoacidi, la

struttura secondaria è caratterizzata da ripiegamenti locali della catena di amminoacidi con

caratteristiche di periodicità riconoscibili (quali alfa eliche e strutture beta), la struttura terziaria

descrive l‟avvolgimento complessivo della proteina nello spazio tridimensionale. Infine, la struttura

quaternaria descrive l‟associazione di più catene proteiche a formare proteine oligomeriche.

E‟ noto che le diverse strutture primarie determinano la formazione di strutture terziarie che

differiscono sia per le caratteristiche della superficie (ad esempio la presenza di cavità o di

sporgenze), sia per le caratteristiche chimiche degli atomi e dei gruppi funzionali esposti sulla

superficie (proprietà acide, basiche, polari, apolari etc.). Viene generalmente definita come

conformazione “attiva” o “nativa” di una proteina quella conformazione che consente alla proteina

di svolgere la sua funzione principale. Tuttavia anche altre conformazioni, non necessariamente

correlate ad una funzione, possono risultare stabili e predominanti in determinate condizioni

ambientali. La conformazione spaziale di una proteina è infatti il risultato di un delicato equilibrio

energetico, a cui contribuiscono le interazioni tra i gruppi funzionali della catena principale e delle

catene laterali, ma anche l‟interazione con altre molecole quali l‟acqua e ligandi in genere, e fattori

entropici. Tale equilibrio è sensibile alle condizioni ambientali quali temperatura, forza ionica,

acidità, polarità del solvente, e alla presenza di altre molecole, proteiche e non. Tutti questi fattori

possono quindi alterare o modulare la struttura della proteina, che è strettamente correlata alla sua

funzione. E‟ quindi fondamentale la conoscenza della struttura tridimensionale di una proteina ai

fini di una completa comprensione del meccanismo molecolare con cui essa agisce. La

comprensione di tale meccanismo è a sua volta essenziale per interpretare fenomeni quali patologie

dovuti al malfunzionamento della proteina, oppure per progettare modifiche strutturali che ne

Page 93: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

93

migliorino le proprietà (ingegneria proteica) per eventuali applicazioni in processi biotecnologici, o

infine per progettare ligandi specifici che possano eventualmente agire come farmaci. Tuttavia,

mentre la struttura tridimensionale è stata determinata solo per poche decine di migliaia di proteine,

sono state determinate oltre due milioni di sequenze di amminoacidi, mediante il sequenziamento

diretto delle proteine oppure per traduzione delle sequenze di acidi nucleici (sequenziamento

indiretto). Il “principio di Anfinsen” suggerisce che la proteina, data la successione di amminoacidi

che la caratterizza, è in grado di assumere la struttura tridimensionale “nativa” da sola, guidata

evidentemente da precise regole, a noi non ancora del tutto note. L‟interpretazione più completa del

problema indica che la molecola proteica, sintetizzata dalla cellula come un sequenza lineare di

amminoacidi, si ripiega in modo da assumere la forma che è energeticamente favorita, ovvero la

conformazione a minore energia. Ma, in aggiunta a tali considerazioni, il cosiddetto “paradosso di

Levinthal” ci dice che se una proteina, al momento della sua sintesi, dovesse esplorare tutte le sue

possibili conformazioni per valutare quale corrisponde alla minima energia, impiegherebbe un

tempo enorme per “individuare” la forma da assumere, mentre nella realtà ciò avviene in tempi

brevissimi. Evidentemente, le regole che guidano il ripiegamento della proteina sono tali da riuscire

anche a individuare un percorso rapido che esclude la stragrande maggioranza delle conformazioni

della proteina teoricamente possibili. Gli studi sui meccanismi di ripiegamento delle proteine

mirano quindi a individuare tutte queste regole (o quanto meno il più possibile) così da poter predire

la struttura tridimensionale di una proteina applicando tali regole alla sequenza di amminoacidi che

la caratterizza.

Page 94: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

94

Predizione della struttura secondaria

Negli anni „70, le prime predizioni di struttura sono state rese possibili dalle analisi statistiche

realizzate sulle prime strutture di proteine risolte mediante cristallografia. Analizzando un piccolo

numero di strutture (poche decine), si osservò che la distribuzione dei diversi amminoacidi nelle

diverse strutture secondarie (alfa elica, struttura beta e altro) non è casuale: alcuni amminoacidi

ricorrono più frequentemente in alcune strutture secondarie e meno in altre. Sulla base di queste

valutazioni sono nati i primi metodi, basati sul calcolo della propensione media degli amminoacidi

che si susseguono nella struttura primaria, valutata per brevi segmenti lungo tutta la sequenza

(Metodo di Chou and Fasman e metodo di GOR). Questi metodi avevano una attendibilità di circa il

50%, il che vuol dire che per il 50% degli amminoacidi veniva correttamente predetta la struttura

secondaria, in uno schema che prevedeva generalmente tre stati (struttura alfa, struttura beta, altro)

o in alcuni casi quattro (struttura alfa, struttura beta, “turn”, altro).

Con il passare degli anni, è aumentato il numero di proteine la cui struttura era stata risolta

sperimentalmente e ciò ha permesso di avere valutazioni statistiche basate su campioni sempre più

ampi. Al tempo stesso si sono sviluppati altri metodi in cui la propensione degli amminoacidi per le

diverse organizzazioni di struttura secondaria veniva definita sulla base non solo di parametri

statistici ma anche di proprietà chimico-fisiche quali l'idrofobicità o il volume.

Mentre i diversi approcci predittivi venivano nel tempo migliorati, si osservava anche che

l'applicazione di più metodi e il confronto dei diversi risultati consentivano una predizione più

accurata di quella ottenibile con i singoli metodi. Tutto ciò portò, nella seconda metà degli anni '80,

a poter predire la struttura secondaria di una proteina con un‟attendibilità del 60-65 %.

La successiva evoluzione delle predizioni di struttura secondaria è dovuta alla sviluppo di metodi

computazionali più sofisticati, basati su sistemi di reti neurali che hanno consentito di realizzare

programmi capaci di “apprendere” dagli esempi noti di strutture proteiche e “applicare” le

Page 95: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

95

conoscenze acquisite ai nuovi casi di studio. Tali metodi hanno consentito di arrivare a predire la

struttura secondaria con attendibilità superiore al 70%. Con alcune variazioni ed evoluzioni di

questi ultimi metodi, attualmente considerati i più affidabili, si arriva oggi ad una attendibilità

intorno all‟80%, con punte del 90%. Tra questi metodi ci sono PHD, PSIPRED e JPred.

Page 96: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

96

Predizione della struttura tridimensionale

La predizione della struttura secondaria non è sufficiente per capire in pieno la funzione della

proteina, correlata principalmente alla struttura terziaria. Tuttavia, con il progressivo aumento del

numero di proteine di cui è stata determinata sperimentalmente la struttura tridimensionale, è stato

possibile realizzare analisi strutturali e studi statistici da cui sono scaturite conoscenze e teorie alla

base di alcuni metodi di predizione della struttura terziaria. Ad esempio, si è osservato che proteine

aventi sequenze di amminoacidi simili hanno anche una organizzazione tridimensionale simile.

Anche somiglianze di tipo funzionale sono correlate a somiglianze strutturali.

L'architettura complessiva della proteina non dipende strettamente dalla precisa posizione ed

estensione dei singoli elementi di struttura secondaria, ma piuttosto dall'ordine con cui essi si

succedono lungo la sequenza. Su queste basi, si può considerare che due proteine possono avere

organizzazione tridimensionale sostanzialmente simile se hanno una identità di sequenza maggiore

del 40%, il che corrisponde generalmente anche ad una funzione simile.

Attualmente, la strategia di predizione che produce i migliori risultati utilizza come modello di

riferimento la struttura tridimensionale nota di una proteina avente una sequenza di amminoacidi

sufficientemente simile a quella della proteina a struttura ignota. Questo metodo, indicato come

“modellamento per omologia” o “modellamento comparativo”.

Page 97: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

97

Modellamento comparativo

Una volta identificato un modello tridimensionale valido come riferimento (detto “templato”),

questa strategia di modellamento prevede che si effettui l'allineamento delle due sequenze, la

creazione di un modello tridimensionale sulla base del templato, un‟ottimizzazione della sua

conformazione e controlli strutturali ed energetici per verificare la qualità del modello ottenuto. La

fase più delicata di questa strategia è l‟allineamento della sequenza della proteina da modellare con

la sequenza della proteina a struttura nota. Allineare le due sequenze è infatti un‟operazione

relativamente semplice quando le due proteine sono molto simili, mentre risulta un‟operazione

molto delicata quando la somiglianza è bassa perchè è necessario inserire delle interruzioni nelle

sequenze per ottenere il migliore allineamento possibile. Per ogni interruzione nell‟allineamento

delle due sequenze, nel costruire il modello ci sarà una regione da predire senza avere un

riferimento strutturale nel templato, oppure da eliminare rispetto al templato; in entrambi i casi, si

vengono a creare delle considerevoli alterazioni nel modello in costruzione rispetto a quello di

riferimento. Per questo motivo, nell‟allineamento delle sequenze va ben valutata la posizione in cui

si inseriscono delle interruzioni, tenendo conto ad esempio che queste inserzioni creano meno

problemi se avvengono in regioni a struttura secondaria non definita.

Informazione

minima necessaria:

Sequenza della

proteina

SI NO

Modellamento

per omologia

Allineamento sequenze

Costruzione del

modello sul riferimento

della struttura nota

La sequenza in

esame è

compatibile

con una

struttura 3D

nota?

Fold

recognition

Modellamento

“ab initio”

Verifica

della

qualità

del

modello

Esistono

proteine con

sequenza simile

e struttura 3D

nota ?

SI

NO

Page 98: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

98

Il modellamento prosegue poi costruendo la struttura della proteina sulla base dell‟avvolgimento

della catena principale della proteina di riferimento: esistono strategie e software specializzati che

permettono di creare la struttura tridimensionale e di ottimizzarla.

Ovviamente, il modello ottenuto avrà una struttura della catena principale molto simile a quella del

templato.

I programmi comunemente usati per il modellamento comparativo sono Modeller e SwissModel.

Il modellamento per omologia non è applicabile quando la proteina in esame non risulta

sufficientemente somigliante ad alcuna proteina di cui sia già nota la struttura tridimensionale. In tal

caso, è possibile utilizzare altre strategie (Fold recognition e Folding ab-initio).

Fold recognition o riconoscimento del ripegamento

Questo metodo verifica quanto una data sequenza di amminoacidi sia “adatta” ad un determinato

avvolgimento della catena principale, e se attribuendo una “forma” a quella sequenza, il modello

ottenuto è compatibile con dei requisiti di stabilità. La sequenza in esame viene confrontata con tutti

gli avvolgimenti noti e si ottiene una tabella di valori energetici e statistici da cui si può valutare

quale avvolgimento è “più adatto” ad essa. In questa valutazione, non basta semplicemente

osservare i parametri derivanti dalle procedure di calcolo e modellamento, ma bisogna anche tenere

conto di altri aspetti, sia di tipo strutturale (ad esempio il miglior avvolgimento trovato può

corrispondere ad una proteina con caratteristiche strutturali incompatibili con quelle

sperimentalmente note della nostra proteina) sia di tipo funzionale (l'avvolgimento più adatto

corrisponde ad una funzione non compatibile con le funzioni note della nostra proteina). Questo

ultimo aspetto può portare sia a cercare nuove funzioni nella proteina in esame, sia a cercare un

altro avvolgimento, forse meno adatto sul piano strutturale ma più compatibile su quello funzionale.

Una volta individuato l'avvolgimento più adatto alla sequenza in esame, e quindi un modello da

usare come riferimento, si procede come già visto per il modellamento per omologia: si allineano le

Page 99: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

99

due sequenze, si sostituiscono nel modello di riferimento le catene laterali, si ottimizza la struttura

complessiva e si verifica la qualità del modello. Sono molto utili in questa fase i risultati delle

predizioni di struttura secondaria. Infatti, l'allineamento delle sequenze di amminoacidi può essere

ottimizzato in base all'allineamento degli elementi di struttura secondaria. Come già accennato

prima, l'architettura complessiva della proteina è determinata da come le strutture secondarie si

susseguono lungo la sequenza: il modello tridimensionale risulta perciò tanto più attendibile quanto

più metodi diversi vengono abbinati (allineamento di sequenze, predizioni di struttura secondaria,

modellamento molecolare) e quanto più i singoli metodi risultano attendibili.

I programmi più usati per il riconoscimento del fold sono: 3D-PSSM, FUGUE, SAMT02, FFAS03.

Metodi ab-initio

Quando il modellamento per omologia ed il riconoscimento del fold non sono applicabili è possibile

utilizzare i metodi “ab initio” che non si basano sull‟osservazione di proteine note ma ricercano le

conformazioni di minima energia. Questi metodi possono essere concettualmente considerati come

simulazioni virtuali del processo di ripiegamento, e sono attualmente in forte evoluzione. Essi in

genere prevedono alcuni passaggi obbligati, tra cui la scelta di una rappresentazione semplificata

della catena polipeptidica, la definizione di funzioni energetiche adatte per modellare le forze

chimico-fisiche che agiscono sulla proteina, e strategie per creare la catena polipeptidica con la più

bassa energia (quindi presumibilmente la più stabile). Allo stato attuale, si registrano alcuni

promettenti risultati nella predizione di strutture di piccole proteine (70-100 amminoacidi) [13].

D'altra parte, i risultati di una predizione “ab-initio” sono comunque affetti da un margine di

imprecisione tale da rendere preferibili, se possibile, strategie con cui, mediante approssimazioni

permesse da considerazioni basate sullo studio delle strutture tridimensionali note, sia possibile

Page 100: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

100

semplificare la complessità dei calcoli e raggiungere al tempo stesso un modello tridimensionale

sufficientemente attendibile, sia pure non utilizzabile per studi che richiedano una definizione della

struttura a risoluzione elevata.

I metodi comunemente usati sono: Robetta server, HMMSTR.

Valutazioni sui modelli

La verifica del modello ottenuto per predizione costituisce una fase di enorme importanza dato che

fornisce una valutazione dell‟attendibilità del risultato ottenuto. E‟ indispensabile valutare diversi

elementi del modello, perciò sono state sviluppate nel tempo diverse metodiche, che sono

ovviamente applicabili anche a strutture determinate tramite metodi sperimentali. Tra queste,

spiccano per importanza i programmi che consentono la valutazione delle caratteristiche

stereochimiche della catena proteica, accertando che siano assenti, ad esempio, caratteristiche

strutturali non compatibili con gli angoli di torsione che una catena proteica può assumere

(Procheck). Altri metodi valutano i profili energetici dei modelli, che individuano zone in cui valori

particolarmente elevati indicano errori o bassa qualità nel modellamento (Errat, Prosa). Infine,

quando possibile, è utile paragonare il modello predetto per una proteina con qualsiasi dato

sperimentale relativo ad aspetti strutturali e funzionali, come spettri di dicroismo circolare, oppure

caratteristiche di esposizione al solvente per specifici amminoacidi, ed altro, così da ricavare

informazioni utili per confermare o rifiutare il modello ottenuto.

Page 101: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

101

CASP

Una valutazione dell‟affidabilità di questi metodi (modellamento per omologia, metodo di

riconoscimento di fold, metodi ab-initio) viene fatta ogni due anni dalla comunità scientifica

internazionale che ha istituito nel 1994 un esperimento chiamato CASP (Critical Assessment of

Methods for Protein Structure Prediction). Questo esperimento valuta l‟efficacia di un metodo,

confrontando la predizione con un risultato sperimentale. In pratica, ogni due anni viene chiesto a

cristallografi ed a spettroscopisti NMR, che stanno per risolvere la struttura di una proteina, di

rendere disponibile la sua sequenza. Queste sequenze (target) vengono assegnate ad una serie di

predittori che devono depositare i loro modelli prima che la struttura sia resa pubblica. Un insieme

di valutatori (assessors) confronta i modelli e le strutture, appena queste ultime sono rese

disponibili, e cerca di valutare le predizioni e di trarre conclusioni generali. I risultati vengono, poi,

discussi in un convegno dove i valutatori ed i predittori si incontrano per discutere dei risultati.

Dai risultati del CASP5 si può avere una valutazione dell‟accuratezza raggiunta dai tre metodi. Il

modellamento comparativo è risultato ancora il metodo predittivo più affidabile. Ottimi risultati

sono stati ottenuti soprattutto per le zone strutturalmente conservate (definite come “core”) della

proteina target. I limiti maggiori restano sempre quelli del modellamento delle catene laterali e dei

loop; infatti, molti metodi sono stati sviluppati ma i risultati non sono ancora positivi. Sono stati

ottenuti buoni risultati, nel caso di bassa percentuale di identità di sequenza tra la proteina target e

quella/e template, migliorando l‟allineamento mediante i modelli di Markov ed i metodi basati sui

profili.

Gli esperimenti del CASP prevedono anche una sezione di valutazione di server automatici

(CAFASP). Molti sono stati i server automatici di modellamento per omologia, che hanno ottenuto

risultati migliori della media dei predittori ma è anche da sottolineare che per lo stesso target si sono

registrate sia predizioni di ottima qualità sia predizioni completamente improbabili. Lo stesso si può

Page 102: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

102

dire per il metodo del riconoscimento di fold. Alcune volte i modelli ottenuti per riconoscimento di

fold sono risultati più simili alla struttura sperimentale di qualunque delle strutture presenti nella

banca dati.

Inoltre, i predittori, che hanno ottenuto i migliori risultati, hanno combinato i loro metodi ed hanno

organizzato un paio di convegni per poter discutere dei risultati ottenuti. Le proteine per cui si è

riusciti ad avere risultati migliori, sono state quelle su cui uno dei partecipanti lavorava

sperimentalmente. Ciò ha fatto dedurre che un qualsiasi metodo funziona meglio se è abbinato ad

una approfondita conoscenza delle caratteristiche biologiche delle proteine.

Per quanto riguarda i metodi ab-initio, dai risultati del CASP5 si è potuto dedurre che nessuno dei

metodi (minimizzazione, dinamica molecolare, Monte Carlo, algoritmi genetici) è in grado di

trovare la conformazione a minima energia di una proteina. Ma la combinazione di questi metodi

può dare buoni risultati per predire strutture di frammenti proteici. Il metodo di maggior successo

nella categoria dei metodi ab-initio sia nel CASP4 sia nel CASP5 è stato il metodo ROSETTA. In

questo metodo, la sequenza di una proteina target viene divisa in frammenti contigui di 3 e 9

amminoacidi. Tutti i frammenti di proteine di struttura nota che hanno sequenze uguali o simili a

queste regioni vengono combinati, utilizzando il Metodo di Monte Carlo, al fine di predire la

possibile conformazione della proteina target.

Page 103: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

103

DOCKING

Quando è nota la struttura di due proteine e si sa che esse interagiscono, predire la loro orientazione

relativa nel complesso rappresenta un problema non facile da risolvere. La simulazione fatta in

silico della formazione del complesso molecolare a partire dalle strutture tridimensionali delle

proteine, che lo compongono, viene definita con il termine docking.

Il problema maggiore relativo alla predizione delle interazioni proteina-proteina è che la struttura

delle proteine in un complesso è abbastanza diversa da quella assunta dalle stesse proteine nella loro

forma libera soprattutto nelle regioni dell‟interazione. Ciò è certamente dovuto al fatto che le catene

laterali dei residui delle proteine sono relativamente mobili e talora seguono il formarsi del

complesso con movimenti che determinano una migliore complementarità tra i residui delle

proteine interagenti. Questi movimenti coinvolgono non solo le catene laterali dei residui ma

talvolta comportano anche spostamenti di interi segmenti di strutture secondarie.

Diversi metodi di docking sono stati sviluppati (DOCK, AUTODOCK, FlexX, ESCHER) sia per la

ricostruzione di complessi proteina-proteina sia per l‟analisi di complessi tra proteine e ligandi. Il

docking è molto utilizzato anche per la ricerca di nuovi inibitori di una proteina data mediante

l‟utilizzo di banche dati di possibili ligandi. I metodi, finora sviluppati, si basano o su criteri

geometrici o energetici. I metodi energetici sfruttano il fatto che le proteine formano complessi

poiché questi sono energeticamente favoriti mentre quelli geometrici si basano sulla considerazione

che le superfici di interazione delle due proteine, che formano il complesso, devono essere

complementari.

Una valutazione delle procedure di docking proteina-proteina, finora sviluppate, viene fatta

periodicamente mediante un esperimento, analogo a quello del CASP, denominato CAPRI (Critical

Assessment of PRedicted Interactions). Proprio come per il CASP, le predizioni vengono fatte e

confrontate con le strutture dei complessi, ottenute mediante diffrazione ai Raggi X, prima che

Page 104: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

104

queste vengano rese pubbliche. Dall‟ultima edizione (CAPRI round 3) è emerso che molti metodi di

docking trattano i componenti molecolari come corpi rigidi, mentre altri fanno ciò solo nei primi

passaggi della simulazione, in modo da eliminare le soluzioni più improbabili, e poi modellano le

catene laterali e/o il backbone (catena principale). Il maggiore limite di questi metodi è nel fatto che

essi, quando tentano di predire strutture di complessi, raramente sono in grado di fornire una sola

soluzione. Infatti, la maggior parte delle volte forniscono una lista di possibili modi di interazioni e

scegliere la migliore tra queste non è facile. Recentemente, analizzando strutture di complessi note,

si è cercato di studiare quali possono essere i parametri legati all‟interfaccia proteina-proteina. Ma

eccetto l‟ampiezza dell‟interfaccia, che, in generale anche se non sempre, tende ad essere più larga

nei complessi biologicamente attivi, altri parametri, come il numero di legami ad idrogeno per unità

di superficie e le propensità di contatto tra residui, non sono risultati discriminatori.

Per la predizione dell‟interazione proteina-proteina sono stati ottenuti buoni risultati combinando i

metodi di docking con i due approcci classici, modellamento per omologia e threading, i quali

rappresentano una strategia integrata, capace di predire i siti di interazione, i contatti tra i residui e,

nei casi più fortunati, anche un modello dettagliato del complesso. Infatti, questi due metodi usano

la struttura di un complesso noto come riferimento (template) per costruire il modello del complesso

target. Però il limite di questo approccio è certamente legato alla percentuale di somiglianza, che c‟è

tra le proteine target e quelle template. Russell ed i suoi collaboratori hanno recentemente

dimostrato che proteine con una percentuale di omologia pari al 30-40% interagiscono allo stesso

modo mentre il modo di interagire è raramente conservato per proteine con percentuale di identità

di sequenza più bassa.

Page 105: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

105

Lista di Link utili usati durante le Esercitazioni:

BLAST: http://www.ncbi.nlm.nih.gov/blast/

BoxShade: http://www.ch.embnet.org/software/BOX_form.html

CATH: http://www.cathdb.info/latest/index.html

CSD: http://www.ccdc.cam.ac.uk/products/csd/

CENSOR: http://www.girinst.org/Censor_Server.html

CLUSTALW:http://www.ebi.ac.uk/clustalw/

DDBJ: http://www.ddbj.nig.ac.jp/Welcome-e.html

DIALIGN: http://bibiserv.techfak.uni-bielefeld.de/dialign/

DSSP: http://bioweb.pasteur.fr/seqanal/interfaces/dssp-simple.html

http://swift.cmbi.ru.nl/gv/dssp/

EBI: http://www.ebi.ac.uk

ELM: http://elm.eu.org/

EMBL: http://www.ebi.ac.uk/embl/

EMBnet: http://www.embnet.org

EMBOSS: http://emboss.sourceforge.net/

EMBOSS (Pairwise Alignment Algorithm): http://www.ebi.ac.uk/emboss/align/

ENSEMBL : http://www.ensembl.org/index.html

Entrez: http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi

Expasy: http://www.expasy.org

FASTA: http://www.ebi.ac.uk/fasta33/

http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=select&pgm=fap

GenBank: http://www.ncbi.nlm.nih.gov/Genbank/

Page 106: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

106

GeneDoc: http://www.psc.edu/biomed/genedoc/

GeneMark: http://exon.gatech.edu/GeneMark/genemark_prok_gms_plus.cgi

GenomeScan http://genes.mit.edu/genomescan.html

GenScan: http://genes.mit.edu/GENSCAN.html

Gibbs Sampler: http://bayesweb.wadsworth.org/gibbs/gibbs.html

GRAIL: http://compbio.ornl.gov/Grail-1.3/

HMMER: http://bioweb.pasteur.fr/seqanal/motif/hmmer-uk.html

HSSP: http://swift.cmbi.kun.nl/gv/hssp/

KALIGN http://msa.cgb.ki.se/cgi-bin/msa.cgi

InterPro: http://www.ebi.ac.uk/interpro/

ITERALIGN: http://giotto.stanford.edu/~luciano/iteralign.html

LALIGN: http://www.ch.embnet.org/software/LALIGN_form.html

MMDB: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure

MEME: http://meme.sdsc.edu/meme/website

Multalin http://bioinfo.genopole-toulouse.prd.fr/multalin/multalin.html

NCBI: http://www.ncbi.nlm.nih.gov:8000

NDB: http://ndbserver.rutgers.edu/

NetGene: http://genome.cbs.dtu.dk/services/NetGene2/

PDB: http://www.rcsb.org/pdb/home/home.do

PDBsum: http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/

PIR: http://pir.georgetown.edu

PrettyPlot: http://www.ocgc.on.ca/programs/emboss/prettyplot.html

PRODOM: http://prodom.prabi.fr/prodom/current/html/form.php?typeform=KW

PromoterScan: http://www-bimas.cit.nih.gov/molbio/proscan/

PROSITE: http://www.ebi.ac.uk/ppsearch/

Page 107: MATERIALE DIDATTICO - unina.stidue.netunina.stidue.net/Bioinformatica/Slide Bioinformatica/Materiale... · interpretando le istruzioni prelevate in sequenza dalla memoria centrale

POR Campania 2000-2006 Misura 3.22 Attuazione azione i

Corso di Bioinformatica Codice Corso 57-003

107

http ://www.expasy.org/prosite/

PSORT http://psort.nibb.ac.jp/form2.html

PUBMED: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed

RAGA http://ugs-server.cnrs-mrs.fr/~cnotred/Projects_home_page/raga_home_page.html

ReadSeq: http://iubio.bio.indiana.edu/soft/molbio/readseq/java

RepeatMasker http://www.repeatmasker.org

SAGA http://ugs-server.cnrs-mrs.fr/~cnotred/Projects_home_page/saga_home_page.html

Sanger: http://www.sanger.org

ScanProsite http://www.expasy.org/tools/scanprosite/

SCOP: http://scop.mrc-lmb.cam.ac.uk/scop/

SeaView: http://pbil.univ-lyon1.fr/software/seaview.html

SIB http://www.isb-sib.ch

SignalIP http://www.cbs.dtu.dk/services/SignalIP

SPIDEY: http://www.ncbi.nlm.nih.gov/IEB/Research/Ostell/Spidey/

SRS: http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+srsq2+-noSession

SWISSPROT: http://www.ebi.ac.uk/swissprot/access.html

TCOFFEE http://www.ch.embnet.org/software/TCoffee.html

TREMBL: http://www.ebi.ac.uk/trembl/access.html

UNIPROT: http://www.pir.uniprot.org

WebLogo: http://www.bio.cam.ac.uk/cgi-bin/seqlogo/logo.cgi