L’espressione genica e il trascrittoma
Trascrittoma
Insieme degli RNA messaggeri prodotti da
una determinata popolazione cellulare.
Per ogni tipo cellulare diverso sono
espressi all’incirca 10000 geni diversi.
Proteoma
Insieme delle proteine prodotte da una
determinata popolazione cellulare.
Genoma
Insieme delle informazioni genetiche che caratterizzano un organismo.
Differenziamento cellulare
ESPRESSIONE DEL GENOMA UMANO NELLE
CELLULE DIFFERENZIATE
• Tutte le cellule di un organismo hanno lo stesso
corredo genomico
• L’espressione genica tessuto specifica determina il
fenotipo morfo-funzionale dei tipi cellulari e
tissutali
• In ogni cellula differenziata ed in ogni particolare
momento dello sviluppo e’ attivo solo un
sottoinsieme di geni
Geni ad espressione costitutiva
(housekeeping)
Geni ad espressione condizionale
(inducibili, reprimibili)
Geni specializzati (tessuto-specifici,
stadio-specifici, che a loro volta possono
essere costitutivi o condizionali)
In tutti gli organismi viventi le informazioni contenute
nel genoma non si esprimono contemporaneamente, e
sono finemente regolate
REGOLAZIONE DELL’ESPRESSIONE GENICA
• Puo’ agire su ciascuno dei livelli che caratterizzano il
passare dell’informazione genica dal DNA alle proteine
• Negli Eucarioti superiori la regolazione dell’espressione
genica si svolge principalmente come controllo della
trascrizione
• Principali tipi di regolazione:
Controllo epigenetico
Controllo trascrizionale
Controllo post-trascrizionale
Attivazione/inattivazione dell’espressione
genica negli eucarioti:
• Decisioni cellulari durante lo sviluppo: ad es. differenziamento (geni accesi/spenti)
• Regolazione del ciclo cellulare (attivazione e inattivazione ciclica)
• Attivazione cellulare in risposta a mediatori esterni quali fattori di crescita, ormoni etc. (reversibile, rapida)
“One-gene approach”
Il gene di interesse e’ espresso in un tessuto o in un dato momento
dello sviluppo ? Quanto e’ attivo dal punto di vista trascrizionale ?
Profilo d’espressione del genoma
(TRASCRITTOMA)
Quali geni sono espressi in un tessuto ed in un dato momento dello
sviluppo ? Quanto ciascuno di essi e’ attivo dal punto di vista
trascrizionale ?
“Large-scale approach”
Real Time PCRPCR semiquantitativaIbridazione DNA genico o cDNA con RNA
totale o poly(A)+RNA (Northern blot)Ibridazione in situ
Metodi per lo studio su larga scala
dell’espressione genica
� Sequenziamento sistematico di ESTs da librerie di
cDNA
� cDNA microarrays
� SAGE (Serial Analysis of Gene Expression)
Preparazione librerie cDNA
Clonati in
batteri
� Il sequenziamento del DNA “codificante” si basa sulla
purificazione dell'RNA messaggero da cellule o da
campioni di tessuto e sulla sua retrotrascrizione in vitro
in una sequenza di DNA complementare (cDNA).
� In genere i cDNA vengono frammentati e clonati in
vettori batterici. Si ottengono in questo modo delle
collezioni di batteri, nelle quali ogni colonia contiene un
inserto corrispondente ad un frammento di sequenza di
un gene espresso, dette librerie di cDNA.
Sequenziamento librerie cDNA
AAAAA
cDNA a doppio
filamento
TTTTTRT
AAAAA
TTTTTRT
RTAAAAA
TTTTT
Il primer oligo
dT lega mRNA
La trascrittasi
inversa copia il
primo strand di
cDNA
La RT digerisce e
stacca mRNA e
copia il secondo
strand cDNA
Conversione dell’mRNA in cDNA per trascrizione inversa
Sequenziamento librerie cDNA
Primers
universali
• Scoprire l’esistenza di nuovi geni
• Associare l’espressione di geni a linee cellulari e tessuti diversi
•Determinare la sequenza completa dei trascritti
5’EST 3’EST
� 200~500 nucleotidi
cDNA
sequencing sequencing
Cosa sono le Expressed Sequence Tags
(EST)?
Mapping back to
chromosome sequence
5’EST 3’EST
Chromosome
sequence
Cosa sono le Expressed Sequence Tags
(EST)?
• LeESTs sono piccoli frammenti di sequenze di DNA (200-500 nt) generati per sequenziamento di una o entrambe le estremità di un gene espresso. L’idea è sequenziare porzioni di DNA che rappresentano i geni espressi in determinate cellule, tessuti e organi da differenti organismi e usare queste “tags” per individuare un gene su una porzione di DNA cromosomico per appaiamento di basi. Identificare i geni con questo metodo può essere complicato dalla presenza di introni.
Cosa sono le Expressed Sequence Tags
(EST)?
Tipo di cDNA
N°
di cop
ieNormalizzazione delle librerie di cDNA
Tipo di cDNAN
° di cop
ie
Supponendo di avere il cDNA di 8 geni espressi con intensità diversa, mostriamo il
grafico dell’abbondanza di copie di cDNA prima e dopo la normalizzazione della
libreria.
Si perdono le informazioni sul livello di espressione dei geni, si usa per scoprire
nuovi geni.
Al fine di trovare con la stessa probabilità sia le sequenze abbondanti che quelle
rare si attua una normalizzazione delle librerie di cDNA. Per far questo si sfrutta il
fatto che i cDNA più abbondanti, si appaiano o ibridizzano più rapidamente e
possono essere rimossi dall’insieme di cDNA di partenza. In questo modo
l’insieme rimanente si svuota delle sequenze più abbondanti ovvero si arricchisce
di quelle più rare.
I microarray di cDNA
Esperimenti microarray
5 fasi:
• spotting del DNA sonda
• preparazione cDNA target
• ibridazione
• lettura (SCAN)
• analisi statistica e gestione
dati
• Identificazione della posizione
degli spot
• Costruzione di un’area locale
intorno ad ogni spot
• Calcolo dell’intensità di ogni
singolo spot (mediana
dell’intensità dei pixel)
• Calcolo del background locale
Acquisizione immagini da microarray cDNA
Come si misura l’espressione dei geni?
Metodo del campione di riferimento
Calcolare il rapporto tra le intensità della fluorescenza, dopo adatte
trasformazioni, per due campioni analizzati tramite ibridazione
competitiva sullo stesso microarray. Un campione funziona come
controllo, o “campione di riferimento” ed è marcato con un colorante
che ha uno spettro di fluorescenza diverso dall’altro.
Per convenzione una induzione (o repressione) dell’espressione genica
pari a due volte il livello di espressione nel campione di riferimento
indica un cambiamento significativo.
Gene 1
Gene 2
= malato
= sano
Metodo del campione di riferimento
•Normalizzazione per intensita' totale
•Normalizzazione con metodi di regressione
•Normalizzazione con metodi di rapporto
Molte variabili possono influire sui risultati è necessaria una
normalizzazione dei dati per eliminare distorsioni sistematiche
Normalizzazione dei dati
– efficienza diversa delle due marcature;
– diverse quantità di mRNA per un canale e per l’altro (Cy3 e Cy5);
– diversi parametri di scansione;
– bilanciamento dei laser;
– effetti di punte, effetti spaziali o di supporto.
Intensità totale: assume che la quantità iniziale di mRNA
sia identica nei due campioni.
Le fluttuazioni sono bilanciate in modo che
la quantità totale di RNA che si lega all’array
per ogni campione sia la stessa.
Nelle situazioni di sbilanciamento può essere
calcolato un fattore di normalizzazione in grado
di ricondurre alla situazione di uguale intensità
totale.
Metodo di regressione:Assume che usando mRNA di campioni
simili, la maggior parte dei geni sia espressa
allo stesso livello.
In uno scatterplot i geni si raggruppano
lungo una linea la cui pendenza è 1.
Prevede la ricerca della migliore
interpolazione con metodi di regressione
Metodo del rapporto:assume che la quantità totale di RNA
prodotto sia circa la stessa per geni essenziali
come gli housekeeping.
E’ possibile sviluppare una funzione di
probabilità approssimata per il rapporto tra
i due canali, utilizzata sia per normalizzare
i dati sia per identificare geni espressi
differenzialmente.
Matrice di dati
righe = espressione del singolo gene in diverse condizioni
colonne = rappresentano le condizioni analizzate
Ad ogni cella si assegna il valore relativo di espressione:
rapporto tra l’intensità di un gene a una data condizione rispetto
alla condizione standard (i dati sono trasformati come log in base2)
Metodo dell’ANOVAAnalisi statistiche più rigorose
Un gene viene considerato differenzialmente espresso se la sua
espressione genica si discosta dalla situazione di uguale espressione
nei due canali in modo significativo.
Identificazione di geni differenzialmente espressi
• metodo del valore soglia: valori > valore soglia positivo sovraespressi
valori < valore soglia negativo sottoespressi
il valore soglia ottimale dipende dalla qualità dei dati: usare controlli di qualità
interni per determinare la soglia di confidenza.
Metodo dell’ANOVA (analisi della varianza)
Sviluppata per verificare la significatività delle differenze tra le medie aritmetiche
di vari gruppi.
Confronto simultaneo tra due o più medie.
I dati vengono trasformati in log2 e i canali normalizzati, quindi viene utilizzato il
metodo dell’ANOVA:
• sono necessarie numerose repliche per ogni esperimento
• non c’è bisogno di un campione di riferimento
1 2 3 4
1
0
-1
Ripetizione dell’esperimento
Liv
e ll o
di
e sp
r es s
ion
e st
a nd
a rd
i zz a
to
GeneChip Affymetrix
Ibridizzazione della sonda marcata Scansione del GeneChip con scanner laser
Microarray a oligonucleotidi
Elaborazione dei dati
Microarray a cDNA e a oligo:
2 tecniche a confronto
Microarray a oligo:
• si possono analizzare un n > di geni
• variabilità minore da chip a chip
• non sono necessari macchinari, si
possono acquistare
• possono essere confrontati dati di
diversi gruppi di ricerca
Microarray a cDNA:
• applicabili a qualunque organismo
• più economici = più repliche
• più flessibili per progettazione
sperimentale
• l’ibridazione è su migliaia di basi
( non decine)
Estrazione di dati da microarray
Qual è il senso biologico dei dati?: individuare geni con profili
di espressione simili e riunirli in gruppi.
Il raggruppamento implica la co-regolazione, quindi i geni sono
coinvolti in processi biologici simili.
Oltre a descrivere la risposta dei geni ai diversi trattamenti,
l’analisi dei microarray descrive i livelli di regolazione coordinata
dell’espressione genica su scala genomica.
Può portare a formulare ipotesi di funzione per geni sconosciuti.
Metodi di clustering: sono metodi di statistica multivariata che
raggruppano unità statistiche sulla base di misure di similarità/
dissimilarità.
Estrazione di dati da microarray
Simili rispetto a cosa ?
Definizione di distanzadistanza
I geni sono punti nello spazio:
punti vicini nello spazio sono raggruppati insieme
Correlazione di Pearson:
raggruppa geni che hanno andamenti simili
indipendentemente dal livello di espressione che
hanno.
Distanze
Distanza Euclidea:raggruppa geni che hanno andamenti similia livelli di espressione simili.
Algoritmi di clustering
Gli algoritmi di clustering si basano sulla misura di vicinanza scelta. Ogni
algoritmo è caratterizzato dal metodo utilizzato per identificare i gruppi
omogenei di elementi
Gerarchici
Non Gerarchici
Divisivi
AggregativiAlgoritmi per il Clustering
Gerarchici: non necessitano di informazioni a priori (botton-up)
Non-gerarchici: cercano di raggruppare gli elementi in un numero predefinito k
di gruppi (top-down)
Divisivi: da un unico cluster con tutti gli elementi procede dividendolo in
cluster più piccoli
Aggregativi: partono con tanti cluster quanti sono i geni e procedono raggruppandoli
in cluster sempre più grandi
• L’algoritmo è semplice
1. Calcola la matrice di distanze a coppie
2. All’inizio, ogni punto è un singolo cluster
3. Unisci i cluster più vicini
4. Aggiorna la matrice di distanze
5. Ripetere i punti precedenti fino a quando rimane un singolo
cluster
• L’operazione chiave è il calcolo della vicinanza tra due cluster
– Questo concetto di vicinanza costituisce la differenza
principale tra algoritmi differenti
Tipico algoritmo gerarchico agglomerativo
Esempio di calcolo clustering gerarchico
Come calcolo le nuove distanze?3 metodi:
Legame semplice
Legame completo
Legame intermedio
k-means
Procedura iterativa:
1. Scegli un numero di classi
2. Assegna gli oggetti alle classi
(a caso o in base ad un’altra classificazione)
3. Sposta gli oggetti nelle classi il cui centroide è
più vicino (la varianza intra-classe diminuisce)
4. Ripeti lo step 3 finchè non c’è più nessun
cambiamento nella composizione delle classi
Algoritmi non-gerarchici
Cercano di raggruppare gli elementi in modo tale che siano il più possibile
omogenei all’interno dei cluster e il più possibile disomogenei tra i vari cluster
Risultati del clustering gerarchico
La PCA è una tecnica per la riduzione del numero di variabili
casuali che descrivono un fenomeno. L’obiettivo e’ quello di
identificare un sottoinsieme di variabili casuali dalle quali
dipende la maggiore varianza (‘variabilità’) del fenomeno
Analisi Componenti Principali (PCA)
OBIETTIVI
• Ridurre la dimensionalità di un dataset,
composto da p variabili tra loro correlate;
• Trovare relazioni non precedentemente
sospettate tra le variabili.
Determinazione abbondanza assoluta
La tecnica dei microarray non fornisce dati sui livelli assoluti di espressione:
un metodo per determinare l’abbondanza assoluta di ciascun trascritto espresso
in una data popolazione di cellule è l’analisi seriale dell’espressione genica
(SAGE, serial analysis of gene expression)
SAGE è un metodo sperimentale ideato per utilizzare i vantaggi del
sequenziamento su larga scala per avere informazioni quantitative di
espressione genica (Velculescu et al. 1995, Zhang et al, 1997)
Il metodo non è influenzato da fattori come i campioni di riferimento, gli artefatti
di ibridazione o la frequenza dei cloni e fornisce una misura precisa del vero
numero trascritti per ogni cellula. E’ un metodo molto costoso e non consente
ripetizioni di esperimenti.
Taglio con enzima di restrizione ed
isolamento della porzione 3’ del cDNA per
purificazione mediante sfere a streptavidina
Clonaggio dei
concatameri e
sequenziamento
Sintesi DNA a doppia elica a
partire dai messaggeri con
primer oligo(dT) biotinilato
Separazione del cDNA in 2
aliquote, ciascuna ligata con
un linker diverso, contenente
un sito di taglio per un enzima
di restrizione (tagging
enzyme) che taglia ad una
distanza definita dal sito
riconociuto (20bp)
Il linker con attaccato un
breve tratto di cDNA (9-12
bp) viene rilasciato
Ligazione tags a due a due,
taglio ditags in modo da creare
estremita’ coesive
Analisi automatizzata dei
risultati: identificazione di tutte le
specie di tags, conteggio della
frequenza di ciascuna,
assegnazione a sequenze geniche
note ed annotazione
Isolamento delle “tag”
Ligazione
Sequenziamento
Quantificazione di ciascuna“tag” e determinazione del pattern di espressione
Liv
e llo
di
espr
e ssion
e
GENE
AlteratoGENE
Normale
Isolamento delle “tag”
Ligazione
Sequenziamento
Quantificazione di ciascuna“tag” e determinazione del pattern di espressione
Liv
e llo
di
espr
e ssion
e
GENE
AlteratoGENE
NormaleGENE
NormaleGENEAlterato
La tecnica consiste nel sequenziamento da messaggeri cellulari di brevi
oligonucleotidi, che fungono da etichette di sequenza (TAG).
Il numero di volte in cui una singola “tag” viene osservata permette di quantificare
l’abbondanza del messaggero identificato nella popolazione dei messaggeri e,
indirettamente il livello di espressione del gene corrispondente
Le tag possono essere unite insieme in serie,
a costituire lunghe molecole di DNA, che
vengono clonate e sequenziate in modo
automatizzato
� Il risultato della SAGE e’ di tipo digitale: una lista di
tags e la frequenza di ciascuna di esse
� La fase in cui si stabilisce la corrispondenza tra tag e
gene e’ cruciale per una corretta stima del livello di
espressione del gene
� La corrispondenza tag-gene non e’ sempre
biunivoca,come ci si aspetterebbe
� Gli errori di sequenziamento hanno effetti molto
pesanti sui dati SAGE (1% ���� 10% che ci sia almeno
1 errore su 10 bp)
� Le assegnazioni tag/EST sono affette da un errore
maggiore
Tecnologia basata su MICROSFERE
Metodo MegaCloneTM Permette un clonaggio parallelo in un sistema acellulare
di centinaia di migliaia di cloni genomici o do DNA.
• una tag (etichetta) è legata all’estremità 3’ di ciascun frammento di
DNA (cDNA) e la sequenza è amplificata mediante PCR
• gli amplificati vengono legati su microsfere mediante ibridazione con
la sequenza complementare (anti-tag) legata con legami covalenti alla
microsfera
• le sequenze vengono separate per citometria di flusso e clonate e
sequenziate oppure sequenziate con il metodo del sequenziamento su
larga scala con contrassegni in parallelo (MPSS)
• negli studi comparativi è possibile separare le microsfere in base all’
abbondanza dei trascritti
Clonaggio in parallelo con l’uso di TAGs
Ogni
microsfera
contiene il
prodotto
derivato dal
terminale
3’di un
singolo
trascritto
Brenner et al., PNAS 97:1665-70.
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
TTTTTTTT
AAAAAAA
TTTTTTT
TTT
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
TTTTTTT
AAAAAAA
AAAAAAA
TTTTTTTT
AAAAAAA
AAAAAAA
TTTTTTTT
TTTTTTTTT
TTTTTTTT
TTTTTTTT
TTTTTTT
cDNA
I. Costruzione della library
II. Separazione per citometria a flusso
1) Marcatura con Tag
2) Amplificazione tramite PCR
AAAAAAAAAAAAAAAAAAAATTTTTTTTTTTTTTTTTTTT
GATCGATC
RS
RS
4 3 2 1+
III. Sequenziamento direttoBrenner et al., Nat. Biotech. 18:630-4.
2) Sequence by hybridization
16 cyclesfor 4 bp
NNXN CODEX2
XNNN CODEX4
NXNN CODEX3
NNNX CODEX1RS
RS
NNNN
3) Ibridazione con microsfera
Caso studio sull’utilizzo dei microarray
Oltre a costruire atlanti di espressione genica, molti studi del trascrittoma hanno
iniziato a identificare le differenze di espressione genica nelle cellule tumorali e
quelle associate ad altre malattie umane.
Gli scopi di questi studi sono:
• ottenere una migliore classificazione dei tipi di tumori e identificare i tipi
cellulari da cui i tumori provengono
• caratterizzare i profili di espressione che possono aiutare a prevedere la risposta
terapeutica
• raggruppare i geni per formulare ipotesi riguardanti il loro meccanismo di azione
nella cancerogenesi
• identificare nuovi bersagli genici per la chemioterapia
Ross et al. 2000 : tipi di tumori simili tra loro tendono a condividere
profili di espressione genica, in parte correlati alle differenze
caratteristiche del loro tessuto di origine.
Hanno inoltre identificato marcatori che possono rivelarsi utili nella
diagnosi clinica e suggeriscono funzioni per geni non ancora
caratterizzati.
Scherf et al. 2000: l’esposizione di linee cellulari tumorali a oltre
70000 composti ha permesso di ottenere una classificazione in
parallelo dei tipi di tumore in base all’attività di inibizione da parte
del farmaco.
Profili di espressione in risposta ai farmaci
3 analisi di clustering di tipo gerarchico:
• 1 cluster per valutare il livello di espressione genica
• 1 cluster per valutare la sensibilità ad un gruppo di farmaci
• 1 cluster per valutare la correlazione tra il livello di espressione
genica e la sensibilità ai farmaci
Questo tipo di analisi consente di identificare i geni candidati
coinvolti nella risposta ai farmaci.
Marcatori di prognosi
Con i microarray è possibile prevedere la mortalità o la risposta
terapeutica delle leucemie.
Alizadeh et al 2000: identificazione dei profili di espressione che
raggruppano le leucemie in gruppi correlati con la prognosi a lungo
termine.
Variabilità di espressione di circa 8000 geni unici
tra 60 linee cellulari provenienti dal National Cancer Institute
Analisi del pattern di espressione genica e la loro relazione con le
proprietà fenotipiche di 60 linee cellulari
• 9703 cDNA umani che includono 8000 geni differenti
• campione di riferimento mRNA da 12 linee cellulari
• la variazione in espressione si ottiene normalizzando il rapporto
Cy5/Cy3
• algoritmo di clustering gerarchico e matrice di visualizzazione
• l’obiettivo è raggruppare linee cellulari con repertori simili di geni
espressi e raggruppare quei geni i cui livelli di espressione variano
in modo simile tra le 60 linee cellulari
• campioni in triplicato per valutare la varianza delle analisi
• analisi di clustering effettuata due volte usando sotto-gruppi di geni
per valutare la robustezza dell’analisi
METODI
• 1161 cDNA che variavano di almeno 7 volte rispetto
al riferimento
• nella matrice le righe rappresentano i livelli di
espressione aggiustati sulla media, le colonne le linee
cellulari
• linee cellulari che hanno origine dallo stesso
tessuto raggruppano insieme
• le linee cellulari del carcinoma del polmone e del tumore
al seno presentano patterns più eterogenei
Pattern di espressione relativo al tessuto di origine
• 6831 con le misurazioni più attendibili nel
set di riferimento
• i tre cluster d, e, f sono arricchiti con geni
con variazione dei livelli di espressione
correlata con il tasso di proliferazione della
linea cellulare
• i geni ridondanti clusterizzano insieme
confermando la riproducibilità e consistenza
delle misurazioni
• l’elevata espressione di geni coinvolti nel
metabolismo dei farmaci può riflettere una
selezione per la resistenza ai chemioterapici
Pattern di espressione relativo
ad altri fenotipi cellulari
Clusters genici relativi alle
caratteristiche del tessuto
nelle linee cellulari
a geni altamente espressi nelle
linee cellulari derivate da
leucemia
b cluster di geni espressi nel colon
e seno, moderatamente espressi
ovaio e polmone
c cluster di geni espressi nelle linee
del melanoma
d geni altamente espressi in tutti i
glioblastoma: la > parte derivano
dal carcinoma renale
Confronto espressione genica campioni clinici di tumore al
seno e colture di linee cellulari (tumore al seno e leucemia)
Confronto del pattern di espressione
di due biopsie di cancro al seno con
con un campione di tessuto normale
e le linee cellulari derivate da tumore
al seno e leucemia.
Il tumore al seno ha una complessa
organizzazione istologica.
L’analisi ha permesso di individuare
il contributo di ogni tipo cellulare che
costituisce la struttura della ghiandola.
Caratteristiche
istologiche delle
biopsie
le linee cellulari
hanno espressione
> di geni del cluster
di proliferazione
dovuto alla
coltivazione in vitro
CONCLUSIONI
• Microarray a cDNA
- costruzione delle librerie
- normalizzazione
• Microaray a oligonucleotidi
- creazione dei genechip
• metodi per valutare l’abbondanza assoluta
- metodo SAGE
- tecnica delle microsfere
Analisi di clustering