![Page 1: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/1.jpg)
La predizione della struttura genica e lo splicing alternativo
Raffaella Rizzi
DISCo – Università di [email protected]
![Page 2: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/2.jpg)
Introduzione biologica
DNADoppia catena polinucleotidica definita sull’alfabeto: A, C, G, T
GeneRegione di DNA che codificaproteine
![Page 3: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/3.jpg)
Il sequenziamento
Cosa significa sequenziare?
determinare la struttura primaria delle molecole biologiche (DNA/RNA e proteine)
ordine degli amminoacidi per le proteine
Glu Ile Phe Thr Val His
sequenza dei nucleotidi {a,c,g,t|u} per DNA/RNA
g
c g
c
t
c t
c t
c
g
c g
c g
c
![Page 4: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/4.jpg)
Il sequenziamento
Cosa si ottiene?
single-end read
DNA/RNA
acgttgtgcagtgacggtaa
![Page 5: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/5.jpg)
Il sequenziamento
paired-end read (o mate-pair)
DNA/RNA
insertion size
A B
A = B
insertion size
agttgcgt aatgcctgA B
Cosa si ottiene dal sequenziamento di una molecola di DNA/RNA
![Page 6: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/6.jpg)
Il sequenziamento
Perché è importante?
… per determinare il genoma di un organismo vivente (problema del Genome Assembly)
Genoma
![Page 7: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/7.jpg)
Sanger Sequencing (1977)
Metodo di sequenziamento capillare
Basato su enzima
Piuttosto costoso
Processa pochissimi reads in un run (un centinaio)
Lunghezza frammenti fino a 1000 bp
Errore basso
![Page 8: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/8.jpg)
Espressione di un gene
3’ 5’5’ 3’
DNA
TRANSCRIPTION
5’ 3’exon 1 exon 2 exon 3pre-mRNA
SPLICING by spliceosome
splicing productmRNA exon 1 exon 2 exon 3
CDS atg…………[stop] [stop]tagtaatga
![Page 9: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/9.jpg)
Pattern di un introne
GT AG
Introni canonici: 99.24 %
Introni non canonici:
GC AG
0.05 %
0.69 %
0.02 %
AT AC
ALTRO
Burset et al., Nucleic Acids Res. 2000, 28:4363-4375
![Page 10: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/10.jpg)
Espressione di un gene
Ma le cose funzionano davvero così?
Numero Geni corpo umano : 40000 circa
Numero Proteine : centinaia di migliaia
La corrispondenza 1 a 1 non è rispettata. Perché?
SPLICING ALTERNATIVO
![Page 11: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/11.jpg)
Alternative Splicing (AS)
5’ 3’exon 2 exon 3Gene
mRNA1 exon 2 exon 3
exon 1
exon 1
![Page 12: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/12.jpg)
Alternative Splicing (AS)
5’ 3’exon 2 exon 3Gene
mRNA1 exon 2 exon 3
exon 1
exon 1
mRNA2 exon 2 exon 3exon 1’ exon 1’’
![Page 13: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/13.jpg)
Alternative Splicing (AS)
5’ 3’exon 2 exon 3Gene
mRNA1 exon 2 exon 3
exon 1
exon 1
mRNA2 exon 2 exon 3exon 1’ exon 1’’
mRNA3 exon 3exon 1
![Page 14: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/14.jpg)
Alternative Splicing (AS)
5’ 3’exon 2 exon 3Gene
mRNA1 exon 2 exon 3
exon 1
exon 1
mRNA2 exon 2 exon 3exon 1’ exon 1’’
mRNA3 exon 3exon 1
mRNA4 exon 2 exon 3exon 1’’’
![Page 15: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/15.jpg)
Alternative Splicing (AS)
5’ 3’exon 2 exon 3Gene
mRNA1 exon 2 exon 3
exon 1
exon 1
mRNA2 exon 2 exon 3exon 1’ exon 1’’
mRNA3 exon 3exon 1
mRNA4 exon 2 exon 3exon 1’’’
mRNA5 exon 2 exon 3’exon 1
![Page 16: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/16.jpg)
Alternative Splicing (AS)
5’ 3’Gene
mRNA1
exon 1
mRNA2
exon 2 exon 3 exon 4
exon 1 exon 2 exon 4
exon 1 exon 3 exon 4
![Page 17: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/17.jpg)
![Page 18: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/18.jpg)
Perché AS è importante?
AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002)
AS genera numerosi trascritti a partire da un singolo gene
AS is specifico del tessuto in cui si trova la cellula (Graveley, 2001)
AS è correlato alle malattie
![Page 19: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/19.jpg)
Problema di AS
predire le forme di splicing alternativo di un gene
analizzare il meccanismo di splicing tramite la rappresentazione delle possibili isoforme
AS è ancora un problema aperto
Si ha la necessità di software tools per
![Page 20: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/20.jpg)
Trascritti e sequenze EST
Un trascritto è l’elenco delle basi (A,T,C,G) che compongono un mRNA maturo
Un EST è un frammento di cDNA (copia complementare di un mRNA, prodotta in vitro )
ATTGCGTTAACTGGACTGAmRNA
TAACGCAATTGACCTGACTcDNA AATTGACCTEST
![Page 21: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/21.jpg)
Expressed Sequence Tag
Cos’è un single-end read da un mRNA (messenger RNA)?
EST (Expressed Sequence Tag)
GeneC DA B
esoni (codificanti)introni (non codificanti)
DA B
C DA
C DA B’
mRNA1
mRNA2
mRNA3
B’
EST
![Page 22: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/22.jpg)
ESTs
Le sequenze EST sono dati importanti e disponibili pubblicamente per:
identificare geni lungo un genoma predire la struttura in esoni e introni di un
geni…e le sue isoforme alternative (alternative
splicing prediction) per studi di espressione genica
ReferenceThe Unigene Database: http://www.ncbi.nlm.nih.gov/unigene.
![Page 23: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/23.jpg)
Il sequenziamento di EST
Perché è importante?
GeneC DA B
A B
A’ B C
D’A’ B
C’B
DA’ C
A’: suffisso di AC’: prefisso di CD’: prefisso di D
EST
… per determinare la struttura e l’espressione di un gene
![Page 24: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/24.jpg)
Splice junctions de-novo
Gene
A’ B C
D’A’ B
C’B
DA’ C
EST
BA
![Page 25: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/25.jpg)
Splice junctions de-novo
GeneC DA B
splice junction
B
A’ B C
D’A’ B
C’B
DA’ C
EST
A
![Page 26: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/26.jpg)
Perché predire AS è difficile?
La predizione della struttura di un geneè un compito difficile a causa di
gli errori di sequenziamento nelle EST rendono difficoltosa la localizzazione delle splice junctions
le duplicazioni possono produrre più di un possibile allineamento EST-genomica
I dati in input sono enormi: efficienza in tempo e spazio
![Page 27: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/27.jpg)
What is available?
Fast Blast-like programs to produce a single EST alignment to a genomic sequence (Blat, Sim4):
- Spidey (Wheelan et al., 2001)
- Squall (Ogasawara & Morishita, 2002)
- Ecgene (Kim et al., 2005)
- AceView (http://www.ncbi.nih.gov/IEB/Research/Acembly/)
- Splicing graphs (Heber et al., 2002)
![Page 28: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/28.jpg)
What is available?
Fast Blast-like programs to produce a single EST alignment to a genomic sequence (Blat, Sim4): drawbacks
- Spidey => independent single EST alignment
- Squall => independent single EST alignment
- Ecgene => detects variants of more than 15bp
- AceView =>over-prediction
- Splicing graphs => over-prediction
![Page 29: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/29.jpg)
ASPIC software
ASPIC (Alternative Splicing PredICtion) implements an optimization strategy that:
performs a multiple alignment of transcript data to the genomic sequence
detects the intron set that minimizes the number of splicing sites
generates the minimal set of transcript isoforms compatible with the detected splicing events
P. Bonizzoni, R. Rizzi, G. Pesole. ASPIC: a novel method topredict the exon-intron structure of a gene that is optimally compatible toa set of transcript sequences. BMC Bioinformatics (2005), 6(1):244.
T. Castrignanò, R. Rizzi, I.G. Talamo, P. D’Onorio De Meo, A. Anselmo, P. Bonizzoni, G. Pesole. ASPIC: a web resource for alternative splicing prediction and transcript isoforms characterization. Nucleic Acids Research (2006), 34(Web Server Issue):W440:3.
![Page 30: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/30.jpg)
ASPIC web site
http://www.caspur.it/ASPIC/
A genomic sequence by pasting a sequence into a text box by uploading a sequence as a text file by specifying an ENSEMBL ID or a HUGO name (only for human) by specifying a chromosomal range
INPUT:
![Page 31: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/31.jpg)
ASPIC web site
http://www.caspur.it/ASPIC/
A collection of transcripts by pasting them into a text box by uploading them as a text file by specifying a UNIGENE ID
The minimum dimension for exons on the genomic sequence
INPUT:
![Page 32: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/32.jpg)
ASPicDB
![Page 33: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/33.jpg)
ASPicDB
![Page 34: La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca rizzi@disco.unimib.it](https://reader036.vdocuments.pub/reader036/viewer/2022062701/5542eb50497959361e8c0221/html5/thumbnails/34.jpg)
Ricostruzione isoforme
GeneC DA B
C DA B
C DA
DA B
Isoform#1
Isoform#2
Isoform#3
Problema di ricostruzione di isoforme full-length
Data la struttura in exoni-introni del gene, trovare tutte le possibili combinazioni di esoni (o parti di essi) che danno luogo ad un isoforma completa