database biologici (banche di dati...

22
1

Upload: votuong

Post on 18-Feb-2019

229 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

1

Page 2: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

2

Lo sviluppo di tecnologie strumentali sempre più sofisticate ha portato ad una enorme produzione di dati biologici.Per la gestione di questi dati è quindi necessario disporre di potenti sistemi di archiviazione e di strumenti per accedere alle loro informazioni.

Database biologici (banche di dati biologici)

- Sono essenzialmente dei contenitori ordinati di informazioni costruiti per introdurre e mantenere dati di tipo biologico e permettere una facile consultazione (query)

- raccolgono informazioni e dati derivati dalla letteratura e da analisi effettuate in laboratorio oppure attraverso l’applicazione di analisi bioinformatiche o analisi in silico.

- sono generalmente accessibili liberamente e possono essere consultati via web.

-ogni banca dati è caratterizzata da un elemento centrale attorno al quale viene costruita la entry della banca dati.

Ad esempio, l’elemento centrale per le banche dati di sequenze di acidi nucleici è la sequenza nucleotidica di DNA o di RNA

Page 3: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

3

ENTREZE’ il punto di partenza per eseguire query su tutti o parte dei database dell’NCBI

Esistono molti differenti DB biologici, più o meno specialistici, che sono in continua evoluzione

E’ ‘relativamente facile’ ricercare dati particolari all’interno di un DB conosciuto, può risultare invece difficile trovare dati se non si conosce l’esatta esistenza di particolari DB

Per queste ricerche vengono in aiuto strumenti (tools) messi a disposizione dai principali centri di bioinformatica, in particolare ENTREZ all’NCBI (negli USA) e EMBL-EBI (in Europa)

Page 4: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

4

http://www.ebi.ac.uk/

Anche all’EBI è possibile ricercare contemporaneamente termini chiave in tutti i database

Risultati ricerca ‘telethonin’ in all databases

Page 5: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

5

L’oggetto principale è la ENTRY, una unità riconoscibile grazie ad un identificatore univoco, che possiede una descrizione organizzata in campi standardizzati riconoscibili grazie ad HEADERS univoci nella banca dati; esempio Identificatore , Autore , Data , ecc.

Generalmente, ogni banca dati presenta 2 versioni delle entries:Flat-file: un file di testo semplice, formattato, non interattivoHTML (o XML): interattivo, di facile consultazione

Organizzazione di un database biologico

L’interattività ha un ruolo centrale per una banca dati, perché permette di navigare tra le sue entries e quelle di altri databaseSia i flat-file sia le pagine XML sono ricchi di cross-references, riferimenti che mandano ad altre banche dati generiche o specializzate. Si ottiene così per ogni entry una serie di informazioni spesso ridondanti, tra cui è bene sapersi orientare, anche perché alcune sembrano in contraddizione, esempi:- una proteina può avere dei riferimenti a sequenze codificanti diverse- una entry può avere più nomi per descriverla o può corrispondere apiù autori

Page 6: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

6

Esempi di Cross-references

Page 7: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

7

‘Cross-reference’ o database relazionale?

Un ‘cross-reference’ invia ad uno specifico record di un particolare database

Flat-file x

Record…….Record ……

Record ID ..Field: data.Field: dataCross referenceField: data

Record….

Un record di un database relazionale è formato dal contenuto di più campi contenuti in differenti record di differenti file.

Flat-file x

Record…….Record ……

Record ID ..Field: data.Cross referenceCross referenceField: data

Record….

Flat-file x

Record…….Record ……

Record ID ..Field: data.Field: data

Record….

Record di un altro DB

Page 8: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

8

OPERATORI BOOLEANI (dovreste conoscerli dalla matematica e dall’informatica)

Esempio: metodi di ricerca di particolari sequenze in un database di sequenze nucleotidiche

Nota: il mitocondrio è un organello cellulari che possiede un proprio corredo genomico (DNA)

Attenzione: un motore ‘biologico’ di ricerca , non esegue una esatta ricerca testuale:- In mancanza di operatore booleano, tra due differenti termini, inserisce AND-Se più parole consecutive sono riconducibile ad un preciso ‘oggetto’ biologico, considera queste parole come un unico termine (es. cytochrome c oxidase è il nome di un gene, lo considera un unico termine: altrimenti avrebbe tradotto come: cytochrome AND c AND oxidase )-Svolgono una operazione alla volta partendo da sinistra. Usare le parentesi per dare le precedenze alle operazioni volute.-I motori più evoluti cercano anche di interpretare la nostra volontà (usando ad esempio sinonimi o termini collegati)

Page 9: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

9

Interrogazioni delle Banche Dati

RICERCHE TESTUALI (QUERY)Restituiscono i record di un database che soddisfano i criteri richiesti (ricerca di tipo letterale, individua termini uguali) attraverso l’utilizzo di programmi di RETRIEVAL (cioè di ricerca, reperimento dati).Ricordo che i database devono essere tutti standardizzati (tag, separatori, headers, segni di punteggiatura ecc) questo rende rapida la ricerca)

RICERCHE PER SIMILARITÀ(su sequenze nucleotidiche o proteiche)Restituiscono le sequenze di un database più simili ad una sequenza fornita come query. Non sono delle vere e proprie query in quanto richiedono l’esecuzione di programmi anche piuttosto complessi (ad esempio BLAST o FASTA).

Domande: Trovare la sequenza nucleotidica del gene ‘telethonin’ è una ricerca testuale o di similarità?Ricercare un sequenza proteica di homo sapiens è una query o una ricerca per similarità?

In questa prima parte del corso ci occuperemo delle ricerche di tipo testuali

Page 10: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

10

- Rivista dove è pubblicato (nome, data di pubblicazione, volume, pagina )

- Titolo

- Autori

- Abstract (Riassunto dell’articolo)

- Introduzione

- Opzionali: ringraziamenti

- References (Bibliografia)

Struttura di un articolo scientifico

Ricerca di un articolo scientifico in PubMed

Materiali e metodi

Risultati, discussione, conclusione

Descrizione del lavoro

Page 11: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

11

Page 12: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

12

MeSH (Medical Subject Headings) (http://www.nlm.nih.gov/mesh/meshhome.html)È un dizionario dei sinonimi e contrari (thesaurus) ‘controllato’ da NLM (National Library of Medicine’s)Consiste in un insieme di termini descritti in strutture gerarchiche che permettono di effettuare ricerche a vari livelli di specificità.Le descrizioni di MeSH sono disposte sia in modo alfabetico che in modo gerarchico

In medicina e biologia esistono molti sinonimi che rendono una ricerca testuale difficile. Si usa MeSH per facilitare tale ricerca.

Termini descritti in strutture gerarchiche

Page 13: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

13

Il database è prodotto dalla National Library of Medicine (NLM), contiene soprattutto gran parte della letteratura scientifica prodotta nell'ambito della biologia, della medicina e della biochimica.I principali dati degli articoli scientifici (provenienti da più di 5200 riviste) sono classificati e memorizzati in specifici campi. Un articolo scientifico è rappresentato da uno specifico record.Per permettere una veloce ricerca, il database è indicizzato su differenti campi e per l’indicizzazione viene utilizzato il vocabolario controllato Medical Subject Headings (MeSH)

MEDLINE è disponibile gratuitamente via internet attraverso "PubMed".

MEDLINE (Medical Literature Analysis and Retrieval System Online) database bibliografico (e altro)

Record MEDLINE

Page 14: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

14

PubMed, disponibile tramite NCBI Entrez retrieval system, è stato sviluppato dal National Center for Biotechnology Information (NCBI) alla National Library of Medicine (NLM), è localizzato presso il National Institutes of Health (NIH). 

PubMed consente l’accesso alle citazioni della letteratura biomedica e fornisce i link ad altre risorse biomolecolari di Entrez. Permette di trovare rapidamente una particolare pubblicazione di cui conosciamo ad es. il nome di un autore o un particolare termine

Principale form di ricerca

Particolari strumenti per ricerche specifiche

Altre risorse e databaseHelp

Page 15: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

15

Le regole di interpretazione del sistema PubMed sono:

- Per ogni parola viene consultato l’indice MeSH (vocabolario con tutti i termini medici e i loro sinonimi).

-Se non si trova nulla, viene consultato l’indice con tutti i giornali e le riviste, coi i codici ISSN e le altre informazioni.

- Se non si trova nulla, si cerca nel campo autori di tutte le entries possibili.

Ricerca mirata semplice

Page 16: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

16

Per poter effettuare complesse ricerche è necessario conoscere a fondo la struttura dei database, l’esatta denominazione dei campi e la sintassi dei comandi (AND OR ecc.).

Ma ci vengono in aiuto alcune ‘utility’……

Voglio semplicemente ottenere da PubMed un elenco di tutti gli articoli in cui ‘Faulkner’ risulti autore:

Come potrei impostare la query per ottenere risultati più specifici?

Domande: quanti elementi (items) sono stati trovati ?La ricerca può essere ritenuta soddisfacente?

Con ‘Send’ è possibile memorizzare la ricerca su un file, stamparla, ecc

Page 17: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

17

Ricerca composta utilizzando le ricerche già effettuate.

Esempio: Faulkner[Auth] AND ( zasp[Title/Abstract] OR telethonin[Title/Abstract] )

Cosa ci aspettiamo con #4 AND #5 ?

Con serch si ottiene la lista completa

Con Preview si ottiene solo l’History

Page 18: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

18

Esempio di prima, impostando il limite ‘in the last 2 years’

Page 19: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

19

Come e cosa visualizzare

Utilizzo di ‘Display Setting’

In laboratorio provate ad applicare i differenti metodi di visualizzazione

Page 20: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

20

Accedere ad un articolo scientifico

Cliccando sull’icona dell’editore, sarà possibile scaricare l’articolo.

( Solo se l’articolo è ‘free’ , altrimenti sarà necessario pagare)

Page 21: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

21

A questo proposito ….

…. per sapere se abbiamo accesso “full text” ad una rivista

http://www.bio.unipd.it/

http://www.cab.unipd.it/capere/

Page 22: Database biologici (banche di dati biologici)didattica.cribi.unipd.it/bioinfouno/2010_2011/lezioni/Dispensa_II.pdf · MeSH (Medical Subject Headings) ... Per permettere una veloce

22

Sapevate che sempre più libri di testo sono consultabili on-line grazie a Bookshelf di NCBI?