ΕισαγωγήστηΒιοπληροφορική · addreplacerg adds or replaces rg tags ......

50
Εισαγωγή Χρήσιμα είδη αρχείων Εργαλεία CLI Πρακτική Εφαρμογή Εισαγωγή στη Βιοπληροφορική Αλέξανδρος Κ. Δημόπουλος Πρόγραμμα Μεταπτυχιακών Σπουδών “Τεχνολογίες Πληροφορικής στην Ιατρική και τη Βιολογία” (ΤΠΙΒ) Τμήμα Πληροφορικής και Τηλεπικοινωνιών Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Ακαδημαϊκό έτος 2017-18 Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 1 / 50

Upload: vukien

Post on 31-Mar-2018

217 views

Category:

Documents


2 download

TRANSCRIPT

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

Εισαγωγή στη Βιοπληροφορική

Αλέξανδρος Κ. Δημόπουλος

Πρόγραμμα Μεταπτυχιακών Σπουδών“Τεχνολογίες Πληροφορικής στην Ιατρική και τη Βιολογία” (ΤΠΙΒ)

Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΕθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών

Ακαδημαϊκό έτος 2017-18

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 1 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

NGS Overview

Biological

Sample

NGS Instrument Data

Library

PreparationSequencing

Data

Analysis

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 2 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

NGS “Hardware”

Life Technologies Ion ProtonLife Technologies SOLIDRoche GS-FLX

Illumina HiSeq Life Technologies Ion Torrent Illumina MiSeq

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 3 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

Τεχνολογίες NGS I

� fluorescence-based (Illumina)

� hydrogen ion /pH-mediated based (Life)

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 4 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

Τεχνολογίες NGS II

http://www.hindawi.com/journals/bmri/2012/251364

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 5 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

Αυξανόμενη ζήτηση

http://omicsmaps.com/

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 6 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

Επιλογές sequencing

Single-endΠιο οικονομικόΚατάλληλο για πιο γενικού σκοπούαναλύσεις, π.χ. DE

Paired-endΠερισσότερες πληροφορίες για τομήκος και τη θέση του readΧρήσιμο για splice junctions, indels κτλ

Zhernakova, Daria V., et al. “DeepSAGE reveals genetic variants associated with alternative polyadenylation and expression of coding and non-coding transcripts.”

(2013): e1003594.Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 7 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

Αναγκαία η βιο-πληροφορική I

Binary data representation

Genomic data representation

{0,1}

{A,C,G,T}

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 8 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

Αναγκαία η βιο-πληροφορική II

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 9 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

fastqfastasam/bam

BEDVCFindexes

FASTQ file format

FASTQText-based format για αποθήκευση βιολογικών ακολουθιών

Raw unaligned reads (νουκλεοτίδια)Αντίστοιχα quality scores

@HWI-ST661:319:D28MYACXX:6:1101:1170:2180 1:N:0:GTGGCCNAGTGGTTTATGCCTGTAATCCCAGCATTTTGGGAGACGAAGTTGAGAN+#1:ADDFFHGHHHIJGHHIIJJJIIIEHIJJJIHEHIGHIJJHHJGHC#

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 10 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

fastqfastasam/bam

BEDVCFindexes

FASTA file format I

FASTAText-based format για αναπαράσταση είτε ακολουθιών νουκλεοτιδίων είτε πεπτιδίων,κωδικοποιημένα σαν ένα χαρακτήρα.

Ξεκινά με τον χαρακτήρα “>” και ακολουθείται από ένα αλφαριθμητικό αναγνώρισης(identification code)Μια ή περισσότερες γραμμές που περιέχουν την ακολουθία

>1 dna:chromosome chromosome:GRCh37:1:1:249250621:1NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTAAACCC

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 11 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

fastqfastasam/bam

BEDVCFindexes

FASTA file format II

Κατά το alignment τα read που υπάρχουν σε ένα fastq αρχείο γίνονται map σε έναγονιδίωμα αναφοράς που είναι αποθηκευμένο σε fasta μορφήΥπάρχουν διάφορα διαθέσιμα γονιδιώματα, π.χ.:

Ανθρώπινο: hg16 (2003), hg17 (2004), hg18 (2006), hg19 (NCBI)/GRCh37 (Ensembl)(2009), hg38/GRCh38 (2013)Ποντίκι: mm7 (2005), mm8 (2006), mm9 (2007), mm10 (2011)D. melanogaster: dm1 (2003), dm2 (2004), dm3 (2006), dm6 (2014). . .

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 12 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

fastqfastasam/bam

BEDVCFindexes

SAM/BAM format I

SAM - Sequence AlignmentMapΤο SAM format αποθηκεύει aligned reads και είναι ανεξάρτητο της τεχνολογίας πουχρησιμοποιήθηκε για το sequencing

SAM: textbasedBAM: binary

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 13 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

fastqfastasam/bam

BEDVCFindexes

SAM/BAM format II

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 14 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

fastqfastasam/bam

BEDVCFindexes

SAM/BAM format III

Read Name

Bit wise flag Reference

name

1-based leftmost position

MAPping Quality CIGAR String

sequence

Base Quality

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 15 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

fastqfastasam/bam

BEDVCFindexes

BED format

BED - Browser Extensible DataΑνά γραμμή έχουν

3 υποχρεωτικά πεδίαchrom - Το όνομα του χρωμοσώματος, π.χ. chr3, chrY, chr2_randomchromStart - Την αρχική θέση του feature στο χρωμόσωμα - η αρίθμηση είναι 0-based.chromEnd - Η τελική θέση του feature στο χρωμόσωμα. Η τελική θέση δεν εμπεριέχεταιστο feature. Π.χ. Οι πρώτες 100 βάσεις ενός χρωμοσώματος ορίζονται ως chromStart=0,chromEnd=100, και είναι οι βάσεις 0-99.

και άλλα εννιά προαιρετικάname, score, strand, thickStart, thickEnd, itemRgb, blockCount, blockSizes, blockStarts

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 16 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

fastqfastasam/bam

BEDVCFindexes

VCF format I

VCF files - Variant Call FormatΓια αποθήκευση πολυμορφισμώνΧρησιμοποιείται ευρέως από το 1000 Genomes ProjectΜόνο οι πολυμορφισμοί αποθηκεύονται μαζί με το reference genome

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 17 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

fastqfastasam/bam

BEDVCFindexes

VCF format II

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 18 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

fastqfastasam/bam

BEDVCFindexes

VCF format III

AF: allele frequency for each ALT allele

DP: combined depth across samples

DB: dbSNP membership

H2: membership in hapmap2

NS: Number of samples with data

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 19 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

fastqfastasam/bam

BEDVCFindexes

index files

Με τη δημιουργία index, είναι πιο γρήγορη η πρόσβαση στα δεδομένα καθώς επιτρέπεταιη μη-σειριακή αναζήτηση.

fasta→ faibam→ baivcf→ idxvcf.gz→ tbi

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 20 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

samtools I

samtoolsSamtools is a suite of programs for interacting with high-throughput sequencing data. Itconsists of three separate repositories:Samtools Reading/writing/editing/indexing/viewing SAM/BAM/CRAM formatBCFtools Reading/writing BCF2/VCF/gVCF files and calling/filtering/summarising SNPand short indel sequence variantsHTSlib A C library for reading/writing high-throughput sequencing data

http://www.htslib.org/

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 21 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

samtools II

$ samtools

Program: samtools (Tools for alignments in the SAM format)Version: 1.3 (using htslib 1.3)

Usage: samtools <command> [options]

Commands:-- Indexing

dict create a sequence dictionary filefaidx index/extract FASTAindex index alignment

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 22 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

samtools III

-- Editingcalmd recalculate MD/NM tags and '=' basesfixmate fix mate informationreheader replace BAM headerrmdup remove PCR duplicatestargetcut cut fosmid regions (for fosmid pool only)addreplacerg adds or replaces RG tags

-- File operationscollate shuffle and group alignments by namecat concatenate BAMsmerge merge sorted alignmentsmpileup multi-way pileup

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 23 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

samtools IV

sort sort alignment filesplit splits a file by read groupquickcheck quickly check if SAM/BAM/CRAM file appears intactfastq converts a BAM to a FASTQfasta converts a BAM to a FASTA

-- Statisticsbedcov read depth per BED regiondepth compute the depthflagstat simple statsidxstats BAM index statsphase phase heterozygotesstats generate stats (former bamcheck)

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 24 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

samtools V

-- Viewingflags explain BAM flagstview text alignment viewerview SAM<->BAM<->CRAM conversiondepad convert padded BAM to unpadded BAM

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 25 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

samtools VI

sort: κατά τη διαδικασία του alignment το τελικό sam αρχείο περιέχει σε τυχαίασειρά τα reads. Για ταχύτερη επεξεργασία αλλά και μετατροπή σε bam χρειάζεταιταξινόμηση

samtools sort sample.bam sample.sorted -@8

index: για την ταχύτερη πρόσβαση στα δεδομένα του bam αρχείουsamtools index sample.sorted.bam

view: για μετατροπή από sam σε bam και αντίστροφα. Για φιλτράρισμα bam/samαρχείου βάσει συνθηκών

samtools view sample.bamsamtools view -f 0x2 sample.sorted.bamsamtools view -F 0x2 sample.sorted.bam

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 26 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

Bedtools I

bedtools: a powerful toolset for genome arithmeticCollectively, the bedtools utilities are a swiss-army knife of tools for a wide-range ofgenomics analysis tasks. The most widely-used tools enable genome arithmetic: that is, settheory on the genome. For example, bedtools allows one to intersect, merge, count,complement, and shuffle genomic intervals from multiple files in widely-used genomic fileformats such as BAM, BED, GFF/GTF, VCF. While each individual tool is designed to doa relatively simple task (e.g., intersect two interval files), quite sophisticated analyses canbe conducted by combining multiple bedtools operations on the UNIX command line

http://bedtools.readthedocs.io/en/latest/

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 27 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

Bedtools II

$ bedtoolsbedtools: flexible tools for genome arithmetic and DNA sequence analysis.usage: bedtools <subcommand> [options]

The bedtools sub-commands include:

[ Genome arithmetic ]intersect Find overlapping intervals in various ways.window Find overlapping intervals within a window around

an interval....

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 28 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

Bedtools III

bedtools intersectBy far, the most common question asked of two sets of genomic features is whether or notany of the features in the two sets “overlap” with one another. This is known as featureintersection. bedtools intersect allows one to screen for overlaps between two sets ofgenomic features. Moreover, it allows one to have fine control as to how the intersectionsare reported. bedtools intersect works with both BED/GFF/VCF and BAM files as input.

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 29 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

Bedtools IV

$ bedtools intersectTool: bedtools intersect (aka intersectBed)Version: v2.21.0Summary: Report overlaps between two feature files.

Usage: bedtools intersect [OPTIONS] -a <bed/gff/vcf> -b <bed/gff/vcf>

Note: -b may be followed with multiple databases and/orwildcard (*) character(s).

...

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 30 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

Bedtools V

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 31 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

Bedtools VI

$ cat A.bedchr1 10 20chr1 30 40

$ cat B.bedchr1 15 20

$ bedtools intersect -a A.bed -b B.bedchr1 15 20

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 32 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

Bedtools VII

bedtools mergebedtools merge combines overlapping or “book-ended” features in an interval file into asingle feature which spans all of the combined features.

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 33 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

Bedtools VIII

$ bedtools mergeTool: bedtools merge (aka mergeBed)Version: v2.21.0Summary: Merges overlapping BED/GFF/VCF entries into a single interval.

Usage: bedtools merge [OPTIONS] -i <bed/gff/vcf>

...

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 34 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

Bedtools IX

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 35 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

Bedtools X

$ cat A.bedchr1 100 200chr1 180 250chr1 250 500chr1 501 1000

$ bedtools merge -i A.bedchr1 100 500chr1 501 1000

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 36 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

Bedtools XI

bedtools genomecovbedtools genomecov computes histograms (default), per-base reports (-d) and BEDGRAPH(-bg) summaries of feature coverage (e.g., aligned sequences) for a given genome.

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 37 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

Bedtools XII

$ bedtools genomecov

Tool: bedtools genomecov (aka genomeCoverageBed)Version: v2.21.0Summary: Compute the coverage of a feature file among a genome.

Usage: bedtools genomecov [OPTIONS] -i <bed/gff/vcf> -g <genome>

...

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 38 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

Bedtools XIII

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 39 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

Bedtools XIV

$ cat A.bedchr1 10 20chr1 20 30chr2 0 500

$ cat my.genomechr1 1000chr2 500

$ bedtools genomecov -i A.bed -g my.genomechr1 0 980 1000 0.98chr1 1 20 1000 0.02chr2 1 500 500 1

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 40 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

Bedtools XV

genome 0 980 1500 0.653333genome 1 520 1500 0.346667

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 41 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

VCFtools I

Welcome to VCFtoolsVCFtools is a program package designed for working with VCF files, such as thosegenerated by the 1000 Genomes Project. The aim of VCFtools is to provide easilyaccessible methods for working with complex genetic variation data in the form of VCFfiles.

https://vcftools.github.io/index.html

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 42 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

VCFtools II

$ vcftools

VCFtools (0.1.15)© Adam Auton and Anthony Marcketta 2009

Process Variant Call Format files

For a list of options, please go to:https://vcftools.github.io/man_latest.html

Alternatively, a man page is available, type:man vcftools

Questions, comments, and suggestions should be emailed to:[email protected]

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 43 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

VCFtools III

vcf-isecCreates intersections and complements of two or more VCF files. Given multiple VCFfiles, it can output the list of positions which are shared by at least N files, at most N files,exactly N files, etc. The first example below outputs positions shared by at least two filesand the second outputs positions present in the files A but absent from files B and C.

$ vcf-isec -n +2 A.vcf.gz B.vcf.gz | bgzip -c > out.vcf.gz

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 44 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

VCFtools IV

vcf-mergeMerges two or more VCF files into one so that, for example, if two source files had onecolumn each, on output will be printed a file with two columns. See also vcf-concat forconcatenating VCFs split by chromosome.

$ vcf-merge A.vcf.gz B.vcf.gz C.vcf.gz | bgzip -c > out.vcf.gz

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 45 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

VCFtools V

vcf-concatConcatenates VCF files (for example split by chromosome). Note that the input and outputVCFs will have the same number of columns, the script does not merge VCFs by position(see also vcf-merge).

$ vcf-concat A.vcf.gz B.vcf.gz C.vcf.gz | gzip -c > out.vcf.gz

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 46 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

VCFtools VI

vcf-compareCompares positions in two or more VCF files and outputs the numbers of positionscontained in one but not the other files; two but not the other files, etc, which comes handywhen generating Venn diagrams. The script also computes numbers such as nonreferencediscordance rates (including multiallelic sites), compares actual sequence (useful whencomparing indels), etc.

$ vcf-compare A.vcf.gz B.vcf.gz C.vcf.gz

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 47 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή samtools

bedtoolsvcftoolsbcftools

bcftools

bcftoolsBCFtools is a set of utilities that manipulate variant calls in the Variant Call Format (VCF)and its binary counterpart BCF. All commands work transparently with both VCFs andBCFs, both uncompressed and BGZF-compressed.Most commands accept VCF, bgzipped VCF and BCF with filetype detected automaticallyeven when streaming from a pipe. Indexed VCF and BCF will work in all situations.Un-indexed VCF and BCF and streams will work in most, but not all situations. In general,whenever multiple VCFs are read simultaneously, they must be indexed and therefore alsocompressed.BCFtools is designed to work on a stream. It regards an input file “-” as the standard input(stdin) and outputs to the standard output (stdout). Several commands can thus be combinedwith Unix pipes.

https://samtools.github.io/bcftools/bcftools.htmlΤμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 48 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

Πρακτική Εφαρμογή

Άσκηση 7η

Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 49 / 50

ΕισαγωγήΧρήσιμα είδη αρχείων

Εργαλεία CLIΠρακτική Εφαρμογή

Ερωτήσεις;

?Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 50 / 50