ΕισαγωγήστηΒιοπληροφορική · addreplacerg adds or replaces rg tags ......
TRANSCRIPT
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
Εισαγωγή στη Βιοπληροφορική
Αλέξανδρος Κ. Δημόπουλος
Πρόγραμμα Μεταπτυχιακών Σπουδών“Τεχνολογίες Πληροφορικής στην Ιατρική και τη Βιολογία” (ΤΠΙΒ)
Τμήμα Πληροφορικής και ΤηλεπικοινωνιώνΕθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Ακαδημαϊκό έτος 2017-18
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 1 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
NGS Overview
Biological
Sample
NGS Instrument Data
Library
PreparationSequencing
Data
Analysis
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 2 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
NGS “Hardware”
Life Technologies Ion ProtonLife Technologies SOLIDRoche GS-FLX
Illumina HiSeq Life Technologies Ion Torrent Illumina MiSeq
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 3 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
Τεχνολογίες NGS I
� fluorescence-based (Illumina)
� hydrogen ion /pH-mediated based (Life)
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 4 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
Τεχνολογίες NGS II
http://www.hindawi.com/journals/bmri/2012/251364
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 5 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
Αυξανόμενη ζήτηση
http://omicsmaps.com/
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 6 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
Επιλογές sequencing
Single-endΠιο οικονομικόΚατάλληλο για πιο γενικού σκοπούαναλύσεις, π.χ. DE
Paired-endΠερισσότερες πληροφορίες για τομήκος και τη θέση του readΧρήσιμο για splice junctions, indels κτλ
Zhernakova, Daria V., et al. “DeepSAGE reveals genetic variants associated with alternative polyadenylation and expression of coding and non-coding transcripts.”
(2013): e1003594.Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 7 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
Αναγκαία η βιο-πληροφορική I
Binary data representation
Genomic data representation
{0,1}
{A,C,G,T}
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 8 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
Αναγκαία η βιο-πληροφορική II
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 9 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
fastqfastasam/bam
BEDVCFindexes
FASTQ file format
FASTQText-based format για αποθήκευση βιολογικών ακολουθιών
Raw unaligned reads (νουκλεοτίδια)Αντίστοιχα quality scores
@HWI-ST661:319:D28MYACXX:6:1101:1170:2180 1:N:0:GTGGCCNAGTGGTTTATGCCTGTAATCCCAGCATTTTGGGAGACGAAGTTGAGAN+#1:ADDFFHGHHHIJGHHIIJJJIIIEHIJJJIHEHIGHIJJHHJGHC#
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 10 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
fastqfastasam/bam
BEDVCFindexes
FASTA file format I
FASTAText-based format για αναπαράσταση είτε ακολουθιών νουκλεοτιδίων είτε πεπτιδίων,κωδικοποιημένα σαν ένα χαρακτήρα.
Ξεκινά με τον χαρακτήρα “>” και ακολουθείται από ένα αλφαριθμητικό αναγνώρισης(identification code)Μια ή περισσότερες γραμμές που περιέχουν την ακολουθία
>1 dna:chromosome chromosome:GRCh37:1:1:249250621:1NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTAAACCC
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 11 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
fastqfastasam/bam
BEDVCFindexes
FASTA file format II
Κατά το alignment τα read που υπάρχουν σε ένα fastq αρχείο γίνονται map σε έναγονιδίωμα αναφοράς που είναι αποθηκευμένο σε fasta μορφήΥπάρχουν διάφορα διαθέσιμα γονιδιώματα, π.χ.:
Ανθρώπινο: hg16 (2003), hg17 (2004), hg18 (2006), hg19 (NCBI)/GRCh37 (Ensembl)(2009), hg38/GRCh38 (2013)Ποντίκι: mm7 (2005), mm8 (2006), mm9 (2007), mm10 (2011)D. melanogaster: dm1 (2003), dm2 (2004), dm3 (2006), dm6 (2014). . .
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 12 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
fastqfastasam/bam
BEDVCFindexes
SAM/BAM format I
SAM - Sequence AlignmentMapΤο SAM format αποθηκεύει aligned reads και είναι ανεξάρτητο της τεχνολογίας πουχρησιμοποιήθηκε για το sequencing
SAM: textbasedBAM: binary
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 13 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
fastqfastasam/bam
BEDVCFindexes
SAM/BAM format II
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 14 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
fastqfastasam/bam
BEDVCFindexes
SAM/BAM format III
Read Name
Bit wise flag Reference
name
1-based leftmost position
MAPping Quality CIGAR String
sequence
Base Quality
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 15 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
fastqfastasam/bam
BEDVCFindexes
BED format
BED - Browser Extensible DataΑνά γραμμή έχουν
3 υποχρεωτικά πεδίαchrom - Το όνομα του χρωμοσώματος, π.χ. chr3, chrY, chr2_randomchromStart - Την αρχική θέση του feature στο χρωμόσωμα - η αρίθμηση είναι 0-based.chromEnd - Η τελική θέση του feature στο χρωμόσωμα. Η τελική θέση δεν εμπεριέχεταιστο feature. Π.χ. Οι πρώτες 100 βάσεις ενός χρωμοσώματος ορίζονται ως chromStart=0,chromEnd=100, και είναι οι βάσεις 0-99.
και άλλα εννιά προαιρετικάname, score, strand, thickStart, thickEnd, itemRgb, blockCount, blockSizes, blockStarts
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 16 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
fastqfastasam/bam
BEDVCFindexes
VCF format I
VCF files - Variant Call FormatΓια αποθήκευση πολυμορφισμώνΧρησιμοποιείται ευρέως από το 1000 Genomes ProjectΜόνο οι πολυμορφισμοί αποθηκεύονται μαζί με το reference genome
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 17 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
fastqfastasam/bam
BEDVCFindexes
VCF format II
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 18 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
fastqfastasam/bam
BEDVCFindexes
VCF format III
AF: allele frequency for each ALT allele
DP: combined depth across samples
DB: dbSNP membership
H2: membership in hapmap2
NS: Number of samples with data
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 19 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
fastqfastasam/bam
BEDVCFindexes
index files
Με τη δημιουργία index, είναι πιο γρήγορη η πρόσβαση στα δεδομένα καθώς επιτρέπεταιη μη-σειριακή αναζήτηση.
fasta→ faibam→ baivcf→ idxvcf.gz→ tbi
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 20 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
samtools I
samtoolsSamtools is a suite of programs for interacting with high-throughput sequencing data. Itconsists of three separate repositories:Samtools Reading/writing/editing/indexing/viewing SAM/BAM/CRAM formatBCFtools Reading/writing BCF2/VCF/gVCF files and calling/filtering/summarising SNPand short indel sequence variantsHTSlib A C library for reading/writing high-throughput sequencing data
http://www.htslib.org/
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 21 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
samtools II
$ samtools
Program: samtools (Tools for alignments in the SAM format)Version: 1.3 (using htslib 1.3)
Usage: samtools <command> [options]
Commands:-- Indexing
dict create a sequence dictionary filefaidx index/extract FASTAindex index alignment
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 22 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
samtools III
-- Editingcalmd recalculate MD/NM tags and '=' basesfixmate fix mate informationreheader replace BAM headerrmdup remove PCR duplicatestargetcut cut fosmid regions (for fosmid pool only)addreplacerg adds or replaces RG tags
-- File operationscollate shuffle and group alignments by namecat concatenate BAMsmerge merge sorted alignmentsmpileup multi-way pileup
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 23 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
samtools IV
sort sort alignment filesplit splits a file by read groupquickcheck quickly check if SAM/BAM/CRAM file appears intactfastq converts a BAM to a FASTQfasta converts a BAM to a FASTA
-- Statisticsbedcov read depth per BED regiondepth compute the depthflagstat simple statsidxstats BAM index statsphase phase heterozygotesstats generate stats (former bamcheck)
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 24 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
samtools V
-- Viewingflags explain BAM flagstview text alignment viewerview SAM<->BAM<->CRAM conversiondepad convert padded BAM to unpadded BAM
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 25 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
samtools VI
sort: κατά τη διαδικασία του alignment το τελικό sam αρχείο περιέχει σε τυχαίασειρά τα reads. Για ταχύτερη επεξεργασία αλλά και μετατροπή σε bam χρειάζεταιταξινόμηση
samtools sort sample.bam sample.sorted -@8
index: για την ταχύτερη πρόσβαση στα δεδομένα του bam αρχείουsamtools index sample.sorted.bam
view: για μετατροπή από sam σε bam και αντίστροφα. Για φιλτράρισμα bam/samαρχείου βάσει συνθηκών
samtools view sample.bamsamtools view -f 0x2 sample.sorted.bamsamtools view -F 0x2 sample.sorted.bam
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 26 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
Bedtools I
bedtools: a powerful toolset for genome arithmeticCollectively, the bedtools utilities are a swiss-army knife of tools for a wide-range ofgenomics analysis tasks. The most widely-used tools enable genome arithmetic: that is, settheory on the genome. For example, bedtools allows one to intersect, merge, count,complement, and shuffle genomic intervals from multiple files in widely-used genomic fileformats such as BAM, BED, GFF/GTF, VCF. While each individual tool is designed to doa relatively simple task (e.g., intersect two interval files), quite sophisticated analyses canbe conducted by combining multiple bedtools operations on the UNIX command line
http://bedtools.readthedocs.io/en/latest/
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 27 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
Bedtools II
$ bedtoolsbedtools: flexible tools for genome arithmetic and DNA sequence analysis.usage: bedtools <subcommand> [options]
The bedtools sub-commands include:
[ Genome arithmetic ]intersect Find overlapping intervals in various ways.window Find overlapping intervals within a window around
an interval....
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 28 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
Bedtools III
bedtools intersectBy far, the most common question asked of two sets of genomic features is whether or notany of the features in the two sets “overlap” with one another. This is known as featureintersection. bedtools intersect allows one to screen for overlaps between two sets ofgenomic features. Moreover, it allows one to have fine control as to how the intersectionsare reported. bedtools intersect works with both BED/GFF/VCF and BAM files as input.
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 29 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
Bedtools IV
$ bedtools intersectTool: bedtools intersect (aka intersectBed)Version: v2.21.0Summary: Report overlaps between two feature files.
Usage: bedtools intersect [OPTIONS] -a <bed/gff/vcf> -b <bed/gff/vcf>
Note: -b may be followed with multiple databases and/orwildcard (*) character(s).
...
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 30 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
Bedtools V
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 31 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
Bedtools VI
$ cat A.bedchr1 10 20chr1 30 40
$ cat B.bedchr1 15 20
$ bedtools intersect -a A.bed -b B.bedchr1 15 20
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 32 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
Bedtools VII
bedtools mergebedtools merge combines overlapping or “book-ended” features in an interval file into asingle feature which spans all of the combined features.
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 33 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
Bedtools VIII
$ bedtools mergeTool: bedtools merge (aka mergeBed)Version: v2.21.0Summary: Merges overlapping BED/GFF/VCF entries into a single interval.
Usage: bedtools merge [OPTIONS] -i <bed/gff/vcf>
...
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 34 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
Bedtools IX
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 35 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
Bedtools X
$ cat A.bedchr1 100 200chr1 180 250chr1 250 500chr1 501 1000
$ bedtools merge -i A.bedchr1 100 500chr1 501 1000
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 36 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
Bedtools XI
bedtools genomecovbedtools genomecov computes histograms (default), per-base reports (-d) and BEDGRAPH(-bg) summaries of feature coverage (e.g., aligned sequences) for a given genome.
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 37 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
Bedtools XII
$ bedtools genomecov
Tool: bedtools genomecov (aka genomeCoverageBed)Version: v2.21.0Summary: Compute the coverage of a feature file among a genome.
Usage: bedtools genomecov [OPTIONS] -i <bed/gff/vcf> -g <genome>
...
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 38 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
Bedtools XIII
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 39 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
Bedtools XIV
$ cat A.bedchr1 10 20chr1 20 30chr2 0 500
$ cat my.genomechr1 1000chr2 500
$ bedtools genomecov -i A.bed -g my.genomechr1 0 980 1000 0.98chr1 1 20 1000 0.02chr2 1 500 500 1
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 40 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
Bedtools XV
genome 0 980 1500 0.653333genome 1 520 1500 0.346667
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 41 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
VCFtools I
Welcome to VCFtoolsVCFtools is a program package designed for working with VCF files, such as thosegenerated by the 1000 Genomes Project. The aim of VCFtools is to provide easilyaccessible methods for working with complex genetic variation data in the form of VCFfiles.
https://vcftools.github.io/index.html
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 42 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
VCFtools II
$ vcftools
VCFtools (0.1.15)© Adam Auton and Anthony Marcketta 2009
Process Variant Call Format files
For a list of options, please go to:https://vcftools.github.io/man_latest.html
Alternatively, a man page is available, type:man vcftools
Questions, comments, and suggestions should be emailed to:[email protected]
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 43 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
VCFtools III
vcf-isecCreates intersections and complements of two or more VCF files. Given multiple VCFfiles, it can output the list of positions which are shared by at least N files, at most N files,exactly N files, etc. The first example below outputs positions shared by at least two filesand the second outputs positions present in the files A but absent from files B and C.
$ vcf-isec -n +2 A.vcf.gz B.vcf.gz | bgzip -c > out.vcf.gz
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 44 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
VCFtools IV
vcf-mergeMerges two or more VCF files into one so that, for example, if two source files had onecolumn each, on output will be printed a file with two columns. See also vcf-concat forconcatenating VCFs split by chromosome.
$ vcf-merge A.vcf.gz B.vcf.gz C.vcf.gz | bgzip -c > out.vcf.gz
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 45 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
VCFtools V
vcf-concatConcatenates VCF files (for example split by chromosome). Note that the input and outputVCFs will have the same number of columns, the script does not merge VCFs by position(see also vcf-merge).
$ vcf-concat A.vcf.gz B.vcf.gz C.vcf.gz | gzip -c > out.vcf.gz
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 46 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
VCFtools VI
vcf-compareCompares positions in two or more VCF files and outputs the numbers of positionscontained in one but not the other files; two but not the other files, etc, which comes handywhen generating Venn diagrams. The script also computes numbers such as nonreferencediscordance rates (including multiallelic sites), compares actual sequence (useful whencomparing indels), etc.
$ vcf-compare A.vcf.gz B.vcf.gz C.vcf.gz
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 47 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή samtools
bedtoolsvcftoolsbcftools
bcftools
bcftoolsBCFtools is a set of utilities that manipulate variant calls in the Variant Call Format (VCF)and its binary counterpart BCF. All commands work transparently with both VCFs andBCFs, both uncompressed and BGZF-compressed.Most commands accept VCF, bgzipped VCF and BCF with filetype detected automaticallyeven when streaming from a pipe. Indexed VCF and BCF will work in all situations.Un-indexed VCF and BCF and streams will work in most, but not all situations. In general,whenever multiple VCFs are read simultaneously, they must be indexed and therefore alsocompressed.BCFtools is designed to work on a stream. It regards an input file “-” as the standard input(stdin) and outputs to the standard output (stdout). Several commands can thus be combinedwith Unix pipes.
https://samtools.github.io/bcftools/bcftools.htmlΤμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 48 / 50
ΕισαγωγήΧρήσιμα είδη αρχείων
Εργαλεία CLIΠρακτική Εφαρμογή
Πρακτική Εφαρμογή
Άσκηση 7η
Τμήμα Πληροφορικής και Τηλεπικοινωνιών - ΠΜΣ ΤΠΙΒ Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών 49 / 50