![Page 1: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/1.jpg)
Recherche dans des bases de données de séquences
biologiques
Using BLAST to Search Sequence
Databases
Cédric Notredame
![Page 2: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/2.jpg)
-The inside of BLAST
-Using BLAST
-Adapting BLAST to your needs
Outline
-Evolution and Sequence Similarity
-Searching Protein Domains with BLAST
-Digging Genomes
![Page 3: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/3.jpg)
Two Minutes of the
Evolutionnary Clock…
![Page 4: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/4.jpg)
An Alignment is a STORY
ADKPKRPLSAYMLWLN
ADKPKRPKPRLSAYMLWLNADKPRRPLS-YMLWLN
ADKPKRPLSAYMLWLN ADKPKRPLSAYMLWLN
Mutations+
Selection
![Page 5: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/5.jpg)
An Alignment is a STORY
ADKPRRP---LS-YMLWLNADKPKRPKPRLSAYMLWLN
Mutation
InsertionDeletion
ADKPKRPLSAYMLWLN
ADKPKRPKPRLSAYMLWLNADKPRRPLS-YMLWLN
ADKPKRPLSAYMLWLN ADKPKRPLSAYMLWLN
Mutations+
Selection
![Page 6: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/6.jpg)
How Do Sequences Evolve ?
In a structure, each Amino Acid plays a Special Role
OmpR, Cter Domain
In the core, SIZE MATTERS
On the surface, CHARGE MATTERS
--+
![Page 7: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/7.jpg)
Why Does It Make Sense To Align Sequences ?
SameSequence
Same Function
Same 3D Fold
Same Origin
![Page 8: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/8.jpg)
How Can We Compare Sequences ?The Twilight Zone
Length
%Sequence Identity
100
Same 3D Fold
Twilight Zone
Similar SequenceSimilar Structure
30%
Different SequenceStructure ????
30
![Page 9: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/9.jpg)
Different molecular clocks for different proteins--another prediction
![Page 10: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/10.jpg)
A few Basic Definitions
![Page 11: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/11.jpg)
A few Definitions
Query : Your sequence
Subject: The database against which you search
Heuristic: Algorithm that does not guaranty the optimal solution
![Page 12: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/12.jpg)
Other Important DefinitionsIdentity
Proportion of IDENTICAL residues between two sequences. Depends on the Alignment. Unit: the % id
Homology Sequences SIMILAR enough are sometimes HOMOLOGOUSHOMOLOGY COMMON ANCESTORUnit: Yes or No!DIFFERENT sequences can also be Homologous
SimilarityProportion of SIMILAR residuesTwo residues are similar if their substitution cost is higher than 0. Depends on the matrix Unit: the %similarity
![Page 13: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/13.jpg)
More Important Definitions
HitA sequence that matches your sequence and reported by BLAST.
E-ValueExpectation valueHow many times would you expect to find a hit by chance only?
Depends on the alignment.Depends on the matrixDepends on the databaseSensitive to Low complexity regions
Unit: must be lower than 0.0001 to mean something
![Page 14: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/14.jpg)
A Good Hit Is Something You
Would Not Expect by Chance
![Page 15: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/15.jpg)
What is BLAST ?
![Page 16: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/16.jpg)
BLAST
BLAST is a Program Designed for
RAPIDLY Comparing Your Sequence
With every Sequence in a database
and REPORT the most SIMILAR
sequences
Basic Local Alignment Search Tool
![Page 17: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/17.jpg)
Database Search
1-Query
3-Database
4-Statistical Evaluation (E-Value)
PROBLEM: LOCAL ALIGNMENT (SW)TOO SLOW
2-Comparison Engine
LOCAL Alignment
![Page 18: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/18.jpg)
Database Search
1.10e-20
10
1.10e-100
1.10e-2
1.10e-1
10
3
1
3
6
1.10e-2
1
20
15
13
SWQ
BLAST
![Page 19: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/19.jpg)
BLAST
BLAST is a Heuristic Smith and Waterman
Basic Local Alignment Search Tool
BLAST = 3 STEPS
1-Decide who will be compared
This is where Blast SAVES TIME
This is where it LOSES HITS
Most BLAST parameters refer to this step
![Page 20: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/20.jpg)
BLAST
BLAST is a Heuristic Smith and Waterman
Basic Local Alignment Search Tool
BLAST = 3 STEPS
1-Decide who will be compared
2-Check the most promising Hits
3-Compute the E-value of the most interesting Hits
![Page 21: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/21.jpg)
Heuristic Algorithms
Smith and Waterman • Exact Local Dynamic Programming, 1981
FASTA • Lipman and Pearson, 1985• Looks for similar words (k-tup) on the same diagonal.• Comparison on the sequences one by one…
BLAST• Altschul et al., 1990• The most widely cited tool in Biology• www.ncbi.nlm.nih.gov/Education/BLASTinfo/tut1.html
BLASTA Bit of History
![Page 22: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/22.jpg)
The Inside of BLAST
![Page 23: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/23.jpg)
Inside BLAST
Step 1: finding the worthy words
RELQuery
RSLRSL
AAAAACAAD
YYY
AAAAACAAD
YYY
List of all the 3AA words thatCan be found in the database
...
ACT
RSL
TVF
ACT
RSL
TVF
Words with a score > T
score > T
...
...
LKPLKP
LKPLKP
score < T
![Page 24: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/24.jpg)
Inside BLAST
ACT
RSL
TVF
ACT
RSL
TVF
List of « interesting » words > T
...
...
Step 2: Eliminate the database sequences that do not contain any interesting word
ACTACTACT
RSL
RSL TVF
RSLRSL
RSLRSL TVFTVF
Sequences within the database
Sequences containing interesting words (Hits)
Sequences containing interesting words (Hits)
Look for «interesting»
words
![Page 25: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/25.jpg)
Inside BLAST: the end
Step 3: Extension of the Hits
Database sequence
Qu
er
y
X
•2 "Hits" on the same diagonal distant by less than X
Database sequence
Qu
er
y
X
Extension by limited Dynamic Programming
![Page 26: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/26.jpg)
The Statistics in BLAST
![Page 27: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/27.jpg)
Evaluation of the score •Raw Score
Sum of the substitutions and gap penalties.
Not very informative
BLAST Statistics: Raw Score
![Page 28: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/28.jpg)
BLAST Statistics: P Values
Derived Statistics•p-value
Probability of finding an alignment with such a score, by chance.
The lower, the better
![Page 29: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/29.jpg)
Just as the sum of a large number of independent identically distributed (i.i.d) random variables tends to a normal distribution, the maximum of a large number of i.i.d. random variables tends to an extreme value distribution.
normal distribution Extreme value distribution(Gumbel)
BLAST Statistics: P-Values
![Page 30: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/30.jpg)
P-Value: Probability that a random alignments obtainsa score superior or Equal to X
K must be calibrated with the database compositionLambda is calibrated with the matrix being used
BLAST Statistics: P-Values
![Page 31: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/31.jpg)
Derived Statistics•E-value
Number of alignments expected by chance
The lower, the better: <0.00001
For Values Lower than 0.0001, E-Value ~ P-Value
The E-Values are easier to compare than P-Values
BLAST Statistics: E-Values
![Page 32: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/32.jpg)
•Bit ScoreEvaluates the amount of information in
the alignmentMakes it possible to compare
alignments
BLAST Statistics: Bit-Score
![Page 33: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/33.jpg)
BLAST Statistics: Booby Trap!
The E-Value depends on N, theDatabase size.
If N increases, some Hits can be lost
![Page 34: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/34.jpg)
P31383 Vs YEAST
P31383 Vs UniProt
![Page 35: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/35.jpg)
The Many Flavorsof
BLAST
![Page 36: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/36.jpg)
![Page 37: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/37.jpg)
![Page 38: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/38.jpg)
![Page 39: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/39.jpg)
Database Against Database:« Farm-Blast »
Ideal for finding Orthologues
Genome 1
Genome 2
![Page 40: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/40.jpg)
The Classics
1 SequenceVs
A sequence Db
![Page 41: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/41.jpg)
Program Query Database
blastp protein protéine
blastn nucleotide nucleotide
tblastn
protein protein
nucleotide
VS
blastx
protein
nucleotide
proteinVS
tblastx
protein
nucleotide
protein
nucleotide
VS
The Many Flavors of BLAST
![Page 42: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/42.jpg)
Program Query Database
Psi-blast protein protein
RPS-blast protein Domain
The Many Flavors of BLAST
DART-blast protein protein
mega-blast DNA Large DNA
![Page 43: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/43.jpg)
If your Sequence is a Protein
![Page 44: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/44.jpg)
If your Sequence is made of DNA
![Page 45: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/45.jpg)
BLASTing with DNA: Asking the right question.
![Page 46: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/46.jpg)
Keeping an Eye on the Public Servers.
![Page 47: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/47.jpg)
Using BLAST:The Basic Way
![Page 48: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/48.jpg)
Database Search
Database Search Result=Prediction
Protein X IS or IS NOT homologous to the QUERRY.
![Page 49: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/49.jpg)
Submitting your Query
![Page 50: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/50.jpg)
Understanding the BLAST Output
Graphic Display
Hit List
Alignments
![Page 51: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/51.jpg)
Understanding the Graphic Display
![Page 52: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/52.jpg)
Understanding the Hit List
![Page 53: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/53.jpg)
Understanding the Alignments
Low Complexity
![Page 54: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/54.jpg)
Low Complexity Regions
Regions with a single residue repeated many times (like the AFGP) can produce meaningless alignments.
The statistics expect ALL the regions to look the same « on average ».
By default, BLAST replaces these regions with Xs
![Page 55: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/55.jpg)
Reproducing The Experiment
Everything you need to know to reproduce your search is at the bottom.
BLAST searches are notoriously difficult to reproduce
![Page 56: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/56.jpg)
Database Searches:A few Guidelines
![Page 57: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/57.jpg)
DataBase Search According to Pearson
![Page 58: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/58.jpg)
DataBase Search According to Pearson
![Page 59: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/59.jpg)
DataBase Search According to Pearson
![Page 60: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/60.jpg)
Using Weak Matches To Identify Domains
RNA Recognition Motif
![Page 61: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/61.jpg)
Three Short-Sighted Witnesses
are more Informative than a single eagle-eye
witness
![Page 62: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/62.jpg)
Using BLAST:Trouble Shooting
![Page 63: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/63.jpg)
![Page 64: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/64.jpg)
Domain 2
Domain 1
No Overlap
![Page 65: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/65.jpg)
![Page 66: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/66.jpg)
![Page 67: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/67.jpg)
![Page 68: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/68.jpg)
![Page 69: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/69.jpg)
Advanced Blast on the EMBnet
www.ch.embnet.org/software/aBLAST.html
• More choice on the databases• Change all the parameters
![Page 70: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/70.jpg)
Adapting BLAST To your Problem
![Page 71: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/71.jpg)
![Page 72: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/72.jpg)
![Page 73: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/73.jpg)
![Page 74: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/74.jpg)
![Page 75: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/75.jpg)
Domain-FlavoredBLAST
![Page 76: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/76.jpg)
![Page 77: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/77.jpg)
Psi-BLAST
![Page 78: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/78.jpg)
BLAST latest Flavor
PSI-BLAST
-Position Specific Iterated Version of BLAST.
-Uses Profiles.
-More Sensitive.
![Page 79: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/79.jpg)
Psi-BLAST Iteration
C C
C C
C CC C
C SC C
C CC C
C SC C
![Page 80: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/80.jpg)
Psi-BLAST Iteration
C C
C C
C CC C
C SC C
C CC C
C SC C
![Page 81: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/81.jpg)
Psi-BLAST Iteration
C C
C C
C CC C
C SC C
C CC C
C SC C
![Page 82: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/82.jpg)
BLAST PSSM or weight matrix
M Y C E Q U E N C E S . .A 0 2 -1 0 0 0 0 -1 0 -1 3 S -1 -1 -1 0 -1 0 0 0 5 -1 -1 C -1 -1 10 1 -1 0 0 5 5 4 -1 ..Y -1 6 -1 -1 -1 0 -1 -1 -1 -1 -1V -1 1 -1 -1 -1 0 -1 -1 -1 1 -1
![Page 83: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/83.jpg)
Asking a Question With Psi-BLAST
![Page 84: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/84.jpg)
Asking a Question With Psi-BLAST
Is the Leghemoglobin related to the Human Hemoglobin ?
![Page 85: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/85.jpg)
Asking a Question With Psi-BLAST
![Page 86: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/86.jpg)
Asking a Question With Psi-BLAST
![Page 87: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/87.jpg)
Asking a Question With Psi-BLAST
![Page 88: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/88.jpg)
![Page 89: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/89.jpg)
Which Domain Organisation
For Your Protein:
(Reverse PSI-BLAST)
![Page 90: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/90.jpg)
Asking a Question With RPS-BLAST
PSI-BLAST: Discovering Domains
RPS-BLAST: Which KNOWN Domain in my protein ?
DomainDatabase
Sequence
![Page 91: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/91.jpg)
Asking a Question With RPS-BLAST
![Page 92: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/92.jpg)
False Hits caused by the domain low complexity (see E-values)
![Page 93: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/93.jpg)
RPS-BLAST:Filtering Or Not Filtering Low
COmplexity
![Page 94: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/94.jpg)
![Page 95: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/95.jpg)
How Many Proteins Have the same
Domain Structure as Mine ?
(CDART)
![Page 96: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/96.jpg)
Asking a Question With CDART
CDART:
Conserved Domain Architecture Retrieval Tool
Finds the proteins that contain the same domains as your protein.
![Page 97: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/97.jpg)
Asking a Question With CDART
PSI-BLAST: Discovering Domains
RPS-BLAST: Which known Domain in my protein ?
CDART:
Which domains are COMMONLY ASSOCIATED with the domain I am interested in ?
-Which proteins have the SAME DOMAIN ORGANIZATION as my proteins ?
![Page 98: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/98.jpg)
![Page 99: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/99.jpg)
![Page 100: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/100.jpg)
Filtering:
-By Domain
-By Species
![Page 101: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/101.jpg)
-I want to Find all the Insect proteins containing a June/Fos organisation.
![Page 102: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/102.jpg)
Asking a Question With CDART
-I want to see all the Insect proteins containing a June/Fos organisation.
![Page 103: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/103.jpg)
Asking a Question With CDART
-I want to see all the Insect proteins containing a June/Fos organisation.
![Page 104: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/104.jpg)
Asking a Question With CDART
-I want to see all the Insect proteins containing a June/Fos organisation.
![Page 105: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/105.jpg)
Genome FlavoredBLAST
![Page 106: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/106.jpg)
![Page 107: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/107.jpg)
Standard Blastn with long word size
![Page 108: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/108.jpg)
MegaBLAST=Longer Words
Faster BUT Less sensitive
RELQuery
RSLRSL
AAAAACAAD
YYY
AAAAACAAD
YYY
List of all the 3AA words thatCan be found in the database
...
ACT
RSL
TVF
ACT
RSL
TVF
Words with a score > T
score > T
...
...
LKPLKP
LKPLKP
score < T
![Page 109: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/109.jpg)
![Page 110: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/110.jpg)
The NcBi BlAsT GEnoMe SecTion is MesSy
![Page 111: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/111.jpg)
![Page 112: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/112.jpg)
Makes it possible to select predicted proteomes
![Page 113: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/113.jpg)
![Page 114: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/114.jpg)
Venter-BLAST
![Page 115: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/115.jpg)
When it comes toBLASTingEukaryotic Genomes:
WWW.ENSEMBL.ORG
![Page 116: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/116.jpg)
Asking a Question With ENSEMBL-BLAST
ENSEMBL:
WHERE are located the genes coding for Homologues of my protein
![Page 117: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/117.jpg)
![Page 118: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/118.jpg)
![Page 119: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/119.jpg)
![Page 120: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/120.jpg)
CONCLUSION
![Page 121: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/121.jpg)
-
-BLAST is a fast approximation for the Full Local Dynamic Programming. It is convenient to scan Databases.
-BLAST computes the Statistical Significance of the Alignments (E-Value, P-Value).
Searching Databases
-The main pitfall to avoid are low complexity regions
![Page 122: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/122.jpg)
-
Searching Databases
-USE Psi-Blast to find remote homologues
-USE blastp the best educated blast to discover the function of your protein
-USE RPS-Blast to find domains in your protein (Interpro for EBI)
-USE ENSEMBL-Blast for the human Genome
![Page 123: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/123.jpg)
A few Extra Ressources
![Page 124: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/124.jpg)
![Page 125: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/125.jpg)
![Page 126: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/126.jpg)
![Page 127: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/127.jpg)
Tunning BLAST
![Page 128: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/128.jpg)
BLAST Tunning
![Page 129: Recherche dans des bases de données de séquences biologiques](https://reader035.vdocuments.pub/reader035/viewer/2022081603/56814793550346895db4c52d/html5/thumbnails/129.jpg)