sequence comparison

42
Sequence comparison Uri heinemann

Upload: alessa

Post on 12-Jan-2016

64 views

Category:

Documents


2 download

DESCRIPTION

Sequence comparison. Uri heinemann. הקדמה:. למה צריך השוואות רצף? מצאנו חלבון או רצף כלשהו שאנחנו לא מכירים. נרצה לדעת האם דומה לחלבון או רצף מוכר. לתכונות אלו יש מושג ביולוגי - הומולוגים - .h omologous. Homologous :. Homologous : רצפים דומים בעלי מקור משותף. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Sequence comparison

Sequence comparison

Uri heinemann

Page 2: Sequence comparison

:הקדמה

למה צריך השוואות רצף?

מצאנו חלבון או רצף כלשהו שאנחנו לא מכירים.•

נרצה לדעת האם דומה לחלבון או רצף מוכר.•

לתכונות אלו יש מושג ביולוגי - הומולוגים •

-.homologous

Page 3: Sequence comparison

Homologous:Homologous :.רצפים דומים בעלי מקור משותף

,orthologousחילקו את הגנים ההומולגים לשני סוגים: paralogous.

orthologous– גנים באורגניזמים שונים, בעלי מקורמשותף.

( alpha hemoglobin in man and mouse) לדוג':

paralogous – גנים שונים באותו אורגניזם בעלי גן. )alpha and beta hemoglobinקדמון משותף ) לדוג':

Page 4: Sequence comparison

?למה זה מעניין אותנו

גנים הומולוגים חולקים תכונות כמו מבנה ,תפקיד, •אזורים פעילים זהים.

לכן, לפני התחלה של מחקר מולקולרי, נוכל לדעת •מה אנחנו מחפשים.

אם הגנים מספיק דומים נוכל להניח שהגנים בעלי •תפקיד זהה.

Page 5: Sequence comparison

:יש עוד סיבות

,DNAמאגרי הנתונים של הרצפים השונים: •mRNA.חלבונים, גדלים בצורה מהירה,

באמצעות כלים חישוביים, ניתן למצוא תופעות •שלא ניתן היה למצוא בדרכים אחרות.

שימור גבוה )מעבר למצופה( של קטעים מסוימים, •יכול להצביע על חשיבות ביולוגית רבה.

Page 6: Sequence comparison

?אם כך אך משווים שני רצפים

אולי נעשה זאת פשוט ידנית?•

רוצים לאפשר רווחים ברצפים ?•

אפשרויות. קיבלנו•

יש אלגוריתם דינאמי לפתירת הבעיה. •

)M+N(N

Page 7: Sequence comparison

Smith-Waterman האלגוריתם הבסיסי הוא אלגוריתם חמדני עם •

נוסחת הרקורסיה:

F )I, J( = max

F)I-1 , J-1( + S)Xi , Yj(F)I-1 , J( – D F)I , J-1( – D

- פונקצית )i,j(S - המקום בטבלה; )F)i,j כאשר - הניקוד עבור רווח.Dהניקוד;

ניתן דוגמה קצרה של ריצת האלגוריתם, כדי להראות את פעולתו.

Page 8: Sequence comparison

Smith-Waterman 1-נשווה שני רצפים קצרים עם פונקצית הניקוד:

D = -2 - עבור התאמה ו - 1עבור אי התאמה, עבור רווח.

0A

1T2

C

3 0

A 1

T 2

G 3

C 4

0 -2 -4 -6

- 3 -1 1 -2

-2 -1 2 1

-2 -3 0 1

-2 -3 -2 1

קיבלנו רצף התאמה מקסימאלית של:

A T - C

A T G C

Page 9: Sequence comparison

:אבל מה הקשר לרצפים ביולוגים

כדי לתת משמעות ביולוגית לאלגוריתם, נותנים לו פונקציות ניקוד שונות.

נסו לבנות פונקציות ניקוד כך ששני רצפים הומולוגים יקבלו ניקוד גבוה וכאלה שלא

הומולוגים - ניקוד נמוך.

Page 10: Sequence comparison

:שיטת הניקוד

אנו משווים שני רצפים, איך נשווה אותם? האם כשזהים ניתן ניקוד חיובי •

ואחרת שלילי? ומה אם רווחים?

יש שתי גישות לניקוד רווחים - עונש קבוע על כל רווח או תשלום קבוע על •

פתיחת רווח ולאחר מכן - תשלום )נמוך יותר( על כל תו חסר.

משתמשים בד"כ במטריצת הזהות. DNAלגבי •

.PAM,BLOSUMישנם שתי שיטות מקובלות לניקוד של ח.אמינו: •

Page 11: Sequence comparison

PAM Dayhoff,Schwartz& Orcutt)1978( :

בנו עץ התפלגות אבולוציוני מקבוצות חלבונים •

קרובות. מהעץ הסיקו מה הסיכוי שח.אמינו

.Tספציפית תחליף ח.אמנית אחרי זמן

וכדי להגיע לזמנים T=1הם יצרו מטריצה לזמן •

יח' זמן של 10 זה PAM10 ולכן s)t(=s)1(tאחרים

מרחק אבלוציוני.

PAM250שיטת ניקוד המקובלת היא •

Page 12: Sequence comparison

BLOSUM Henikoff & Henikoff :

)דומה לחלוקה Lחילקו רצפים לקבוצות לפי אחוז דמיון •

לעץ לפי רמה מסוימת(. הסיקו מזה מהו הסיכוי שח.אמינו

תחליף את השנייה בין הקבוצות השונות. .15% - חלוקה לקבוצות לפי מקדם של Blusom15לכן •

ככל שהמקדם יותר נמוך בקבוצה רצפים יותר רחוקים •מבחינה אבולוציונית ולכן קריטריון לרצפים יותר רחוקים.

.Blusom60, Blusom50 טבלאות בשימוש נפוץ •

Page 13: Sequence comparison

:שוב בעיה מצאנו אלגוריתם שמוצא - האם שני רצפים נתונים •

הם הומולוגים או לא.

כמה זמן ייקח ללוגריתם למצוא את הרצף •ההומולוגי?

של זמן ריצה )O)m*nיעילות האלגוריתם היא - • אורכי הרצפים(. m,nוזיכרון)

היום מאגרי הנתונים הם באורכים של מיליוני • כיום DNA בסיסי 10,000,000בסיסים ) יש כ במאגרי מידע(.

Page 14: Sequence comparison

?מה עושים

אם מניחים מס' הנחות לגבי המצבים בהם נקבל •דמיון, נוכל לקבל אלגוריתם הרבה יותר יעיל.

אחת מההנחות המוקבלות היא שכל שני רצפים •הומולוגים מכילים רצפים קטנים של דמיון מוחלט.

כמובן, כל אלגוריתם שנבנה בהסתמך על הנחה •כלשהי, לא תמיד מחזיר את התוצאה המיטבית –

Heuristic algorithm.

.FATSA, BLASTשני האלגוריתם המקובלים •

Page 15: Sequence comparison

BLAST[Altschul et al 1990]

בונה טבלה של הרצפים האפשריים בתוך רצף באורך • ח.גרעין(, ובודק אם 11 ח.אמינו 3מסוים )ברירת מחדל

ישנה התאמה לרצף במאגר מידע - מעל ערך סף .

עובר על מאגר המידע וכשמוצא התאמה לאחד הרצפים •בטבלה, מתחיל הרחבה של הרצף לשני הכיוונים, ללא

רווחים.

מחזיר את הרצפים בעלי הניקוד הגבוה ביותר.•

Page 16: Sequence comparison

BLAST [ Altschul et al 1990]

2VWCYVW

5RYVARY

מאגר מידע:

רצף להתאמה:

רצפים אפשריים

ARYMVWAA+C

+W++V

+Y+R

A

.15 סף מנמלי BLUSOM 62פונקצית הניקוד

ARYMVWAAARYVWC

Page 17: Sequence comparison

FASTA [pearson &Lipman 1988]

FASTA :עובדת בארבעה שלבים

- זהים בשני הרצפים, ktapמציאת רצפים בגודל 1. ח.2 היא ktapומיקומם בטבלה )ברירת המחדל של

האלכסונים הארוכים 10 ח.גרעין(. בחירת 6אמינו ו ביותר )אלכסון – רצפים לא חופפים(.

הארכה של הרצפים ע"י חיבור מס' רצפים ) גם מתחת 2.( וניקודם, לכל הרצפים יוצרים אלכסון ראשוני.ktapל

Page 18: Sequence comparison

FASTA [pearson &Lipman 1988]

ניסיון חיבר של מס' אלכסונים ראשונים )רק 3.כאלה שעברו סף מסוים נבחנים( ובחירת

האלכסון המקסימאלי.

מציאת הרצף המכסימלי עם רווחים, ע"י 4.האלגוריתם המקורי- שמצומצם רק לאפשרות

האלכסון.

Page 19: Sequence comparison

:ניתוח סטטיסטי

כשהתקבלה תוצאה של רצף מקסימאלי - האם •הניקוד המתקבל משמעותי מבחינה סטטיסטית או

לא.

אינטואיציה אפשרית לחישוב הסטטיסטי היא - •ניקוד של רצף ראנדומאלי בתנאים דומים וחשוב הסטייה הנדרשת כדי להגיע לתוצאה שהתקבלה.

מחזירים ( BLAST, FASTA)שני האלגוריתמים•גם ערך היתכנות.

Page 20: Sequence comparison

•E-value מס' הרצפים שימצאו רנדומאלית, עם ניקוד – שווה או גבוה, באורך זהה של רצף.

•FASTA:Z-scores מציין את הניקוד לכל –

התאמה -יחסית לאורך. ומביא גרף של התוצאות האקראיות.

•BLAST: P-value הסיכוי שלשני רצפים –

ראנדומאלים יהיה ניקוד גבוהה או שווה לניקוד שהתקבל.

:ניתוח סטטיסטי

Page 21: Sequence comparison

?מה ראינו עד עכשיו

מצאנו אלגוריתם דינאמי שיוכל למצוא גנים הומולוגים.•אלגוריתם זה לא היה מספיק יעיל ולכן יש שני אלגוריתמי •

.BLAST ו FASTAקירוב אם אחרי הניתוח הסטטיסטי יש משמעות לדמיון בין •

הרצפים, נוכל להסיק:

כנראה שהרצפים קרובים אבולוציונית ברמהמסוימת, או בעלי קירבה פונקציונלית.

אם ישנה חריגה מעל הרמה האבולוציוניתהצפויה, נוכל להסיק שאתרים אלה חשובים

מבחינת האורגניזם כמו אתרים פעילים, אתרי בקרה וכד'.

Page 22: Sequence comparison

:דוגמאות למחקרים

נראה דוגמאות משני מחקרים שהשתמשו בהשוואת •רצפים :

הראשון עוסק בהשוואת רצפיmRNA בין גנים .-דומים

shabalina SA et al.)2004( Comparative analysis of orthologous eukaryotic mRNAs: potential hidden functional signals. Nuclic Acids Res. 32(5):1774-1782.

השני עוסק ברצפים שמורים במיוחד בגנוםהאנושי.

Bejerano G et al.)2004( Ultraconserved elements in the Human

Genome. Science.304)5675(:1321-1325.

Page 23: Sequence comparison

Potential hidden functional signalsב David J. Lipman המחקר נעשה במעבדתו של•

National Center for Biotechnology Information Bethesda ,USA

אורתולוגים בין אדם mRNA החוקרים לקחו קטעי•לעכבר, עכבר לחולדה, ארבע משפחות יונקים,

ארבעה סוגי שמרים. start codonהשוו את הרצפים בין הקטעים בסביבת •

polyadenylation signal וליד ה stop codonsו)היתרון שקיבלו מס' נקודות יחוס(.

-30 5’ UTR

AUGStop codon

+5 - +35 3’ UTR

5’ UTR CDS 3’ UTR

00

Page 24: Sequence comparison

:Start codonסביבת ה

start הבסיסים לפני ה 30יש שימור מוגבר של •codon.)יחסית לשימור הצפוי( )בעיקר ביונקים(

יש שימור מוגבר של הבסיס השלישי בחלק •המקודד-יחסית לשאר החלק המקודד )רק אלה בעלי

מס' אופציות לחלבון נמדדו( )בעיקר בשמרים(.

כנראה שיש משמעות פונקציונאלית לרצפים אלה -•שמשלימים אחד את השני )שימור חזק ואז חלש

ביונקים הפוך בשמרים(.

Potential hidden functional signals

Page 25: Sequence comparison

Profiles of sequence conservation around the start codons in orthologous eukaryotic mRNAs. )A( Human–mouse. )B( Rat–mouse. )C( Multiple alignments of orthologous mRNAs from four orders of mammals. )D( Multiple alignments of orthologous mRNAs from four species of yeasts. Positions from –100 to –1 correspond to 5′-UTRs and positions from 1 to 100 correspond to CDSs. Blues, first codon positions; green, second codon positions; orange, 4-fold degenerate third codon positions.

Page 26: Sequence comparison

:במורד הרצף

יש ירידה של השימור יחסית 35 - +5+נמצא שבין •' )מובחן יותר ביונקים מאשר 3לרצף בכיוון

בשמרים(.

Potential hidden functional signals

Page 27: Sequence comparison

) C( Multiple alignments of orthologous mRNAs from four orders of mammals.)D( Multiple alignments of orthologous mRNAs from four species of yeasts. Positions from –100 to –1 correspond to 5'-UTRs and positions from 1 to 100 correspond to CDSs. Empty diamonds denote the 4-fold degenerate third codon positions in CDSs.

Figure 4. Profiles of sequence conservation around the stop codons in orthologous eukaryotic mRNAs. )A( Human–mouse. )B( Rat–mouse.

Page 28: Sequence comparison

אע"פ כן נמצא ריבוי של •GC אצל יונקים באזור

זה, שמקביל לעליה בבסיס GCבהימצאות

הצף - באזור המקביל (.C' )במיוחד ב3לפני ה

ידוע שעליה באחוז ה •GC גורמת לעליה ברמת

התרגום

יכול להיות שיש השפעה •גם של האזור הלא

מתורגם.

  t P

Human UGA

11.82 7.63E–16

Human UAG

9.471 2.19E–12

Human UAA

7.128 1.71E–09

Yeast UGA 4.278 5.01E–05

Yeast UAG 0.674 0.25145

Yeast UAA 4.299 4.53E–05

Potential hidden functional signals

Page 29: Sequence comparison

+ - 5' וירידה בשימור ב UTR 5- 30קיימת עליה בשימור ב •.UTR’ 3+ ב 35

. ידוע על מקרים בהם ריבוי של GCביונקים יש ריבוי של •GC.מזרז הינתקות של הריבוזום

ולכן יכול להיות שתופעות אילו נובעות מפעילות הריבוזום • ועידוד שחרור start codon בסיסים לפני ה 30– קישור ב

.stop codon בסיסים לאחר ה 30ב

מפני ריבוי נקודות יחוס – ריבוי אורגניזם ונקודות יחוס •ברורות ניתן למצוא מוטבים חלשים.

Potential hidden functional signalsסיכום:

Page 30: Sequence comparison

Ultraconserved elements in the Human Genome.

Howard בDavid Hausslerהמחקר נעשה במעבדתו של •Hughes Medical Institute, University of California

Santa Cruz USA

בסיסים 200 באורך מעל 100% אזורים שמורים ב 481נמצאו •בין האדם לעכבר וחולדה )מכרסמים(.

עם תרנגולת.95.7% מאזורים אילו הראו שימור של 97% •

מליון שנה.400שימור של יותר מ •

Page 31: Sequence comparison

חילקו את האזורים השמורים לשתי מחלקות – מתורגמים ולא •מתורגמים .

מצאו שהחלקים המבוטאים קשורים לגנים שמשתתפים בקישור •RNA ו , splicing. הגנים של אתרים אילו((Type 1 Genes

החלקים הלא מבוטאים קשורים לגנים שמשתתפים בבקרה• Homeobox ובמיוחד DNA binding motifs ו DNAותירגום של

)גנים שלוקחים חלק בהתפתחות הראשונה של האורגניזם( .Type 2 Genes))הגנים של אתרים אילו

Ultraconserved elements in the Human Genome.

Page 32: Sequence comparison

:צבר מיוחד ' 3 בקצה ה intron 3הרצפים הארוכים ביותר נמצאים ב •

פולימראז. DNA – תת יחידה אלפא של POLAשל

ל POLAקיים גם רצף ארוך )ע"י הוספת בסיס אחד( בין ה •ARX homeobox gene .

Each partly exonic element is represented by a thin blue tick mark extending above the chromosome, each non-exonic element by a green tick mark extending below the chromosome, and each possibly exonic element by a black tick mark centered on the chromosome.

Ultraconserved elements in the Human Genome.

Page 33: Sequence comparison

:צבר מיוחד

•polA החלבון שמבצע את פעולת הערכה ב – DNA polymerases 1.

•ARX חלבון שמבוטה בזמן ההתפתחות של רשת - הניורונים המרכזית.)פגם גנטי בו גורם להרבה

מחלות כמו אוטסים וכד'(.מפני שרוב האזורים השמורים נמצאים יותר קרוב ל •

ARX.יכול להיות שבכלל אזורי בקרה של גן זה המיוחד באזורים אילו ריבוי רצפים שמורים מאד •

ארוכים יחסית לשאר הגנום.

Ultraconserved elements in the Human Genome.

Page 34: Sequence comparison

:תכונת תהליך השימור בבעלי intronsחיפשו רצפים שמורים שנמצאו ב •

חיים יותר רחוקים מבחינה אבולוציונית.

introns גילו בכמה דוגמאות שרצפים אלה וה •שנמצאים בהם- כמעט ולא קיימים, החל מהדגים

ומטה.

Ultraconserved elements in the Human Genome.

Page 35: Sequence comparison

שכל אחד מכיל paralogous קבוצות של 12לקחו • רצפים שמורים.2-3

, אך כמעט ללא paralogousנמצא שוני ניכר בין ה •שינוי בין אותם פרטים בין עופות לאדם.

משתי עובדות אלו ניתן להסיק שיש שלב של שינוי •מואץ ואז הקפאה של התהליך.

Ultraconserved elements in the Human Genome.

:תכונת תהליך השימור

Page 36: Sequence comparison

ניתן להסביר את תופעת השימור המוחלט באזורים •אלה בשתי סיבות עיקריות:

אזורים אילו שימושיים מאד ולכן יש השרדות •נמוכה לאורגניזם עם מוטציות באזורים אלו.

באזורים אלו אין כמעט החלפת בסיסים עקב •מערכת תיקון מוגברת.

לא משנה איזו מבין שתי האפשרויות נכונה, ברור • שרצפים אלה יהיו מאד מעניינים למחקר מולקולרי.

Ultraconserved elements in the Human Genome.

:סיכום

Page 37: Sequence comparison

:מה ראינו

ראינו את האלגוריתם החמדני למציאת דמיון בין רצפים •והדרך לשימוש בו ברצפים ביולוגים.

ראינו שעקב גודלם הרב של מאגרי המידע משתמשים •.BLAST ו FASTAבאלגוריתמים יוריסטים כמו

ראינו שני מחקרים שהשתמשו בהשוואת רצפים . •

Page 38: Sequence comparison

סיכום

מחקר הנעשה בשיטות חישוביות יכול לגלות תופעות שלא ניתן היה לגלות בשיטות אחרות

מחקר כזה בד"כ מגיע לסבירות גבוהה של התופעה, •אך נדרש מחקר ביולוגי משלים כדי לאמת תופעות

אלה.

Page 39: Sequence comparison

:מקורות

• R.Durbin, S.Eddy, A.krogh, G.Mitchison Biological

sequence analysis probablistic models of proteins and

nucleic acids. Chapter 2 12-45.

• shabalina SA et al.)2004( Comparative analysis of

orthologous eukaryotic mRNAs: potential hidden

functional signals. Nuclic Acids Res. 32(5):1774-1782.

• Bejerano G et al.)2004( Ultraconserved elements in the

Human Genome. Science.304)5675(:1321-1325.• Pearson W .R. and Lipman D.J.)1988(Improved tools for

biological sequence comparison.Proceedings of the National Academy of Sciences of the USA 4:244-2448

Page 40: Sequence comparison

:אתרים

• http://www.icp.ucl.ac.be/~opperd/private/orthol.html• http://helix.biology.mcmaster.ca/721/distance/node9.html• http://nostoc.stanford.edu/Docs/MBCSmatch.html• http://www.ncbi.nlm.nih.gov/BLAST/blast_help.shtml• http://folk.uio.no/einarro/Presentations/blast_statistics.ht

ml• http://www.med.nyu.edu/rcr/rcr/course/sim-fasta.html• http://www.ncbi.nlm.nih.gov/BLAST/blast_help.shtml

Page 41: Sequence comparison
Page 42: Sequence comparison

וסביבתו. stop codonה .stop codon - UGA נמצא ביונקים העדפה ל•

ממצאים אילו אומתו בעזרת השוואה לרצפים דומים ב •introns ונמצא שהשינוי ל UGA הוא לא מקרי )לא נגרם

עקב מוטציה שגורמת לשינוי זה(.

Stop codons

IntronsSignificance of

differenceStop

codonsIntergenic

regionsSignificance of

difference

UGA 0.5 0.37 1.0E–72 0.29 0.28 0.38UAG 0.23 0.28 1.0E–72 0.24 0.24 0.84UAA 0.27 0.35 1.0E–72 0.47 0.49 0.33

Human Yeast

Potential hidden functional signals