התניה אופרנטית – חלק א

Post on 18-Jan-2016

69 Views

Category:

Documents

8 Downloads

Preview:

Click to see full reader

DESCRIPTION

התניה אופרנטית – חלק א'. מבוא ללמידה והתנהגות: התניה ומח שעור 4. נושאים. חובות מפעם קודמת: כמה מלים על חוק בייס ו- Kalman filter התניה קלאסית ובני אדם: טיפול בפוביות Thorndike וה- Law of Effect סוגי פרוצדורות בצעדים בדידים Skinner ולוחות חיזוק - PowerPoint PPT Presentation

TRANSCRIPT

'התניה אופרנטית – חלק א

מבוא ללמידה והתנהגות: התניה ומח

4שעור

נושאיםחובות מפעם קודמת: •

Kalman filterכמה מלים על חוק בייס ו-–התניה קלאסית ובני אדם: טיפול בפוביות–

•Thorndike -וה Law of Effectסוגי פרוצדורות בצעדים בדידים••Skinnerולוחות חיזוק , מימוש ברשת נוירוניםTD – קשר ל-Actor Criticמודל • – fMRIמימוש במח – תאוריה, ומעשה )•

O’Doherty+Dayan, Wightman+Phillips - FSCV)

אי ודאות והתניה קלאסית( uncertainty )בטחוןלכל ערך של גירוי מוצמד גם מידת •

בערך. הבטחון יורד ככל שעובר זמן מאז שהגירוי הוצג לאחרונה.

מבחינת שילוב אופטימלי של מידע חדש עם ישן, ככל • את קצב הלמידה להגביר יותר, נרצה נמוךשהבטחון

איך זה קשור לחוק בייס ולהסקה סטטיסטית אופטימלית?•

– הסקה סטטיסטיתBayesחוק המטרה: לייצג אמונות על העולם•: אם מייצגים אמונות ע"י מספרים Coxאקסיומות •

ממשיים, הדרך היחידה לתפעל אותם, שהיא סבירה .Bayesוקונסיסטנטית, היא ע"י חוק

דרך אופטימלית )מבחינה סטטיסטית( לשלב בין הנחות •קודמות למידע חדש

המון מחקר כיום מראה כי אנשים ובע"ח משתמשים •בהסקה בייסאנית )מע' מוטורית, ויזואלית וכו'(. עוד בסוף

הקורס.

(Vs)P(Vs|nsobservatio)P(nsobservatio|Vs)P

(b)P

(a)P(a|b)P(b|a)P

Kalman filterהסקה סטטיסטית ותחרות – במודל סטטיסטי מסויים של העולם )הילוך מקרי עם רעש •

גאוסיאני של הערכים, רעש גאוסיאני בתצפיות(, ההסקה הסטטיסטית האופטימלית )מהנצפה אל הערכים

:Kalman filter( היא עפ"י Bayesהאמיתיים, לפי חוק

כמודל של למידה קלאסית מגלם: קצב למידה תלוי •בבטחון היחסי; תחרות בין גירויים )לא כתוצאה ממחסור

במשאבים!(

kk

2k

i2i

i

ii

EX

X(t)

(t)(t)(t)V

שימושי התניה קלאסית בבני אדם: טיפול בפוביות

, דרך התניה קלאסיתנלמדותרוב התגובות האמוציונליות שלנו ••Watson+Rayner )1920( בדקו תגובות של תינוקות לגירויים –

)אש, חולדות, כלבים( – אף אחד מפחידים מלידהשחשבו שהם מהם לא היה מפחיד. צליל חזק: כן.

ניסוי אלברט הקטן המפורסם )לא הגיע לסיומו(• 7-20%פוביות: פחד בלתי פרופורציונלי לסכנה שבמצב. ל- •

- פוביה חמורה הפוגעת 1%מהאוכלוסיה יש סימפטומים, ב- בתפקוד.

בכדי נגד בהתניית השתמשה Watson: Mary Jonesתלמידה של •לבטל התניית פחד.

-ים עם תגובות נוגדות. התהליך הדרגתיCSהתניית נגד: שילוב • במצב של רגיעה Systematic desensitizationכיום מקובל: •

עמוקה מעלים באופן הדרגתי גירויים יותר ויותר מפחידים

שימושים נוספים בהתניה קלאסית בבני אדם

ע"י כמותרפיהמניעת אברסיה למזון בחולים המקבלים •סוכריה מסויימת לפני הטיפול )תהיה אברסיה רק אליה(

המעורר תגובה רגשית US: צימוד של המוצר ל-פרסום•חיובית גורם ליחס חיובי יותר למוצר

•Conditioned immunosuppression לטיפול בשלבקת :(, למשל. התרופות גורמות לעיכוב Lupusחוגרת )

)שמן עם טעם מסויים( CSמערכת החיסון. צימוד של בהמשך ניתן לתת את השמן במקום עם התרופה

התרופה ותתקבל אותה תגובה חיסונית! – אלרגיה נלמדת למראה באלרגיות)אותו דבר אולי •

פרחים, ולא לאבקנים(

סיכום: התניה קלאסית

צימוד בין גירויים גורר )בתנאים מסויימים( למידהללא תלות בהתנהגות החיה – אך מתבטא בהתנהגות

)סרט(

נעבור עכשיו להתניה אופרנטית

שאלות חשובותתזכורת: באילו תנאים ישנה למידה )מה תפקיד החיזוק?(•מה נכנס לאסוסיאציה הנוצרת?•האם יש יותר מסוג אחד של למידה?•

Edward Thorndike )1874-1949(רקע: דרווין, נסיונות להראות שבע"ח אינטליגנטים• 23הראשון שעשה זאת באופן סיסטמטי )לא אנקדוטות(. בגיל •

Animal intelligence: An experimentalהגיש תזת דוקטורט:study of the associative processes in animals

)גם כלבים, אפרוחים(Puzzle boxesחתולים רעבים ב-•הגדרה אופרציונלית ללמידה: זמן עד •

החלצותעקומת למידה: הדרגתית. לא נראה•

אלא ניסוי וטעיה )הצלחה(.insightכמו

Law of Effect קשר בין הגירויים לפעולות (stamps in)החיזוק "מקבע" •

(satisfiers vs. annoyersמסוימות, ולא אחרות. )

אין צורך להניח אינטליגנציה•נוספת )אין חיקוי(, או למידה מתוך תובנה/הבנת סיבתיות

)ברגע שיש אוטומטיתהליך •לחיה מטרה(

גם: ניסויי הכללה, אבחנה•אנקדוטה )אבחנה(:•

“I must feed those cats”“I will not feed them”

Thorndikeתפקיד החיזוק עפ"י S-R, אך לא חלק מהאסוסיאציה stamping inרק • הופך בסוף להרגל ולא תלוי יותר תפקיד רק בלמידה •

בחיזוק )לא חקר/הסביר הכחדה כלל(כנ"ל תפקיד המוטיבציה – חיונית ללמידה, לא לביצוע•

)סרט(

התניה אופרנטית/אינסטרומנטליתמקור השם )פעולה רצונית על הסביבה; משיגה מטרה(•, key/מקש/לחיצה על דוושהתגובות נחקרות: ריצה במבוך, •

משיכת חבל, וכו'סוגי פרוצדורות:•

בשונה מהתניה להגביר או להוריד תגובה!USניתן עם כל •קלאסית – לטבע החיזוק אין השפעה אוטומטית על

התגובה

אפטטיבי חיוביחיזוק

Rewardהשמטה Omission

אברסיבי שליליחיזוק

Escape/ avoidance

עונש

מספר גורמים המשפיעים על הביצוע( – משפיע גם על למידה וגם על ביצוע driveמוטיבציה )•

)נפרט יותר בהמשך הקורס(גודל החיזוק )גם: אפקט קונטרסט וכו'(•עיכוב החיזוק. הסברים אפשריים:•

delayתגובות מתערבות בזמן ה-–ערך החיזוק מוקטן )חיות מעדיפות חיזוק מיידי על מעוכב(–

( – נפוץ מאוד בחיים. CRF לעומת PRFחיזוק חלקי )•סדר רנדומלי: ריצה מהירה אחרי צעד מחוזק, איטית

אחרי לא מחוזק. בסדר קבוע )דוג' – לסירוגין( בהדרגה לומדים את החוקיות.

( החיזוק גם יכול לספק מידע. איך נראה שהחיהמשתמשת בזכרון הצעד הקודם לקביעת תגובתה?(

Free operant training: B.F. Skinner

1904-1990בהביוריסט, ••(Watson)אבי הבהביוריזם – שלל מנטליזם – •(1938 )The behavior of organismsטען שפסיכולוגיה צריכה להתבסס רק על מה•

.black boxשניתן למדוד. מדע תאורי ולא תאורטי, האמין שמלבד מעט רפלקסים כל ההתנהגות היא •

נלמדת ע"י חיזוקים. הבנת התנהגות = עיצוב התנהגותדיבר על •

של התנהגות – functional analysisניבוי ושליטה בה )הסברים מנטליסטים חסרי ערך ניבויי ושליטתי(.

, וכן – למה להניח שנוצרים S – לא ברור מה ה-S-Rנגד •קשרים תאורטים היפותטים?

Schedules of reinforcement בקופסת סקינרFree operantאימון •לוחות חיזוק: •

–Fixed ratio )FR(–Fixed interval )FI(–Variable ratio )VR(–Variable interval )VI(RR/RIתוספת מאוחרת: –...DRL, DRHלוחות מורכבים: –

– עוד )SD )occasion setterכמו כן – גירוי מבחין •, גירוי שאינו מעורר תגובה בעצמו אלא S-Rהתנגדות ל-

מעיד על כדאיות של תגובה

מבחינה מעשית – אימון•Pretraining•Shaping•(superstitious behaviors)יש תגובות שקל יותר ללמד כי הסמיכות הקלאסית •

מסייעת להם )ניקור ביונים( ויש להיפך.CRFמתחילים תמיד עם ••Ratio-מייצר תגובות מהירות יותר מ interval )yoked(•Interval-קל יותר ללמד מ ratio)בייחוד גבוהים( מסובך לנתח את ההתנהגות בלוחות אלו: הרבה •

התיאשו. נחזור לכך בעוד שני שעורים.

Actor להתניה אופרנטית: TDהרחבת Critic

•S3 ,אם בוחרים חצי מהפעמים שמאל - V)S3( = 1 :אבל , )קבל יותר מהצפוי(חיוביתבכל בחירה של שמאל תהיה טעות ניבוי – )קבל פחות מהצפוי(שליליתבכל בחירה של ימין תהיה טעות ניבוי –

אם החיה תבחר יותר פעמים את הפעולה שיצרה טעות ניבויחיובית, ההתנהגות תהיה יותר אופטימלית

-אותו דבר בדיוק בS2-ו S1 לטווח ארוך – תכנון אופטימלי!

4 02

S1

S31 S2

4 02

S1

S31 S2

TD: לא רק למידת ניבוי אלא גם שליטה

Policy

V(t) - Value Function

Environment

Critic

Actor

acti

on

stat

e s1

s2

s3

V

wsv

r(t) - reward

TD errorδ)t(

Positive prediction error: Things are better than expected

→update value of state →update policy )prob. of action(

Negative prediction error: Things are worse than expected

→update value of state →update policy

s1

s2

s3

a1

a2

a3

wsa

Actor-Critic:במח דופמיןטעות ניבוי: ••Actor: dorsolateral striatum•Critic: ventral striatum )NAC()שני מסלולים דופמינרגים(•

O’Doherty et al. 2004הרבה עדויות: דוגמא -

rewarding; neutralשני סוגי צעדים: •(High – 60%, Low – 30%בכל צעד: שני גירויים )• – בוחרת גירויים )התניה אינסטרומנטלית( – 1קבוצה •

, אך לא בצעדי reward בצעדי Highאכן רואים העדפה ל-neutral

)התניה קלאסית(, מצביעים רק על Yoked – 2קבוצה •(RTהצד שהמחשב בחר )מדד ללמידה –

)מדוע תכננו כך את הניסוי, מנקודת מבט של טעויות ניבוי?(

O’Doherty et al. 2004הרבה עדויות: דוגמא -

•(NAC )Ventral striatum קורלציה עם – PE:בשתי המטלות

•Dorsal striatum קורלציה עם – PE רק במטלה האינסטרומנטלית:

Roitman et al. 2004הרבה עדויות: דוגמא -

Fast scan cyclic voltammetry in striatumCue elicited lever-pressing for sucrose at peak of DA burst

Cues elicit DA burst in trained but not untrained rats

Corticostriatal synapses: 3 factor learning

X1 X2 X3 XN

V1 V2 V3 VN

P

StimulusRepresentation

AdjustableConnections)“weights”(

RPPTN?

Cortex

Striatum

VTA/SNcPredictionError )Dopamine(

קריאה נוספת:דוגמאות לחיזוקים שליליים וללוחות חיזוק – באתר•קיצור תולדות הבהביוריזם- •

http://www.biozentrum.uni-wuerzburg.de/genetics/behavior/learning/behaviorism.html

//:httpמאמר קצר של סקינר על אמונות תפלות ביונים •psychclassics.yorku.ca/Skinner/Pigeon

//:httpביוגרפיה קצרה של סקינר )נכתבה ע"י בתו( - •www.bfskinner.org/bio.asp

//:httpסקינר על התנהגות אופרנטית - •www.bfskinner.org/Operant.asp

//:httpועוד סיכום טוב על האיש ופועלו - •www.ship.edu/~cgboeree/skinner.html

top related