מוטיבציה והתנהגות free operant

26
תתתתתתתת תתתתתתתתfree operant תתתת תתתתתת תתתתתתתת: תתתתת תתת תתתת5

Upload: brooks

Post on 12-Jan-2016

69 views

Category:

Documents


0 download

DESCRIPTION

מוטיבציה והתנהגות free operant. מבוא ללמידה והתנהגות: התניה ומח שעור 5. נושאים. תרגילים (הקודם, הנכחי, הבא) המשך מודל Actor Critic חזרונת fMRI – O’Doherty+Dayan , Wightman+Phillips – FSCV Discrete trial vs. Free operant – מה חסר ב- A/C ? מאפייני Free operant - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: מוטיבציה והתנהגות  free operant

free מוטיבציה והתנהגותoperant

מבוא ללמידה והתנהגות: התניה ומח

5שעור

Page 2: מוטיבציה והתנהגות  free operant

נושאיםתרגילים )הקודם, הנכחי, הבא(•Actor Criticהמשך מודל •

חזרונת––fMRI – O’Doherty+Dayan, Wightman+Phillips – FSCV

•Discrete trial vs. Free operant-מה חסר ב – A/C?Free operantמאפייני •מודל של קצבי התנהגות: אופטימיזציה של קצב חיזוקים...•interval vs. ratioהשוואת לוחות חיזוק: •Free operantהשפעות של מוטיבציה על התנהגות •איך כל זה מתקשר ל...)מי אם לא( דופמין•

Page 3: מוטיבציה והתנהגות  free operant

הבעיה:

Markov Decision Process• States• Actions• Rewards

4 02

S1

S31 S2

Page 4: מוטיבציה והתנהגות  free operant

4 02

S1

S31 S2

Actor-Criticמודל

Policy

V(t) - Value Function

Environment

Critic

Actor

acti

on

stat

e s1

s2

s3

V

wsv

r(t) - reward

TD errorδ)t(

Positive prediction error: Things are better than expected

→update value of state →update policy )prob. of action(

Negative prediction error: Things are worse than expected

→update value of state →update policy

s1

s2

s3

a1

a2

a3

wsa

Page 5: מוטיבציה והתנהגות  free operant

Actor-Critic:במח דופמיןטעות ניבוי: ••Actor:

dorsolateral striatum•Critic:

ventral striatum )NAC(שני מסלולים דופמינרגים•

Dorsal Striatum )Caudate, Putamen(

Ventral TegmentalArea

Substantia Nigra

Amygdala

Nucleus Accumbens)Ventral Striatum(

Prefrontal CortexDorsal Striatum )Caudate, Putamen(

Ventral TegmentalArea

Substantia Nigra

Amygdala

Nucleus Accumbens)Ventral Striatum(

Prefrontal CortexDorsal Striatum )Caudate, Putamen(

Ventral TegmentalArea

Substantia Nigra

Amygdala

Nucleus Accumbens)Ventral Striatum(

Prefrontal CortexDorsal Striatum )Caudate, Putamen(

Ventral TegmentalArea

Substantia Nigra

Amygdala

Nucleus Accumbens)Ventral Striatum(

Prefrontal Cortex

Page 6: מוטיבציה והתנהגות  free operant

O’Doherty et al. 2004הרבה עדויות: דוגמא -

rewarding; neutralשני סוגי צעדים: •(High – 60%, Low – 30%בכל צעד: שני גירויים )• – בוחרת גירויים )התניה אינסטרומנטלית( – 1קבוצה •

, אך לא בצעדי reward בצעדי Highאכן רואים העדפה ל-neutral

)התניה קלאסית(, מצביעים רק על Yoked – 2קבוצה •(RTהצד שהמחשב בחר )מדד ללמידה –

)מדוע תכננו כך את הניסוי, מנקודת מבט של טעויות ניבוי?(

Page 7: מוטיבציה והתנהגות  free operant

O’Doherty et al. 2004הרבה עדויות: דוגמא -

•(NAC )Ventral striatum קורלציה עם – PE:בשתי המטלות

•Dorsal striatum קורלציה עם – PE רק במטלה האינסטרומנטלית:

Page 8: מוטיבציה והתנהגות  free operant

Roitman et al. 2004הרבה עדויות: דוגמא -

Fast scan cyclic voltammetry in striatumCue-elicited lever-pressing for sucrose at peak of DA burst

)discrete trial: cue→LP→intraoral sucrose+FB tone(

Cues elicit DA burst in trained but not untrained rats

Cue→DA→LP at DA peak

Page 9: מוטיבציה והתנהגות  free operant

Corticostriatal synapses: 3 factor learning

X1 X2 X3 XN

V1 V2 V3 VN

P

StimulusRepresentation

AdjustableConnections)“weights”(

RPPTN?

Cortex

Striatum

VTA/SNcPredictionError )Dopamine(

Page 10: מוטיבציה והתנהגות  free operant

כל זה טוב ויפה אבל... חסר משהו התנהגות?קצבמה לגבי •לכל פעולה שהחיה בוחרת לעשות, יש גם אלמנט של •

לעשות וגם מה( – מחליטים גם vigorתזמון/קצב/מרץ )מתי

free operantבא לידי ביטוי במיוחד בניסויי •על התנהגותמוטיבציה חשוב בכדי להבין השפעות של •

Page 11: מוטיבציה והתנהגות  free operant

כמה תכונות בסיסיות של קצב התנהגות

)Herrnstein 1961(

seconds since reinforcement

rate

per

min

ute

LP first NP LP first NP

Hungry:Sated:

)Niv, Dayan, Joel(

)Herrnstein 1970, Catania+Reynolds 1968(

reinforcements per hour

Page 12: מוטיבציה והתנהגות  free operant

מה יש למודלים לומר על זה?

עד כה: כלום

Page 13: מוטיבציה והתנהגות  free operant

הרחבת המודל לקצבי התנהגות

choose(action,) = )LP,1(

1 time

CostsRewards

choose(action,)= )LP,2(

CostsRewards

cost

LP

NP

Other

?

how fast

2 time

RP accordingto schedule

UR motivationdependent

S1 S2

V

Cvigor cost

UC

unit cost)reward(

S0

)+ “eating time”(

Page 14: מוטיבציה והתנהגות  free operant

המטרה

שקצב החיזוקים( כך latencies ו-actionsלבחור פעולות )מקסימלי )'רווחים' פחות 'עלויות' לחלק בזמן( יהיה נטו

Page 15: מוטיבציה והתנהגות  free operant

ARL?איך יראו הערכים וחוק הלמידה – discounted מסכום חיזוקים מקסימלי או שונהקריטריון •

sum of rewards: דיפרנציאליםבאופן כללי – ערכים •

ובמקרה שלנו:•

Tt

S R(t)r(T)V

Q)a,,S( = Rewards – Costs + Future Returns

Differential value of taking action a

with latency when in state S

R

R = average rewards

minus costs, per unit time

R(1T)V(t)r(T)V 'SS

Page 16: מוטיבציה והתנהגות  free operant

reinforcements per hour

LP NP LP NP

Hungry:Sated:

0 0.50

0.5

R1/(R1+R2)

N1/

(N1+

N2)

matching: response ratio = reinforcement ratio

RIתוצאות: התנהגות אופטימלית בלוחות

Page 17: מוטיבציה והתנהגות  free operant

– מציאת אופטימום אנליטיratioלוחות

ונשווה לאפס:בכדי למצוא מקסימום נגזור עפ"י

כלומר: קצב הלחיצות תלוי רק בקבוע המרץ ובקצב החיזוקים הממוצע

R('S)V(a)C

(a)CU(a)p(,a)Q VURR

R

C* V

Page 18: מוטיבציה והתנהגות  free operant

ratio מול לוחות intervalלוחות יוצרים קצב intervalלוחות תעלומה:•

מדוע?. ratioלחיצה נמוך יותר מ- ראינו כבר:ratioבלוחות •

הבא state גם ה-intervalבלוחות •, כך שנקבל:תלוי ב-

כך שקצב הלחיצות האופטימלי נמוך •יותר...

R

C* V

ratio

VR

C* V

ervalint

Page 19: מוטיבציה והתנהגות  free operant

מה לגבי מוטיבציה?

Page 20: מוטיבציה והתנהגות  free operant

שתי דרכי השפעה של מוטיבציה על התנהגות:

מוטיבציה משפיעה על ערכי החיזוקים, וכך מכוונת 1.( directingהתנהגות לכיוון תוצאות עם ערך יותר גבוה )

.השפעה ספציפית על פעולות שונות, תלוית תוצאה

(, קובעת energizingמוטיבציה ממריצה התנהגות )2. השפעה לא תלוית תוצאה, כללית driveרמת

כללית לכל הפעולות.

הסיבה לכך לא אינטואיטיבית.

Page 21: מוטיבציה והתנהגות  free operant

מניפולצית 'רעב'מה אומר על כך המודל? יותרLP )directing(

אבל גם...

-קיצור הlatency של 'Other' )energizing(!

RR25

UR 50%

controlhigh utility

resp

on

se r

ate

/ min

ute

seconds from reinforcement

resp

on

se r

ate

/ min

ute

seconds from reinforcement

directing effect

energizing effect

R

C* V

Page 22: מוטיבציה והתנהגות  free operant

איך זה נראה מאחורי הקלעים?

'(מחיר העצלנותקצב החיזוקים קובע את העלות של הזמן )'• לחץ כללי לתגובות מהירות יותרקצב חיזוקים גבוה יותר • על כל הפעולות, כפתרון אופטימלי!אפקט של 'המרצה'יוצר •

latency to action ()

val

ue

unadjusted Q values

adjusted

higher R

Q)a,,S( = Rewards – Costs + Future – OpportunityReturns Cost

R

Page 23: מוטיבציה והתנהגות  free operant

ומה לגבי דופמין?

כבר ראינו )או שהאמנתם לי( שדופמין קשור להתניה •סיגנל 'טעות קלאסית ואופרנטית, ע"י כך שהוא מהווה

ואף לבחירת התנהגותללמידה קריטי שהואניבוי'

אפקטים על קצב התנהגותאבל: לדופמין גם • קצב יותר דופמין )אמפטמינים, אגוניסטים, פחות מפנים( –

עולה קצב יורד , אנטגוניסטים, מפנים( lesionפחות דופמין )–

דרמטית )פרקינסון, קצב ריצה במבוך, קצב לחיצה על דוושה(

מזכיר לכם משהו?•

Page 24: מוטיבציה והתנהגות  free operant

tonic dopamine קצב חיזוקים=הצעה:

מקצב מחושבתכלומר: אנו מציעים שרמת הרקע של דופמין •החיזוקים נטו )למשל, ע"י סכימת כל הסיגנלים של טעויות הניבוי(

במצב מוטיבציוני גבוהלרמת רקע גבוהה יותרמצפים • חיזוי תאפשר קצב חיזוקים''מוטיבציה למידה של מיפוי •

של מוטיבציה על קצב התנהגותישיריםואפקטים

nu

mb

er o

f L

Ps

in 3

0 m

inu

tes

Model simulationAberman and Salamone 1999

nu

mb

er o

f L

Ps

in 3

0 m

inu

tes

Page 25: מוטיבציה והתנהגות  free operant

ניסויי עלות/תועלתולסיום:

Cousins, Atherton,Turner and Salamone )1996(

Page 26: מוטיבציה והתנהגות  free operant

אפקטים מנוגדים של דופמין

, אך גם גבוהים יותרCV, CUזרוע חסומה: • גדול יותר ה'מפצה' על המחיר הגבוה.חיזוק

•Dopamine lesion : ניתן לעלות על מחיר הזמן יורד רמת דופמין ברקע יורדת –

המחסום לאט יותר ולשלם פחות מחיר )אכן רואים ירידה (RTב-

42; 21 יותר, למשל סיגנלי טעות ניבוי נמוכיםאבל: גם – למרות המחיר הנמוך יותר, הפרשי ה'חיזוק' כבר לא בסה"כ–

מצדיקים בחירה בזרוע החסומה