מוטיבציה והתנהגות free operant
Post on 08-Feb-2016
38 Views
Preview:
DESCRIPTION
TRANSCRIPT
free מוטיבציה והתנהגותoperant
מבוא ללמידה והתנהגות: התניה ומח
5שעור
נושאיםתרגילים )הקודם, הנכחי, הבא(•Actor Criticהמשך מודל •
חזרונת––fMRI – O’Doherty+Dayan, Wightman+Phillips – FSCV
•Discrete trial vs. Free operant-מה חסר ב – A/C?Free operantמאפייני •מודל של קצבי התנהגות: אופטימיזציה של קצב חיזוקים...•interval vs. ratioהשוואת לוחות חיזוק: •Free operantהשפעות של מוטיבציה על התנהגות •איך כל זה מתקשר ל...)מי אם לא( דופמין•
הבעיה:
Markov Decision Process• States• Actions• Rewards
4 02
S1
S31 S2
4 02
S1
S31 S2
Actor-Criticמודל
Policy
V(t) - Value Function
Environment
Critic
Actor
acti
on
stat
e s1
s2
s3
V
wsv
r(t) - reward
TD errorδ)t(
Positive prediction error: Things are better than expected
→update value of state →update policy )prob. of action(
Negative prediction error: Things are worse than expected
→update value of state →update policy
s1
s2
s3
a1
a2
a3
wsa
Actor-Critic:במח דופמיןטעות ניבוי: ••Actor:
dorsolateral striatum•Critic:
ventral striatum )NAC(שני מסלולים דופמינרגים•
Dorsal Striatum )Caudate, Putamen(
Ventral TegmentalArea
Substantia Nigra
Amygdala
Nucleus Accumbens)Ventral Striatum(
Prefrontal CortexDorsal Striatum )Caudate, Putamen(
Ventral TegmentalArea
Substantia Nigra
Amygdala
Nucleus Accumbens)Ventral Striatum(
Prefrontal CortexDorsal Striatum )Caudate, Putamen(
Ventral TegmentalArea
Substantia Nigra
Amygdala
Nucleus Accumbens)Ventral Striatum(
Prefrontal CortexDorsal Striatum )Caudate, Putamen(
Ventral TegmentalArea
Substantia Nigra
Amygdala
Nucleus Accumbens)Ventral Striatum(
Prefrontal Cortex
O’Doherty et al. 2004הרבה עדויות: דוגמא -
rewarding; neutralשני סוגי צעדים: •(High – 60%, Low – 30%בכל צעד: שני גירויים )• – בוחרת גירויים )התניה אינסטרומנטלית( – 1קבוצה •
, אך לא בצעדי reward בצעדי Highאכן רואים העדפה ל-neutral
)התניה קלאסית(, מצביעים רק על Yoked – 2קבוצה •(RTהצד שהמחשב בחר )מדד ללמידה –
)מדוע תכננו כך את הניסוי, מנקודת מבט של טעויות ניבוי?(
O’Doherty et al. 2004הרבה עדויות: דוגמא -
•(NAC )Ventral striatum קורלציה עם – PE:בשתי המטלות
•Dorsal striatum קורלציה עם – PE רק במטלה האינסטרומנטלית:
Roitman et al. 2004הרבה עדויות: דוגמא -
Fast scan cyclic voltammetry in striatumCue-elicited lever-pressing for sucrose at peak of DA burst
)discrete trial: cue→LP→intraoral sucrose+FB tone(
Cues elicit DA burst in trained but not untrained rats
Cue→DA→LP at DA peak
Corticostriatal synapses: 3 factor learning
X1 X2 X3 XN
V1 V2 V3 VN
P
StimulusRepresentation
AdjustableConnections)“weights”(
RPPTN?
Cortex
Striatum
VTA/SNcPredictionError )Dopamine(
כל זה טוב ויפה אבל... חסר משהו התנהגות?קצבמה לגבי •לכל פעולה שהחיה בוחרת לעשות, יש גם אלמנט של •
לעשות וגם מה( – מחליטים גם vigorתזמון/קצב/מרץ )מתי
free operantבא לידי ביטוי במיוחד בניסויי •על התנהגותמוטיבציה חשוב בכדי להבין השפעות של •
כמה תכונות בסיסיות של קצב התנהגות
)Herrnstein 1961(
seconds since reinforcement
rate
per
min
ute
LP first NP LP first NP
Hungry:Sated:
)Niv, Dayan, Joel(
)Herrnstein 1970, Catania+Reynolds 1968(
reinforcements per hour
מה יש למודלים לומר על זה?
עד כה: כלום
הרחבת המודל לקצבי התנהגות
choose(action,) = )LP,1(
1 time
CostsRewards
choose(action,)= )LP,2(
CostsRewards
cost
LP
NP
Other
?
how fast
2 time
RP accordingto schedule
UR motivationdependent
S1 S2
V
Cvigor cost
UC
unit cost)reward(
S0
)+ “eating time”(
המטרה
שקצב החיזוקים( כך latencies ו-actionsלבחור פעולות )מקסימלי )'רווחים' פחות 'עלויות' לחלק בזמן( יהיה נטו
ARL?איך יראו הערכים וחוק הלמידה – discounted מסכום חיזוקים מקסימלי או שונהקריטריון •
sum of rewards: דיפרנציאליםבאופן כללי – ערכים •
ובמקרה שלנו:•
Tt
S R(t)r(T)V
Q)a,,S( = Rewards – Costs + Future Returns
Differential value of taking action a
with latency when in state S
R
R = average rewards
minus costs, per unit time
R(1T)V(t)r(T)V 'SS
reinforcements per hour
LP NP LP NP
Hungry:Sated:
0 0.50
0.5
R1/(R1+R2)
N1/
(N1+
N2)
matching: response ratio = reinforcement ratio
RIתוצאות: התנהגות אופטימלית בלוחות
– מציאת אופטימום אנליטיratioלוחות
ונשווה לאפס:בכדי למצוא מקסימום נגזור עפ"י
כלומר: קצב הלחיצות תלוי רק בקבוע המרץ ובקצב החיזוקים הממוצע
R('S)V(a)C
(a)CU(a)p(,a)Q VURR
R
C* V
ratio מול לוחות intervalלוחות יוצרים קצב intervalלוחות תעלומה:•
מדוע?. ratioלחיצה נמוך יותר מ- ראינו כבר:ratioבלוחות •
הבא state גם ה-intervalבלוחות •, כך שנקבל:תלוי ב-
כך שקצב הלחיצות האופטימלי נמוך •יותר...
R
C* V
ratio
VR
C* V
ervalint
מה לגבי מוטיבציה?
שתי דרכי השפעה של מוטיבציה על התנהגות:
מוטיבציה משפיעה על ערכי החיזוקים, וכך מכוונת 1.( directingהתנהגות לכיוון תוצאות עם ערך יותר גבוה )
.השפעה ספציפית על פעולות שונות, תלוית תוצאה
(, קובעת energizingמוטיבציה ממריצה התנהגות )2. השפעה לא תלוית תוצאה, כללית driveרמת
כללית לכל הפעולות.
הסיבה לכך לא אינטואיטיבית.
מניפולצית 'רעב'מה אומר על כך המודל? יותרLP )directing(
אבל גם...
-קיצור הlatency של 'Other' )energizing(!
RR25
UR 50%
controlhigh utility
resp
on
se r
ate
/ min
ute
seconds from reinforcement
resp
on
se r
ate
/ min
ute
seconds from reinforcement
directing effect
energizing effect
R
C* V
איך זה נראה מאחורי הקלעים?
'(מחיר העצלנותקצב החיזוקים קובע את העלות של הזמן )'• לחץ כללי לתגובות מהירות יותרקצב חיזוקים גבוה יותר • על כל הפעולות, כפתרון אופטימלי!אפקט של 'המרצה'יוצר •
latency to action ()
val
ue
unadjusted Q values
adjusted
higher R
Q)a,,S( = Rewards – Costs + Future – OpportunityReturns Cost
R
ומה לגבי דופמין?
כבר ראינו )או שהאמנתם לי( שדופמין קשור להתניה •סיגנל 'טעות קלאסית ואופרנטית, ע"י כך שהוא מהווה
ואף לבחירת התנהגותללמידה קריטי שהואניבוי'
אפקטים על קצב התנהגותאבל: לדופמין גם • קצב יותר דופמין )אמפטמינים, אגוניסטים, פחות מפנים( –
עולה קצב יורד , אנטגוניסטים, מפנים( lesionפחות דופמין )–
דרמטית )פרקינסון, קצב ריצה במבוך, קצב לחיצה על דוושה(
מזכיר לכם משהו?•
tonic dopamine קצב חיזוקים=הצעה:
מקצב מחושבתכלומר: אנו מציעים שרמת הרקע של דופמין •החיזוקים נטו )למשל, ע"י סכימת כל הסיגנלים של טעויות הניבוי(
במצב מוטיבציוני גבוהלרמת רקע גבוהה יותרמצפים • חיזוי תאפשר קצב חיזוקים''מוטיבציה למידה של מיפוי •
של מוטיבציה על קצב התנהגותישיריםואפקטים
nu
mb
er o
f L
Ps
in 3
0 m
inu
tes
Model simulationAberman and Salamone 1999
nu
mb
er o
f L
Ps
in 3
0 m
inu
tes
ניסויי עלות/תועלתולסיום:
Cousins, Atherton,Turner and Salamone )1996(
אפקטים מנוגדים של דופמין
, אך גם גבוהים יותרCV, CUזרוע חסומה: • גדול יותר ה'מפצה' על המחיר הגבוה.חיזוק
•Dopamine lesion : ניתן לעלות על מחיר הזמן יורד רמת דופמין ברקע יורדת –
המחסום לאט יותר ולשלם פחות מחיר )אכן רואים ירידה (RTב-
42; 21 יותר, למשל סיגנלי טעות ניבוי נמוכיםאבל: גם – למרות המחיר הנמוך יותר, הפרשי ה'חיזוק' כבר לא בסה"כ–
מצדיקים בחירה בזרוע החסומה
top related