מוטיבציה והתנהגות free operant

free מוטיבציה והתנהגותoperant

מבוא ללמידה והתנהגות: התניה ומח

5שעור

נושאיםתרגילים )הקודם, הנכחי, הבא(•Actor Criticהמשך מודל •

חזרונת––fMRI – O’Doherty+Dayan, Wightman+Phillips – FSCV

•Discrete trial vs. Free operant-מה חסר ב – A/C?Free operantמאפייני •מודל של קצבי התנהגות: אופטימיזציה של קצב חיזוקים...•interval vs. ratioהשוואת לוחות חיזוק: •Free operantהשפעות של מוטיבציה על התנהגות •איך כל זה מתקשר ל...)מי אם לא( דופמין•

הבעיה:

Markov Decision Process• States• Actions• Rewards

S31 S2

Actor-Criticמודל

Policy

V(t) - Value Function

Environment

Critic

r(t) - reward

TD errorδ)t(

Positive prediction error: Things are better than expected

→update value of state →update policy )prob. of action(

Negative prediction error: Things are worse than expected

→update value of state →update policy

Actor-Critic:במח דופמיןטעות ניבוי: ••Actor:

dorsolateral striatum•Critic:

ventral striatum )NAC(שני מסלולים דופמינרגים•

Dorsal Striatum )Caudate, Putamen(

Ventral TegmentalArea

Substantia Nigra

Amygdala

Nucleus Accumbens)Ventral Striatum(

Prefrontal CortexDorsal Striatum )Caudate, Putamen(

Substantia Nigra

Amygdala

Substantia Nigra

Amygdala

Substantia Nigra

Amygdala

Prefrontal Cortex

O’Doherty et al. 2004הרבה עדויות: דוגמא -

rewarding; neutralשני סוגי צעדים: •(High – 60%, Low – 30%בכל צעד: שני גירויים )• – בוחרת גירויים )התניה אינסטרומנטלית( – 1קבוצה •

, אך לא בצעדי reward בצעדי Highאכן רואים העדפה ל-neutral

)התניה קלאסית(, מצביעים רק על Yoked – 2קבוצה •(RTהצד שהמחשב בחר )מדד ללמידה –

)מדוע תכננו כך את הניסוי, מנקודת מבט של טעויות ניבוי?(

O’Doherty et al. 2004הרבה עדויות: דוגמא -

•(NAC )Ventral striatum קורלציה עם – PE:בשתי המטלות

•Dorsal striatum קורלציה עם – PE רק במטלה האינסטרומנטלית:

Roitman et al. 2004הרבה עדויות: דוגמא -

Fast scan cyclic voltammetry in striatumCue-elicited lever-pressing for sucrose at peak of DA burst

)discrete trial: cue→LP→intraoral sucrose+FB tone(

Cues elicit DA burst in trained but not untrained rats

Cue→DA→LP at DA peak

Corticostriatal synapses: 3 factor learning

X1 X2 X3 XN

V1 V2 V3 VN

StimulusRepresentation

AdjustableConnections)“weights”(

RPPTN?

Cortex

Striatum

VTA/SNcPredictionError )Dopamine(

כל זה טוב ויפה אבל... חסר משהו התנהגות?קצבמה לגבי •לכל פעולה שהחיה בוחרת לעשות, יש גם אלמנט של •

לעשות וגם מה( – מחליטים גם vigorתזמון/קצב/מרץ )מתי

free operantבא לידי ביטוי במיוחד בניסויי •על התנהגותמוטיבציה חשוב בכדי להבין השפעות של •

כמה תכונות בסיסיות של קצב התנהגות

)Herrnstein 1961(

seconds since reinforcement

LP first NP LP first NP

Hungry:Sated:

)Niv, Dayan, Joel(

)Herrnstein 1970, Catania+Reynolds 1968(

reinforcements per hour

מה יש למודלים לומר על זה?

עד כה: כלום

הרחבת המודל לקצבי התנהגות

choose(action,) = )LP,1(

1 time

CostsRewards

choose(action,)= )LP,2(

CostsRewards

how fast

2 time

RP accordingto schedule

UR motivationdependent

Cvigor cost

unit cost)reward(

)+ “eating time”(

המטרה

שקצב החיזוקים( כך latencies ו-actionsלבחור פעולות )מקסימלי )'רווחים' פחות 'עלויות' לחלק בזמן( יהיה נטו

ARL?איך יראו הערכים וחוק הלמידה – discounted מסכום חיזוקים מקסימלי או שונהקריטריון •

sum of rewards: דיפרנציאליםבאופן כללי – ערכים •

ובמקרה שלנו:•

S R(t)r(T)V

Q)a,,S( = Rewards – Costs + Future Returns

Differential value of taking action a

with latency when in state S

R = average rewards

minus costs, per unit time

R(1T)V(t)r(T)V 'SS

reinforcements per hour

LP NP LP NP

Hungry:Sated:

0 0.50

R1/(R1+R2)

matching: response ratio = reinforcement ratio

RIתוצאות: התנהגות אופטימלית בלוחות

– מציאת אופטימום אנליטיratioלוחות

ונשווה לאפס:בכדי למצוא מקסימום נגזור עפ"י

כלומר: קצב הלחיצות תלוי רק בקבוע המרץ ובקצב החיזוקים הממוצע

R('S)V(a)C

(a)CU(a)p(,a)Q VURR

ratio מול לוחות intervalלוחות יוצרים קצב intervalלוחות תעלומה:•

מדוע?. ratioלחיצה נמוך יותר מ- ראינו כבר:ratioבלוחות •

הבא state גם ה-intervalבלוחות •, כך שנקבל:תלוי ב-

כך שקצב הלחיצות האופטימלי נמוך •יותר...

ervalint

מה לגבי מוטיבציה?

שתי דרכי השפעה של מוטיבציה על התנהגות:

מוטיבציה משפיעה על ערכי החיזוקים, וכך מכוונת 1.( directingהתנהגות לכיוון תוצאות עם ערך יותר גבוה )

.השפעה ספציפית על פעולות שונות, תלוית תוצאה

(, קובעת energizingמוטיבציה ממריצה התנהגות )2. השפעה לא תלוית תוצאה, כללית driveרמת

כללית לכל הפעולות.

הסיבה לכך לא אינטואיטיבית.

מניפולצית 'רעב'מה אומר על כך המודל? יותרLP )directing(

אבל גם...

-קיצור הlatency של 'Other' )energizing(!

UR 50%

controlhigh utility

seconds from reinforcement

directing effect

energizing effect

איך זה נראה מאחורי הקלעים?

'(מחיר העצלנותקצב החיזוקים קובע את העלות של הזמן )'• לחץ כללי לתגובות מהירות יותרקצב חיזוקים גבוה יותר • על כל הפעולות, כפתרון אופטימלי!אפקט של 'המרצה'יוצר •

latency to action ()

unadjusted Q values

adjusted

higher R

Q)a,,S( = Rewards – Costs + Future – OpportunityReturns Cost

ומה לגבי דופמין?

כבר ראינו )או שהאמנתם לי( שדופמין קשור להתניה •סיגנל 'טעות קלאסית ואופרנטית, ע"י כך שהוא מהווה

ואף לבחירת התנהגותללמידה קריטי שהואניבוי'

אפקטים על קצב התנהגותאבל: לדופמין גם • קצב יותר דופמין )אמפטמינים, אגוניסטים, פחות מפנים( –

עולה קצב יורד , אנטגוניסטים, מפנים( lesionפחות דופמין )–

דרמטית )פרקינסון, קצב ריצה במבוך, קצב לחיצה על דוושה(

מזכיר לכם משהו?•

tonic dopamine קצב חיזוקים=הצעה:

מקצב מחושבתכלומר: אנו מציעים שרמת הרקע של דופמין •החיזוקים נטו )למשל, ע"י סכימת כל הסיגנלים של טעויות הניבוי(

במצב מוטיבציוני גבוהלרמת רקע גבוהה יותרמצפים • חיזוי תאפשר קצב חיזוקים''מוטיבציה למידה של מיפוי •

של מוטיבציה על קצב התנהגותישיריםואפקטים

Model simulationAberman and Salamone 1999

ניסויי עלות/תועלתולסיום:

Cousins, Atherton,Turner and Salamone )1996(

אפקטים מנוגדים של דופמין

, אך גם גבוהים יותרCV, CUזרוע חסומה: • גדול יותר ה'מפצה' על המחיר הגבוה.חיזוק

•Dopamine lesion : ניתן לעלות על מחיר הזמן יורד רמת דופמין ברקע יורדת –

המחסום לאט יותר ולשלם פחות מחיר )אכן רואים ירידה (RTב-

42; 21 יותר, למשל סיגנלי טעות ניבוי נמוכיםאבל: גם – למרות המחיר הנמוך יותר, הפרשי ה'חיזוק' כבר לא בסה"כ–

מצדיקים בחירה בזרוע החסומה

מוטיבציה והתנהגות free operant

Documents

מעוררי מוטיבציה

kuliah 5 - operant conditioning 2015

proses pengkondisian & pembelajaran (2) - universitas ·...

paradigma kepribadian teori...

· 2019. 10. 11. · email: erapoly@erapoly.com ' vegan...

6889 free union road free union 6889 free union road, free...

ההשפעה של מוטיבציה על התנהגות

operant conditioning

chapter 6: introduction to operant conditioning 6:...

שיאון שחוריmiloss-il 2012. מוטיבציה python...

bpm (beam propagation method) מוטיבציה : פתרון...

מניעים, מוטיבציה ותמריצים...

free-free bremsstrahlung radiation

web viewpengondisian operant merupakan bagian dari konsep...

איך להגביר מוטיבציה בעבודה או...

operant conditioning: an overview

conducta operante -...

condicionament clàssic condicionament operant aprenentatge...

מוטיבציה והתנהגות free operant

operant conditioning. operant conditioning learning in which...