طراحی و تحلیل پرسشنامه

طراحی و تحلیل پرسشنامه نوذر نخعی

استاد پزشکی اجتماعیدانشگاه علوم پزشکی کرمان

کلیاتپرسشنامه مجموعه اي از سؤاالت است كه •

براي اندازه گيري يك پديده ذهني بكار مي رود. پرسشنامه مي تواند توسط خود فرد تكميل

گردد و يا از طريق مصاحبۀ= رودرو و يا تلفنی تكميل گردد.

هنر پرسشنامه آن است كه داده هاي نرم و •مفاهیم انتزاعی را )آنچه در ذهن پاسخگو مي گذرد( به حالت عيني قابل اندازه گیری )داده

سخت( تبدیل می نماید.

هيچگاه درصدد ساخت پرسشنامه •برنياييد!

اپنهايم در مقدمه كتاب طراحي • ميالدي( 1966پرسشنامه )چاپ سال

بيان مي د ارد: »دنيا پر از مردمان فهيمي است كه تصور مي كنند طراحي

پرسشنامه كار هركسي است. اين كتاب براي آنان نوشته نشده است

در مجموع هنگام استفاده از پرسشنامه، پژوهشگر دو راه دارد:

الف( استفاده از پرسشنامه هاي استاندارد؛ب( استفاده از پرسشنامه هاي پژوهشگر

ساخته.

منظور از پرسشنامه استاندارد پرسشنامه اي است كه •به واسطه يك پژوهش و با »هدف ساخت پرسشنامه«

به دنياي علم معرفي شده باشد، به طوریکه شواهد روان سنجي و مورد تأييد بودن اين پرسشنامه در قالب

يك مقاله علمي – پژوهشي يا مقاله بين المللي ارائه گرديده باشد. پايان نامه يا ارائه پوستر شواهد مستدلي

دال بر استاندارد بودن پرسشنامه تلقي نمي شوند، اگرچه كه برخي پژوهشگران از پايان نامه نيز به عنوان

مرجع استاندارد بودن پرسشنامه در پژوهش هاي خود استفاده مي نمايند.

به طور کلی استفاده از سواالت •استاندارد به دو علت ارجح است:

اول آنکه روایی و ویژگی های روان •سنجی این سواالت مستدل تر است

دوم آنکه امکان مقایسه نتایج با یافته •های سایر پژوهشگران فراهم می شود.

داشت خواهند سروکار پرسشنامه این با mمتفاوتی های گروه

- سياستگذاران ، مسئولين و سایر پژوهشگران- مشاركت كنندگان كه الزم است پرسشنامه

ساده قابل فهم و مختصر باشد تا وقت زيادي از آن گرفته نشده و آنان را خسته ننمايد.

- واردكننده داده ها به رايانه كه الزم است از نظر كدگذاري ساده باشد.

- مصاحبه گر كه نيازمند يك پرسشنامه كم حجم و غيرپيچيده جهت تسهيل فرآيند پرسشگري است.

به طور خالصه جهت نهايي شدن يك •پرmسشنامه سه مرmحله الزم است طي شود:

- مرحله اول: مرحله برmنامه ريزmي و 1•طراحي سؤاالت

- مرحله دوم: مرmحله اجراي آزمايشي از 2•دو بعد شناختي كه در آن قابل قبول بودن و

قابل فهم بودن سؤاالت آزمون مي شود -بعد كمي3•

پرسيدن در اخالقي اصولسؤاالت

رعايت حريم شخصي ،• رضايت آگاهانه •و حفظ سر مشاركت كنندگان •

• privacy• - informed consent• - confidentiality

پاسخ‌دهي و مشارکت ميزان كنيم افزايشيابد؟ چه افراد

بر اساس يك قاعده سرانگشتي، در • درصد كساني كه 70صورتي كه بيش از

جهت تكميل پرسشنامه دعوت به همكاري شده اند، اقدام به تكميل آن

نمايند )چه از طريق مصاحبه و چه خودايفا(، مي توان چنين نتيجه گيري نمود

كه روايي بيروني مطالعه قابل قبول است.

سه علت براي عدم تکمیل پرسشنامه •توسط افراد مي توان متصور شد:

الف( عدم دريافت پرسشنامه•ب( امتناع از گرفتن پرسشنامه يا پاسخ •

به سؤاالتج( فراموش نمودن تكميل پرسشنامه•

را ه های افزایش پاسخ دهی- تماس قبلي با پاسخگويان و هماهنگي با آنان1- توجيه پاسخگويان و برقراري ارتباط مناسب با 2

آنان- تهيه نمودن هديه جهت پاسخگويان3- استفاده از حمايت سازمان ها و افراد مورد وثوق 4

جهت جلب مشاركت پاسخگويان- ارسال پرسشنامه به اسم شخص مخاطب 5

)پاسخگو( به صورت تايپ شده- تضمین بدون نام بودن پرسشنامه6

سؤاالت پرسشنامه را در چهار دسته كلي جاي دارد

الف( سؤاالت مبتني بر واقعيات موجود كه در مورد خصوصيات افراد و موضوعاتي كه اتفاق

افتاده است پرسش مي نمايد. سؤاالت زمينه اي )مانند سن، جنس، وضعيت تأهل( در

اين گروه قرار مي گيرند.ب( سؤاالت رفتار سنجي كه در مورد آنچه كه

مردم انجام مي دهند، پرسش مي نمايد. سؤاالت مربوط به سنجش عملكرد افراد در اين گروه

قرار مي گيرند

ج( سؤاالت آگاهي سنجي كه آگاهي، اطالعات و مهارت هاي شناختي افراد نسبت به يك موضوع پرسش مي نمايد.د( سؤاالت نگرش سنجي و پرسشگري

پيرامون حاالت رواني اشخاص. البته پاسخ داده شده به اين سؤاالت به شفافي سه گروه قبل قابل اثبات نيستند چرا كه ذهن افراد را به طور مستقيم نمي توان خواند!

سؤاالت‌رفتار‌سنجيسؤاالت رفتارسنجي به دو گروه تهاجمي •

)حساس( و غيرتهاجمي مي توانند باشند.سؤاالت رفتارسنجي غيرحساس برخالف •

سؤاالت تهاجمي و نيز سؤاالت نگرش سنجي خيلي به نحوه بيان پرسش وابسته

نیستند، و بيشتر تحت تأثير دو عامل می باشند؛ قابل فهم بودن و تأثير حافظه.

نکات مهم در طراحی سواالت غیر حساس

هنگام پرسش پيرامون عملكرد شخص طي يك •مدت خاص و کوتاه )مانند هفته و ماه( بهتر است زمان به طور دقيق مشخص شود، تا

اينكه به صورت كلي پرسيده شود. مثالً هنگامي كه مي پرسيم: »آيا طي يك ماه، گذشته سيگار كشيده ايد« بهتر است با ذكر تاريخ باشد

آبان اين سؤال را مي پرسيم در 25مثالً اگر مهر ماه 25پرانتز ذكر نماييم منظور »

تاكنون«.

وقايع چشمگير و برجسته مانند خريد منزل •و ازدواج در مقايسه با وقايع كم اهميت تر آسان تر به ياد مي آيند. در خصوص وقايع مهم و برجسته پرسيدن در يك چارچوب

زماني دmو تا سه سال منطقي به نظر مي رسد ولي در مورد موضوعات معمولي بهتر است بازه زماني مورد سؤال حداكثر

بين دو هفته تا يك ماه باشد.

Telescoping

به اين مفهوم كه افراد وقايع را نزديك تر از •آنچه هست، به ياد مي آورند. به طور مثال

هنگامي كه مي پرسيم در هفته گذشته چندبار با دوستان خود قليان كشيده ايد،

ممكن است ده روز گذشته را تخمين بزنندتوصيه مي شود زمان دو هفته تا يك ماه، •

براي پرسشگري پيرامون رفتارها در نظر گرفته شود.

• ،mبرخالف سؤاالت نگرش سنجي كه تأكيد مي گرددسؤاالت كوتاه و مختصmر بيان شوند، بهتر است

سؤاالت رفتارسنجي كمي تشريحي تر نوشته شوند تا به حافظه و فهم افراد كمك نمودmه و پاسخ هاي

دقيق تري دادmه شود. البته متذكر مي گردد كه طوالني نمودن سؤال در •

مورد سؤاالتي كه پذيرش اجتماعي كمتريm دmارند به افزايش همكاريm پاسخگو كمك بيشتريm مي نمايد،

ولي در مورد رفتارهای مثبت ممكن است منجر به بيش گزارش دهي شود.

ممكن است از پاسخگو راجع به رفتارهاي •ديگران بپرسيم. مثالً در مورد مقدار مصرف مواد توسط دوستان. در مجموع پرسشگري

تا 10در مورد رفتار سايرين سبب مي شود درصد از دقت گزارشات كاسته شود . 20

ولي در مورد رفتارهاي منفي و يا سؤاالت •حساس ممكن است دقت پاسخ ها افزايش

يابد

سؤاالت از زدايي حساسيت روش‌هايتهاجمي

متداولترين روش فائق آمدن بر حساسيت سؤاالت استفاده از پرسشنامه هاي خود

ايفا است. اين روش هم براي حل مشكل كم گزارش دهي در رفتارهاي نامطلوب و

هم براي حل مشكل بيش گزارش دهي در خصوص رفتارهاي مطلوب كاربرد دارد

پرسشنامه ها به صورت دسته جمعي توزيع گردند. به •ويژه در محل هايي كه افراد به طور معمول به شيوة

تجمعي حضور دارنددر جمع آوري پرسشنامه ها، محرمانه بودن و غيرقابل •

ردگيري بودن پرسشنامه ها تضمين گردد. به اين شكل كه در وسط كالس يا محل تجمع افراد يك صندوق تعبيه گردد و از افراد خواسته شود پس از تكميل

پرسشنامه ها، آنها را داخل اين جبعه دربسته بياندازند تا كسي دسترسي مستقيم به پرسشنامه در لحظه

تحويل آن نداشته باشد.

روش ديگر استفاده از تكنيك پاسخ هاي •تصادفي شده است كه حدود نيم قرن

پيش ارائه گرديد. در سال هاي اخير روش هاي ساده تري نيز •

ارائه شده است كه از آن جمله مي توان به روش ضربدري اشاره نمود

استفاده از سؤاالت طوالني تر مي تواند •منجر به همكاري بيشتر مشاركت كنندگان

درصد 30 تا 25شود، به طوري كه تا حد در مقايسه با سؤاالت كوتاه افزايش

پاسخ مثبت مي تواند رخ دهد

در پرسيدن راجع به رفتارهاي منفي بهتر •است از بازه زماني گذشته استفاده شود تا حال. به طور مثال پرسيده شود: »آيا تا به حال براي يك بار هم شده است لب به

الكل زده باشيد؟« به جاي »آيا در حال حاضر الكل استفاده مي نماييد؟« در عوض

براي رفتارهاي مورد تأييد مانند بستن كمربند ايمني بايد برعكس سؤال نمود

استفاده از روش »همه اين كار را مي كنند«، •برmاي كاستن از قباحت موضوع از ديد

پاسخگو، مثالً در متن سؤال بيان مي كنيم: »به نظر مي رسد در حال حاضر مصرف

قليان در اماكن عمومي از جمله پارك ها رو به افزmايش است. شما تا به حال پيش آمده

كه با دوستانتان در پارك قليان بكشيد؟«.• -everybody does it

يكي از راه هاي ديگر آن است كه بنا را •براين بگذاريم كه پاسخگو اين رفتار را انجام مي هد. مثالً به جاي آنكه بپرسيم »آيا سيگار مي كشيد« و سپس سؤال

نمايیم »اگر بلي، روزی چند نخ؟« به اين شكل پرسش نماييم: »روزانه چند نخ

سيگار مي كشيد؟« و گزينه »اصالً« را نيز بگنجانيم

استفاده از نظر تأييدي افراد صاحبنظر •براي القاء اين موضوع كه رفتار مورد سؤال كامالً ناپسند نيست. مثالً »هنوز

برخي از پزشكان ترياك را براي درمان برخي از بيماري ها تجويز مي نمايند. آيا

شما طي يك ماه گذشته ترياك مصرف نموده ايد؟«.

آوردن توجيه براي روي آوردن به يك •رفتار نادرستm. مثالً ذكر شود كه »برخي

براي آنكه بر اعصاب خود مسلط شوند به سيگار روي مي آورند. شما تا به حال

شده است كه سيگار بكشيد؟«

آری از پشت کوه آمده ام...چه می دانستم این ور کوه باید برای ثروت،

حرام خورد؟برای عشق خیانت کرد

برای خوب دیده شدن دیگری را بد نشان دادبرای به عرش رسیدن دیگری را به فرش کشاندوقتی هم با تمام سادگی دلیلش را می پرسم

می گویند: از پشت کوه آمدهترجیح می دهم به پشت کوه برگردم و تنها

دغدغه امسالم برگرداندن گوسفندان از دست گرگ ها

باشد، تا اینکه این ور کوه باشم و گرگ "محمد بهمن بیگی"

نگرشسنجي سؤاالتارزيابي هاي افراد نسبت به پديده هاي پيرامون •

كه در ذهن خود دارندنظر پيرامون يك جزء محدود است و با يك •

سؤال سنجيده مي شود، در حالیکه مجموعه اي از نظرات تشكيل دهنده نگرش است، و نگرش پيچيده تر و مفصل تر از "نظر" است و با چندين سؤال پرسيده مي شود. البته ذكر اين نكته الزم است كه اين دو واژه در بسياري از پژوهش ها

معادل يكديگر بكار مي روند

در يك تقسيم بندي، نگرش به دو دسته تصريحي )آشكار( •و تلويحي )ضمني( تقسيم مي شود. نگرش تصريحي،

نگرشي است كه از آن به عنوان نگرش هوشمندانه نيز ياد مي شود. يعني ارزيابي فرد نسبت به وقايع و پديد هاي اجتماعي بر اساس تفكر بر موضوع صورت مي پذيرد. به

عقايد و باورهاي عبارتي نگرش تصريحي نمايانگر افكارماست، در حالي كه نگرش تلويحي يا ضمني مبتني بر

ناخودآگاه اشخاصي است و لذا در روش هاي اندازه گيري آن گاهاً به ابزارهاي فيزيولوژيك مانند ميزان تعريق،

رسانش پوmستي و ... متوسل مي شوند

در طراحي سؤاالت نگرش سنجي •مهمترين و اولین گام آن است كه به اين

سؤال در ذهن خود پاسخ دهيم كه »به دنبال چه هستيم« و نه چيزي بيشتر

سؤاالت نگرش سنجي به سه نوع هستند: •شناختي، ارزشيابي و رفتاري•

به بیانی دیگر مي توان سؤاالت نگرش سنجي به تقسيم بندي نمود:ABC`s of attitudeصورت

:A حرف اول كلمه Affect:B حرف اول كلمه Behavior:C حرف اول كلمه Cognition

يا عاطفي )احساسي( را می affectكه حيطه يا ارزشيابي evaluationتوان معادل حيطه

تلقي نمود.

هنگام طراحي عبارات نگرش سنجي عالوه بر •رعايت اصول كلي طراحي سؤاالت پرسشنامه، الزم است بار ارزشي سؤاالت هم از نوع منفي

و هم از نوع مثبت باشد. بهتر است سؤاالت نگرش سنجي پس از طرح •

سؤاالت رفتارسنجي و آگاهي سنجي قرار داده شوند، از اين جهت كه پاسخ به سؤاالت

رفتارسنجي تحت الشعاع پاسخ هاي داده شده به سؤاالت نگرش سنجي قرار نگيرند

Example

نگاري روان سؤاالتپژوهش هاي روان نگاري و سبك زندگي برخي اوقات به •

يا سنجش »فعاليت ها، عاليق و نظرات« نيز AIOعنوان نام برده مي شوند. اين پژوهش ها با هدف ترسيم

خصوصيات يك جمعيت هدف مانند مصرف كنندگان اكستازي به كار مي روند. از طريق اين پژوهش ها مي توان جهت طراحي اقدامات پيشگيرانه مصرف مواد، اقدامات دقيق تري نمود و تا حدي به اين سؤال پاسخ داد كه چرا

افراد متفاوت رفتارهاي متفاوت دارند. به بيان ساده تر اين نوع پژوهش ها نيمرخ و عكس و تصوير جمعيت هدف را

ترسيم مي نمايند -• - activities, interests, and opinions

در صورت تمايل به ساخت پرسشنامه هاي پژوهشگر •ساخته، در ابتدا بر اساس بررسي متون وسيع،

نظرخواهي از افراد صاحبنظر و تشكيل جلسات بحث گروهي متمركز، الزم است عناوين خصلت هاي متفاوت مشخص و در قالب مقياس ليكرت )ارجحاً

درجه ای( از افراد راجع به 11 درجه اي تا 9خودشان سؤال شود. مثالً خصوصياتي همچون تلقين پذيري، منطقي بودن، عاطفي بودن، اجتماعي بودن،

كنجكاو بودن، درون گرا بودن، و تكانشی بودن.

به طور مثال ضمن طرح موضوع، از مخاطب خواسته •می شود دور عدد مناسب را خط بکشد:

من خودم را يك آدم كنجكاو مي دانم.•بسيار موافقم بسيار •

مخالفم• به طور معمول جهت گروه بندي افراد جمعيت هدف •

)مثالً مصرف كنندگان شيشه( بر اساس خصوصيات مورد بررسي، از روش آماری تحليل خوشه اي استفاده

مي شود.

آگاهيسنجي سؤاالتقبل از طرح سؤاالت آگاه سنجي، الزم است نقشه •

طرح سؤاالت مشخص شود. مثالً در بررسي »ميزان آگاهي پزشكان عمومي درباره داروي ترامادول«

پژوهشگران پس از مطالعه متون و مشورت گروهي به اين نتيجه رسيدند كه سؤاالت مورد نظر در اين

( دسته دارويي و فارماكو كينتينك ، 1حيطه ها باشند. ( مصارف 4( عالئم مسموميت، 3( وابستگي، 2

( اشكال دارويي و 6( تداخالت دارويي، 5درماني، ( عوارض جانبي. 7دوزاژ، و

پس از آن فرمت يا شكل سؤال بايد تعيين گردد. •در مجموع استفاده از سؤاالت بسته در مقايسه با سؤاالت باز و تشريحي اولويت بيشتري دارد. اگرچه طرح سؤاالت بسته و چند گزينه اي مشكل

تر از سؤاالت تشريحي است، ولي تصحيح آن به خصوص در حجم نمونه هاي باال راحت تر است.

اينكه پاسخ سؤاالت به صورت چهار گزينه اي باشد، يا صحيح/غلط، بهتر است پاسخ ها به صورت صحيح، غلط و اطالعي ندارم باشد.

تنهmا اشكال سؤاالت صحيح/غلط آن است كه احتمال حدس •زدن را افزايش مي هد كه براي كاهش اين احتمال از دو شيوه مي توان استفاده نمود. اول آنكه گزينه »اطالعي

ندارم« نيز اضافه شود تا پاسخگو مجبور به انتخاب يكي از دو گزينه »صحيح« يا »غلط« نباشد، دوم آنكه تعداد

سؤاالت بيشتر باشد تا تأثير حدس و گمان در نمرۀ= كل كاهش يابد. الزم به ذكر است براي مشاركت كنندگان نيز پاسخ به عبارات صحيح- غلط آسان تر از پاسخ به سؤاالت

چهارگزينه اي است. بهتر است به جاي »نمي دانم«، از واژه »اطالعی ندارم« استفاده شود، تا پاسخگو آن را بي

احترامي به خود تلقي ننمايد

در توزيع سؤاالت آگاهي سنجي الزم •است در همان زمان پرسشنامه ها جمع آوري شوند تا پاسخگو فرصت

مراجعه به منابع جهتm انتخاب پاسخ صحيح را نداشته باشد. لذا اين

پرسشنامه ها نبايد از طريق پستي يا شبكه اينترنتي تكميل گردند

زمينه و سؤاالت ايدموگرافيك

اين گروه از سؤاالت را مي توان سؤاالت مبتني بر واقعيات موجود نيز ناميد كه در مورد خصوصيات مختلف مرتبط با

افراد جمعيت هدف تنظيم مي گردند.به طور معمول سؤال در مورد سن و جنس در زمینه اكثر

مطالعات پرسشنامه اي وجود دارد. سؤال در مورد جنس به صورت بسته پرسيده مي شود.

مؤنث: مذكرجنسدر صورتي كه نقش اجتماعي افراد مورد نظر باشد، واژه

مي باشد و در صورتي كه ماهيت genderمترادف جنس، مي باشدsexفيزيولوژيك مدنظر باشد واژه مترادف جنس،

سؤال از سن مي تواند به دو شكل باشد: الف( سن:........سال

13ب( تاريخ تولد:........./ ........./.......كه در حالت دmوم احتمال دقيق تر بودن پاسخ

بیشmتر است زیرا در حالت اول سؤال حساس تر جلوه مي نمايد و برخی تمایلی به

ذکر سن خود به طور دقیق ندارند.

دقت نماييد كه ساير سؤاالت دموگرافيك در •صورتي پرسيده شود كه در تحليل نهايي مورد

استفاده قرار گيرند. چرا كه افزودن سؤال اضافي نه تنها سبب خستگي پاسخگو مي شود

بلكه مي تواند در وي ايجاد حساسيت نمايد و از چرا اين سؤاالت را از من خود بپرسد »

؟« و حتی نزد خود چنین نتیجه گیری مي پرسندممکن است از روی سواالت زمینه نماید که »

«.ای من را شناسایی کنند

تحصيالت كه پيشنهاد مي شود به صورت گزينه هاي زير مطرح شود:

الف( بي سواد ب( خواندن و نوشتن/ ابتدايي

ج( راهنمايي يا سيكل د( دبيرستان/ ديپلم ناقص

هm( ديپلم و( تحصيالت دانشگاهي

بايد در نظر داشت سؤال در موردm سطح •تحصيالت، شغل، و درآمد همگي ناظر به

طبقه اقتصادي اجتماعي اشخاص مي باشند و اگرچه هيچكدام شاخص مستقيمي از

طبقه اقتصادي اجتماعي نمي باشند، شاخص سطح تحصيالت از دو شاخص ديگر

عيني تر بوده و مقايسه پذيري نتايج با ساير پژوهش ها را بهتر فراهم مي آورد

توصيه مي شود متغيرهاي دموگرافيك در انتهاي •پرسشنامه آورده شوند، چرا كه نه تنها ايجاد

حساسيت در پاسخگو نمي نمايند )ممكن است در صورتي كه در ابتداي پرسشنامه آورده

شوند ذهن پاسخگو را مشغول خود نموده كه شايد از اين طريق قابل شناسنايي شوند(،

بلكه آوردن آنها در ابتداي پرسشنامه مي تواند به كم نمودن انرژي پاسخگو و خسته نمودن وي در پاسخ به سؤاالت انتهايي منجر شود.

Searching the literature

• Questionnaire• Scale• Tool• Inventory• Instrument• Test• checklist

روش‌هاي‌جمع‌آوري‌داده‌ها‌از‌طريق‌پرسشنامهمصاحبه و خودتكميلي

روش مصاحبه به سه شيوه رودر رو، •تلفني و رايانه اي قابل انجام است

چه موقع سؤاالت پرسشنامه را از طريق •مصاحبه تكميل نماييم؟

- بي سواد يا كم سواد بودن مخاطmبين1- ماهيت سؤاالت به گونه اي باشد كه نيازمند 2

توضيح براي پاسخگويان باشد.- مشاركت كنندگان به عللي تمركز حواس چنداني 3

نداشته و الزم باشد از طريق مصاحبه حواس آنان را جمع نمود.

- نياز به جمع آوري داده هاي حساس در شرايطي 4كه اطمينان داريم بين پاسخگو و مصاحبه كننده -حس تفاهم و ارتباط خوبي از پیش برقرار است

استفاده از رفتارهاي غيركالمي سبب 5 - - مشاركت بيشتر مصاحبه شونده و نيز

رفع تناقض در پاسخ ها شود.- براي كدگذاري پاسخ ها نياز به قضاوت 6

باشد.

روش مصاحبه داراي نقاط ضعفياست

- در روش مصاحبه احتمال كم گزارش دهي رفتارهاي 1منفي بيشتر مي شود.

- با توجه به آنكه پاسخگويان بسته به سؤالي كه 2مي پرسند، توضيحات مختلفي دريافت مي كنند، پرسشگري

از يك رويه متحدالشكل براي همه برخوردار نخواهد بود واين ممكن است سوگيري در نتايج ايجاد نمايد.

- خصوصيات پرسشگر و مهارت وي تأثير قابل توجهي بر 3كيفيت داده هاي جمع آوري شده دارد.

- محرمانه بودن داده ها تا حدي تحت الشعاع قرار 4مي گيرد.

- مستلزم صرف وقت و هزينه بيشتري مي باشند.5

-‌اصول‌و‌قواعد‌مهم‌در‌طراحي‌پرسشنامه

- در قالب بندي پرسشنامه اولويت اول بايد به 1پاسخگو، در درجه دوم نيازهاي مصاحبه كننده و در نهايت به اپراتور رايانه كه داده ها را وارد نرم افزار

مي كند داده شود.- اندازه و شكل فونت ها بايد به گونه اي باشد كه 2

خواندن پرسشنامه براي كليه خوانندگان راحت و بدون زحمت باشد، هم از نظر سايز فونت و هم از

نظر نوع فونت ، قلم هايي همچون زر، ميترا، لوتوس بيشتر از ساير قلم ها توصيه مي شود و اندازه فونت

كوچك تر نباشد.12سؤاالت نيز حتي المقدور از

- بهتر است سؤاالت شماره گذاري شوند، تا پاسخگو 3هم بداند چند سؤال را بايد جواب دهد و هم اينكه ضمن پيشرفت كار، با پيگيري شماره ها احساس

رضايت نمايد.- در صورتي كه پرسشنامه از حيطه هاي مختلف 4

تشكيل شده باشد، مثالً نگرش، عملكرد و آگاهي ، بهتر است براي هريك از گروه هاي سؤاالت نام

گذاري مجزا شود.- بهتر است گزينه هاي يك سؤال نيز شماره گذاري 5

شوند.

- در مواقعي كه گزينه ها از نظر مفهومي، خود از يك ترتيب خاص تبعيت مي نمايند، باالترين

شماره يا كد به گزينه اي داده شود كه تلويحاً و از نظر مفهومي، عدد بيشتري به آن تعلق 5مي گيرد. به طور مثال در مقياس ليكرت

و به »بسيار 1درجه اي به »بسيار مخالفم« کد داده شود.5موافقم« کد

- سعي شود كه كل سؤال و گزينه هاي آن در 7يك صفحه قرار گیرند.

- برخي براي آنكه پرسشنامه كوتاه تر جلوه 8نمايد، به صورت دو ستوني آن را تهيه مي كنند.

توصيه مي شود پرسشنامه به صورت يك ستوني تهيه شود. بهتر است گزينه هاي

سؤاالت چندگزينه اي به صورت عمودي باشد، ولي مي توان گزينه ها را نيز به صورت رديفي

تنظيم نمود

- اگر از پرسشنامه استاندارد استفاده مي نماييد، سعي نماييد 9قالب بندي پرسشنامه اصلي رعايت شود.

- توصيه مي شود مقدمه ابتدايي پرسشنامه با نام خداوند 10مهربان شروع شود، و در سطر دوم نام پرسشنامه آورده شود

وپس از آن )سطر سوم( سالم و احترام خطاب به پاسخگو آورده شود. بعد از آن هدف از پژوهش، تأكيد بر بي نام بودن

)مگر در پيمايش هاي روند يا كوهورت( نيز ذكر شود، و سپس از همكاري آنان تشكر گردد. در پايان الزم است نام خانوادگي و عنوان پژوهشگر آورده شود. برخي توصيه مي نمايند، روي هر پرسشنامه يك برگه روكش وجود داشته باشد، و در برگه

آورده شود.10روكش موارد مندرج در بند

توصيه مي شود، پرسشنامه به صورت كتابچه 11- اي درآورده شود. يعني از وسط صفحه منگنه

بخورد نه قسمت گوشه باالي صفحه. زيرا با اين شيوه عالوه بر صرفه جويي در كاغذ، شكل

ظاهري پرسشنامه نيز حرفه اي تر جلوه مي نمايد و پاسخگو با جديت بيشتري پرسشنامه را تكميل

مي نمايد. در صورت استفاده از الگوي يك صفحه اي، پرسشنامه ها به صورت يك رو تكثير و

منگنه شوند.- استفاده از كاغذهاي رنگي اولويتي نسبت به 12

كاغذ سفيد ندارد.- بسته به مخاطب مي توانيد از حاشيه هاي 13

متفاوت، با استفاده از نرم افزار آفيس جهت زيباتر نمودن ظاهر پرسشنامه استفاده نمايید.

- در مجموع سعی شود به ظاهرِ پرسشنامه 14اهميت داده شود. البته سعي شود بيش از دو

فونت، و دو رنگ استفاده نشود. همچنين فضاي خالي به حد كافي وجود داشته باشد.

نصیحت سقراطپیش از آن که سقراط را محاکمه کنند، از •

: بزرگ ترین آرزویی که در وی پرسیدنددل داری چیست؟وی پاسخ داد: بزرگ

ترین آرزوی من این است که به باالترین مکان در آتن صعود کنم و با صدای بلند به مردم بگویم: ای رفقا! چرا با این حرص و

ولع بهترین و عزیزترین سال های عمر خود را به جمع آوری ثروت می گذرانید، در حالی که آن گونه که باید و شاید در

تعلیم و تربیت اطفالتان که مجبور هستید روزی ثروت خود را برای آنان باقی

گذارید همت نمی گمارید؟

http://www.beytoote.com/fun/allegory/socrates-advice.html

محتوایی قواعدسعي شود از عبارات ساده و قابل فهم استفاده شوmد و •

از واژه هايي كه مبهم هستند و تعابير مختلفي از آن مي شود استفاده نشود )مانند احتماالً، ممكن است،

شايد(از طرح سؤاالت دوپهلو و چند جنبه اي پرهيز شود. سؤال •

خوب سؤالي است كه فقط يك چيز را اندازه گيري نمايد و يك پاسخ داشته باشد. مثالً عبارت نگرش سنجِي

»مصرف سيگار و الكل در جوانان رو به افزايش است«، دو موضوع جداگانه يعني سيگار و الكل را مي سنجند

• - double-barreled

از پرسيدن سؤاالت منفي پرهيز شود. •منظور سؤاالتي كه بيان ادبي سؤال از واژه هاي منفي استفاده شده باشد نه سؤالي كه بار ارزشي منفي دارد. مثالً

»ترك الكل از ترك هرويين آسان تر نيست«. زيرا براي مغز پردازش اين

سؤاالت دشوار است و عالوه بر آن احتمال خطاي تصادفي نيز افزايش مي يابد

ترتيب سؤاالت به گونه اي باشد كه سؤاالت كلي •در ابتدا و سؤاالت اختصاصي تر بعد از آن آورده

شود. مثالً در ابتدا ديدگاه مخاطب نسبت به مواد مخدر و سپس نسبت به ترياك، هروئين

و... به صورت مجزا پرسيده شود و نه بالعكس. هم چنين سؤاالت دموگرافيك انتهاي پرسشنامه •

آورده شوند، نه ابتداي آن ضمناً سؤاالت رفتارسنجي قبل از سؤاالت نگرش سنجي آورده

شوند

سعي شود كه تعداد سؤاالت به حدي باشد كه سبب •خستگي پاسخگو نشود. برخي سؤاالِت متعددي را از

منابع مختلف كنار يكديگر چسبانده و به عنوان پرسشنامه نهايي استفاده مي نمايند. اين امر اصطالحاً

Fishing expedition گفته مي شود يعني سريع سر و ته قضيه را به هم مي آورند! بدون آنكه به اين امر توجه داشته باشند كه آيا تك تك اين سؤاالت ما را به هدف

اوليه خود مي رسانند. يك راه براي پيشگيري از اين آفت آن است كه تك تك •

سؤاالت را جداگانه بخوانيم و از خود بپرسيم »اطالعات بدست آمده از اين سؤال به چه درد من

مي خورد؟«

از سؤاالت مبهم كه هر شخص تفسير •خاص خود را از آن دارد، بپرهيزيم. مثالً

اگر بپرسيم »اهل كجاييد؟ شهر، روستا« پاسخگو ممكن است برايش اينگونه

تداعي شود كه »منظور پرسشگر چیست؟« اين كه كجا به دنيا آمده ام يا كجا بزرگ شده ام يا كجا در حال حاضر

زندگي مي كنم

در محيط هاي بسته سعي كنيد اگر •پرسشنامه حاوي سؤاالت حساس است،

حتي المقدور سؤال باز در پرسشنامه نهاده نشود. به بيان ديگر پرسشگر ممكن است به اين فكر بيفتد كه »از روي دست

خطم ممكن استm شناخته شوم«. اين توصيه در محيط هايي همچون مدرسه،

دانشگاه، زندان صدق مي كنند.

در صورتي كه احساس مي كنيد پاسخ هاي •مشاركت كنندگان مي تواند جالب، راهگشا و

دور از انتظار باشد، مي توانيد از سؤال باز استفاده كنيد. با توجه به وقت گير بون تحليل

سؤاالت باز، توصيه مي شود در صورتي از سؤاالت باز استفاده شود كه حجم نمونه

باشد. به هر حالm مقدار سؤاالت 50كمتر از باز بهتر است محدود و كم باشد.

در مورد مدت زمان مصاحبه توصيه مي شود • دقيقه، 10طول مدت مصاحبه تلفني حداكثر

مصاحبه رودر رو حداكثر يك ساعت )ارجحاً نيم 100ساعت( و پرسشنامه خود ايفا حداكثر

سؤال داشته باشد.بهتر است سؤاالت باز انتهاي پرسشنامه آورده •

شود، چون هم وقت گير هستند و هم جريان پاسخ به سؤاالت را كمي تغيير مي دهند.

سعي شود، سؤال از پاسخ متمايز شود. يا سؤال •يا پاسخ، پررنگ شود.

هنگام مرتب نمودن گزينه ها، آنها را از كم به زياد •( هرگز، 1قرار دهید )از راست به چپ(. مثالً )

( اكثر اوقات. 4( گاهگاهي، و )3( به ندرت )2)عالوه بر اين بهتر است در تنظيم گزينه هاي يك •

سؤال كه مقبوليت اجتماعي دارد، از حداقل آن شروع نماييم. مثالً در پاسخ به اين سؤال كه »آيا

از كمربند ايمني هنگام رانندگي استفاده مي نماييد« چنين نوشته شود: هرگز، بسيار كم، و

...

در مورد تعدادm گزينه ها در مقياس ليكرت، الزم است در نظر بگيريم آيا دmر نظر گرفتن گزينه حد وسط

كارگشاست يا خير. مثالً در صورتي كه هدف رضايت سنجي باشد، پژوهشگر تمايل دارد بين افراد راضي و ناراضي تمايز قائل شود، لذا در نظر گرفتن گزينه حد

وسط الزام چنداني نداردm. ولي هنگامي كه مي خواهيم نگرش افراد را سنجيم، استفاده از گزينه

حدوسط اهميت بيشتري مي يابد.اگرچه مراجع متفاوت در اين خصmوص نظرات متفاوتي ارايه مي هند، ولي غالب پرسشنامه ها از مقياس هاي

پنج درجه اي يا هفت درجه ايm استفاده مي نمايند

در صورت استفاده از گزينه حدوسط بهتر •است به جاي عبارت »نظري ندارم« ، نوشته شود »نه موافق نه مخالف« چون به هر شكل افراد بدون نظر نمي توانند باشند، و ابراز اينكه

»نه موافقم و نه مخالف« خود نوعي اظهارنظر است. الزم به ذكر است نامگذاري

مقايسه پنج درجه اي از هفت درجه اي ساده تر است. به نظر مي رسد فرد بودن تعداد گزينه ها

بر زوج بودن آن اولويت دارد

توجه داشته باشيم كه در برخي مواقع ممكن •است آزمودني به سؤاالتي پاسخ دهد كه حتي با

نزديك ترين دوست خود هم در ميان نگذاشته باشد. با اين ديدگاه كه پرسشگر فرد غريبه اي

است كه وي را نمي شناسد و اطالعات نيز قابل ردگيري نمي باشند.

مشاركت داوطلبانه و آگاهانه در پژوهش •صحت پاسخ به اينگونه سؤاالت حساس را

افزايش مي دهد.

هنگام طراحي يك پرسشنامه جديد مي توان از •سؤاالت پرسشنامه هاي نسبتاً مشابه استفاده نمود. مثالً براي طراحي سؤاالت نگرش سنجي نسبت به قليان مي توان از سؤاالتي نگرش سنجي نسبت به سيگار كه پيشينه پژوهشي غني تري دارد استفاده

نمود. معموالً استفاده از پرسش ها به صورت موردي نياز به كسب اجازه از مبدع پرسشنامه ندارد

مگر آنكه پرسشنامه مورد نظر تحت كپي رايت باشد. به هر حال ذكر مراجع مورد استفاده الزم

-است

مراقب سوگیری مقبولیت اجتماعی باشید. •معموالً افراد در پاسخ به سؤاالت تمايل دارند كه انساني مثبت و خوب جلوه نمايند. يكي از

داليلي كه سبب مي شود در سؤاالت حيطه هاي متفاوت )دموگرافيك، رفتارسنجي، نگرش

سنجي و آگاهي سنجي( افراد گزينه هاي مثبت و خوب را عالمت بزنند آن است كه تمايل

دارند خود را به گونه اي نشان دهند كه جامعه )اخالقي( توقع دارد كه آنان باشند

جهت فايق آمدن بر سوگيري از مقبوليت •اجتماعي پيشنهاد مي شود، عالوه بر استفاده

از تكنيك هاي طرح سؤاالت حساس، از سؤاالت با بار مثبت و منفي هر دو استفاده شود و عالوه بر آن در هنگام توزيع پرسشنامه ها

مصاحبه، توضيح و توجيه الزم در جهت جلب مشاركت صادقانه پاسخگويان و غيرقابل

شناسايي بودن پرسشنامه ها داده شود

Cross-cultural adaptation

• A previously validated instrument does not necessarily mean it is valid in another time, culture or context.

• Instruments that were validated some time ago may not be valid in the present time due to changes in society that occur continuously

Stage I: Initial Translationforward translation

• Bilingual translators whose mother tongue is the tar-get language.

• The two translators should have different profiles, or backgrounds.

• Translator 1.One of the translators should be aware of the concepts being examined (clinical perspective)

• Translator 2. The other translator should neither be aware nor informed of the concepts being quantified and preferably should have no medical or clinical back-ground. (naïve translator)

Stage II: Synthesis of The Translations

• It is important that consensus rather than one person’s compromising her or his feelings resolve issues (third independent person).

Stage III: Back Translation

• Two back-translations are considered a minimum.

• The back-translations (BT1 and BT2) are produced by two persons with the source language (English) as their mother tongue. The two translators should neither be aware nor be informed of the concepts explored, and should preferably be without medical background.

Stage IV: Expert Committee

• The minimum com-position comprises methodologists, health professionals, language professionals, and the translators (forward and back translators) involved in the process up to this point.

• The original developers of the questionnaire are in close contact with the expert committee during this part of the process.

Equivalence between the source and target version in four areas

• Semantic equivalence: Do the words mean the same thing? Are their multiple meanings to a given item? Are there grammatical difficulties in the translation?

• Idiomatic Equivalence. Colloquialisms, or idioms, are difficult to translate.

Equivalence

• Experiential Equivalence. Items are seeking to capture and experience of daily life; however, often in a different country or culture, a given task may simply not be expe-rienced (even if it is translatable).

• Conceptual Equivalence. Often words hold different conceptual meaning between cultures (for instance the meaning of partner.

Stage V: Test of the Prefinal Version

• Ideally, between 30 and 40 persons should be tested.

• Each subject completes the questionnaire, and is interviewed to probe about what he or she thought was meant by each questionnaire item and the chosen response.

• Equivalence in an applied situation

Pretesting

• Respondents are probed for their understanding, acceptability and emotional impact of the items in order to detect confusing or misleading items.

• Interviews are conducted until a pre-established percentage of under-standing is achieved for all items (e.g.≥90%).

Stage VI:

• Submission of Documentation to the Developers or Coordinating Committee for Appraisal of the Adaptation Process

نکته در ترجمه- مترجمين همواره يك ترجمه مفهومي را در ذهن داشته

باشند. به عبارتي در ترجمه لغات و عبارات به جاي ترجمه تحت اللفظي و واژه به واژه، معادل مفهومي

آنm را در نظر داشته باشند.- سعي شود عبارات ترجمه شده شفاف ، ساده و

مختصر باشند. از جمالت طوالني مشتمل بر چند بند پرهيز شود.

- مخاطبين متن بايد افراد معمولي باشند، نه افراد حرفه اي شاغل در بخش سالمت.

از واژه هاي فني استفاده نشود-

پيش‌آزمون‌پرسشنامه نفر مي باشد10حداقِل تعداد الزم •

الف( برداشت آنها از هريك از سؤاالت چيست؟ب( آيا مي توانند سؤال را به زبان خود بازگو نمايند؟

ج( در صورتي كه كلمه يا عبارت خاصي را نمي فهمند، يا به نظرشان آن عبارت یا واژه توهين آميز و حساسیت زاست

است، مطرح نمايند؟د( اگر در ترجمه جايگزين هاي متفاوتي براي كلمات يا جمالت

وجود داشته باشد، از مخاطبين پرسيده شود كه كدام را ترجيح مي دهند.

اين سؤاالت براي تك تك سؤاالت پرسشنامه بايد تكرار شود

اندازه‌گيري‌و‌مفاهیم‌آن

Alternative definition

Measurement is the process of linking abstract concepts to empirical indicants.

Zellar & Carmines

Concepts Indicants

• Weight • Distance

• Depression• Test anxiety• Marital

satisfaction

• Pounds/grams/tons• meters, kilometers• ?????• ?????• ?????

متغير : خصوصيت قابل اندازه گيري كه مقادير متفاوتي متغير صفتي است كه به طور به خود مي گيرد.

يا اينكه بتوان با يك وسيله مستقيم قابل مشاهده باشداندازه گيري ديگر آن را سنجيد، مانند سن و جنس.

مفهوم : صفتي است كه به طور مستقيم قابل اندازه گيري نيست،m بلكه به طور غيرمستقيم با يكm متغير

ديگر سنجيده مي شود. مانند طبقه اقتصادي اجتماعي كه با شاخص سطح تحصيالت يا شغل به طور

غيرمستقيم سنجيده مي شود.

سازه : صفتي است كه به طور مستقيم •قابل اندازه گيري نيست، بلكه به طور

غيرمستقيم با چند مفهوم يا متغير ديگر سنجيده مي شود. مانند افسردگي كه

مي توان آن را با پرسشنامه استاندارد بك سنجيد. بنابراين پرسشنامه ها، ماهيتاً به

سازه مي باشند.گيريدنبال اندازه

چك ليست: فهرستي از سؤاالت عيني و قابل •مشاهده كه هر سؤال متغيير خاص خود را

مي سنجد )به طور معمول از نظر وجود يا عدم وجود(. به عبارتي چك ليست برخالف سازه كه »صفتي است كه به طور مستقيم قابل اندازه

گيري نيست«، مجموعه اي از عبارات و سؤاالت است كه تك تك آنها به طور مستقيم

قابل اندازه گيري اند )از طریق مشاهده(.

مقياس : مجموعه اي از سؤاالت است كه نمره آنها با يكديگر قابل جmمع است )با يا بدون وزن دادن( و

در نهايت منجر به يك نمره مي شود.داده سخت: داده هاي عيني كه به طور مستقيم

)غالباً از طریق مشاهده( و به واسطه ابزار آزمايشگاهي قابل اندازه گيري اند مانند قد، فشار

خون.داده نرم: داده هاي ذهني كه معموالً در قالب واژه ها و نه اعداد و ارقام بيان مي گردند. هنر پmرسشنامه

آن است كه داده هاي نرم را به داده هاي سخت )عدد و رقم( تبديل مي نمايmد.

-scale -score -objective -subjective

چندبعدي بودن : برخي متغيرها يا سازه ها تك بعدي اند، يعني از اجزاء ريزتر تشكيل نشده اند. مثل تشنگي، قد

و ضريب هوشي. ولي برخي سازه ها در ظاهر تك بعدي ولي در عمل از ابعاد متفاوت تشكيل شده اند. مثالً رضايت از بیمارستان اگرچه در ظاهر يك چيز را

مي سنجد ولي در درون از ابعاد متفاوتي از جمله تسهيالت و امكانات، هزينه، و نحوه برخورد و مهارت

پرسنلي مي تواند تشكيل شود.اندازه گيري: تخصيص اعداد و ارقام به اشياء و رخدادها

بر اساس قواعدي مشخص

عبارت ليكرتي: منظور عبارت يا سؤالي است كه با الگوي ليكرتي گزينه هاي آن تنظيم شده اند. به طور

مثالm» ميزان موافقت خود را با هريك از عبارت زير بيان داريد«. که به دنبالm آن در مقابل هر عبارت

چنين نوشته مي شود:بسيار مخالفم/ مخالفم/ نه موافق نه مخالف/ موافقم

/ بسيار موافقمكه اين حالت ليكرت پنج درجه اي است و همانطور كه

مالحظه مي شوmد شامل يك طيف دوقطبي است

مقياس ليكرت: منظور مجموعه اي از سؤاالت با مقياس ليكرت است.

يكي از سوگيري هايي كه در مقياس ليكرت رخ مي هد. سوگيري فرمانبرداري يا تسليم است. به اين شكل كه

برخي پاسخگويان تمايل دارند كه با تمامي عبارت موافقت نمايند. براي همين توصيه مي شود، سؤاالت

نگرش سنجي از هر دو معناي مثبت و منفي برخوردار باشند.

• - Likert scale• - acquiescence bias

مقياس ليكرت رتبه اي است يا فاصله اي

از آنجايي كه مقياس ليكرت حاصل جمع نمmره •تعدادي عبارت ليكرتي است، لذا حاصل جمع

سؤاالت، يا ميانگين نمره پرسشنامه ها به عنوان متغير فاصله اي مي تواند در نظر گرفته

شود. در مورد مقياس مشابه چشمي ، با توجه به آنكه فواصل بين ارقام يكسان است، نمره حاصله به عنوان متغير فاصله اي در نظر

گرفته مي شود

• The debate on Likert scales and how they should be analysed, therefore, clearly and strongly goes to the intervalist position, if one is analysing more than a single Likert item.

• Using means and standard deviations, and it is perfectly appropriate to use parametric techniques like Analysis of Variance to analyse Likert scales.

: بر اساس تئوري نمره واقعي )خطاي اندازه گيري(•اين تئوري كالسيك نمره اي كه از يك پرسشنامه

بدست مي آيد )نمره مشاهده شده( برابر است با مجموع نمره واقعي شخص و نمره حاصل از خطا. كه

اين خطا به دو دسته خطاي تصادفي و خطاي منظم تقسيم مي شود.•X = T + er + es

• - true score theory • - observed score (X)• - true score (T)• - random error (er)• - systematic error (es)

هر عاملي است كه به خطاي تصادفي: اين خطا ناشي از •اندازه گيري را تحت تأثير قرار مي دهد، كه طور تصادفي

از آن به خطاي نمونه گيري نيز ياد مي شود و برخي به آن ً خلق و خوي افراد مي تواند پاسخ خطاي خصلتي گويند. مثالافراد را به سؤاالت پرسشنامه در لحظه تكميل پرسشنامه

تحت تأثير خود قرار دهد. آنچه كه مهم است خطاي تصادفي ميانگين نمره گروه را جابجا نمي كند ولي مي تواند منجر به به افزايش گوناگوني و انحراف معيار نمره گردد

•. - sampling error• -trait error

خطاي منظم: اين خطا ناشي از هر عاملي است كه به •صورت منظم اندازه گيري را تحت تأثير قرار مي دهد،

كه از آن به عنوان سوگيري نيز ياد مي شود. مثالً اِشكال در طراحي سؤاالت، یا سوگيري مقبوليت اجتماعي كه

شخص عالقه دارد خود را خوب و مثبت نشان دهد. خطاي منظم، ميانگين نمره گروه هدف را جابجا

مي نمايد. خطاي منظم معموالً يك سويه است )برخالف خطmاي تصادفي كه هم منجر به نمره باال و هم نمره

پايين مي شود و از اين رو يكديگر را خنثي نموده و در نهايت ميانگين نمرات گروه یا نمونه تفاوتي نمي كند(.

بنابراين براي تمايز اين دو خطا اگر فكر مي كنيم عامل خطا سبب مي شود نمرات اشخاص به يك سمت )باال يا پايين تر از واقع( كشيده شوند، خطاي مربوطه از نوع منظم يا

سيستميك است.سایکومتری: ارزیابی قضاوت های ذهنی پیرامون پدیده

هایی که به صورت عینی قابل اندازه گیری نیستند. پايايي و روایی دو ابزار اصلی سایکومتری می باشند.

• - psychometry • - reliability• - validity

True Score Theory

12

34

5

12

34

5

3Scan a multitude of information and decide

what is important.

12

34

5

12

34

5

12

34

5

12

34

5

12

34

5

1Manage time effectively

2Manage resources effectively.

3Scan a multitude of information and decide

what is important.

4Decide how to manage multiple tasks.

5Organize the work when directions are not specific.

1Manage time effectively

Rating Sheet

ObservedScore =

TrueAbility + Random

Error

T e+X

The Error Component

T e+X

Two Components:

The Error Component

T e+X

Two Components:

er

The Error Component

T e+X

Two Components:• Random Errorer

The Error Component

T e+X

Two Components:• Random Errorer

es

The Error Component

T e+X

Two Components:• Random Error

• Systematic Error

er

es

What is Random (trait) Error ?• any factors that randomly affect measurement of the

variable across the sample• for instance, each person’s mood can inflate or

deflate their performance on any occasion• random error adds variability to the data but does

not affect average perofrmance for the group

Random Error

X

freq

uenc

y

the distribution of X with no random error

Random Error

X

freq

uenc

y


the distribution of X with random error

Random Error

X

freq

uenc

y


the distribution of X with random error

Notice that random error doesn’t affect the average, only the variability around the average

What is Systematic (method) Error?• any factors that systematically affect

measurement of the variable across the sample• systematic error = bias• for instance, asking questions that start “Do you

agree with ...” will tend to yield a systematic lower agreement rate

• systematic error does affect average performance for the group

Systematic Error

X

freq

uenc

y

the distribution of X with no systematic error

Systematic Error

X

freq

uenc

y


the distribution of X with systematic error

Systematic Error

X

freq

uenc

y


the distribution of X with systematic error

Notice that systematic error doesaffect the average -- we call this a bias

Reducing Measurement Error• pilot test your instruments -- get feedback

from respondents• train your interviewers or observers• make observation/measurement as

unobtrusive as possible• double-check your data• triangulate across several measures that might

have different biases

• Traditional reliability theory considers only errors that occur randomly; systematic errors, or biases, were generally considered under validity testing.

• Random errors may arise due to inattention, tiredness, or mechanical inaccuracy that may equally lead to an overestimation or under-estimation of the true quantity.

• In classical test theory, reliability refers to the extent to which a score is free of random error.

Reliability and Validity

Reliable but not Valid


Neither Valid not Reliable


Neither Reliable nor Valid


Reliable and Valid

پایایی

پايايي كه از آن با عناوين تكرارپذيري و دقت هم ياد مي شود، در واقع پاسخ به اين سؤال است

كه »در صورت تكرار اندازه گيري تا چه حد repeatablility - نتايج قبلي بدست مي آید«

-precision

هرچه پراكندگي )گوناگوني( نقاط اصابت تير به سيبل بيشتر باشد •مي گوييم پايايي كمتر است. منشاء اين گوناگوني ها سه چيز است

الف( تغيير در خصوصيت مورد اندازه گيري، مثالً در اندازه گيري •عاليم ترك در يك فرد وابسته به ترياك بسته به زمان سم زدmايي

.mارقام بدست آمده متفاوت خواهد بود ب( نوسان و تغيير در ابزار اندازه گيري كه معموالً در مورد •

پرسشنامه یکی از علل آن اشکال در ترجمه پرسشنامه است. یا به طور مثال در موردm دستگاه اندازه گيري فشار خون اگر ستون جيوه دستگاه حباب هوا بگيرد، اندازه گيري ها دچار خطا خواهد شد

ج( تغيير در شخص اندازه گير )مصاحبه گر، مشاهده گر(. كه • mر مصاحبه هاي بعدي به علت افزايشmاحبه گر دmممكن است مص

تجربه و يا بالعكس كم حوصلگي كيفيت مصاحبه اش تفاوت نمايد.

در واقع ضريب پايايي نسبت واريانس نمره •واقعي به واريانس نمره مشاهده شده حاصل از پرسشنامه است، لذا اگر ضريب پايایي يك

صدم بدست آمد، مفهوم اين 85پرسشنامه درصد واريانس مشاهده 15عدد آن است كه

شده ناشي از خطاي اندازه گيري است • -reliability coefficient

–The smaller the error component in relation to the true score component, the higher the reliability of an item, which is the ratio of the true score to the total (true + error) score.

با توجه به توضيحات فوق تعريف ديگري از •پايايي مي توان ارائه داد: »پايايي به ما نشان

مي د هد كه تا چه حد نتايج بدست آمده عاري از خطاي تصادفي است«. به بيان ديگر پايايي

خطاهايي را نشان مي د هد كه از نوع تصادفي است و روایی متناظر به خطاي سيستماتيك يا

منظم است.

چهار نوع پايايي مي توان متصور شد:•- پايايي دروني )يا سازگاري دروني(1•- پايايي آزمون - بازآزمون2• - پايايي بين اندازه گيري ها3•

- پايايي آزمون موازي4•• - internal reliability• - internal consistency• - test-retest reliability• - inter-observer (inter-rater) reliability• - parallel test reliability

دورني پايايييكي از راههايm پي بردن به پايايي آن است كه پرسشنامه •

را به دو نيmم كنيم و همبسmتگي بين نمره دو نيمه را محاسبه نماييم، كه از آن به روش دو نيمه كردن ياد مي كنند. اين

روش معموmالً مmنجر به كم تخميني ضريب پايايي پرسشنامه مي شود، و لذا روش پركاربردتر استفاده از آلفاي كرونباخ

است. فلسفه محاسباتي اين ضmريب آن است كه بيان مي دارد وقتي كه چند سؤال قرار است يك چيز را اندازه گيريm نمايند، الزم است اين سؤاالت با يكديگر همبستگي

داشته باشند • - split-halves method• -Cronbach's alpha

. شرط استفاده از اين شاخص آن است كه •اوالً گزينه هاي سؤmاالت از يك شكل تبعيت

درجه اي ليكرت باشند( و 5نمايند )مثالً همگي دوم آنكه تعداد سؤاالت حداقل دو تا باشد.

اگرچه آلفاي كرونباخ براي داده هاي كمي در نظر گرفته شده است ولي محاسبه آن براي

داده هاي رتبه اي )ليكرتي( در تمامي متون متداول است. آلفاي كرونباخ عددي است بين

صفر و يك، كه صفر به مفهوmم آن است كه عبارات يا سؤاالت يك پرسشنامه هيچ ربطي به يكديگر ندارند و يك به مفهوم همبستگي كامل

است.

اگرچه حداقل عدد قابل قبول آلفاي كرونباخ در مراجع •متفاوت تا حدي با يكديگر فرق مي كند، ولي چنين

حداقل قابل 8/0 تا 7/0مي توان گفت كه ضريب قبول براي يك پرسشنامه پژوهشگر ساخته است ، ولي براي پرسشنامه هايي كه جهت تشخيص باليني

مي باشد . 9/0بكار مي روند، حداقل قابل قبول عدد در نظر داشته باشيم كه آلفاي كرونباخ بmاال نشانه تك •

بعدي بودن يكm پرسشنامه نيست، چرا كه بسياري مواقع پيش مي آيد كه پرسشنامه شامل دو يا چند بعد

است ولي آلفاي كرونmباخ تمامي سؤاالت باز هم از بيشتر مي شود.8/0حداقل

از‌چه‌راه‌هايي‌مي‌توان‌آلفاي‌كرونباخ‌يك‌پرسشنامه‌را‌افزايش‌داد؟

- افزودن تعداد سؤاالت )عبارات( پرسشنامه، كه البته پرسش آلفا به طور واضحي افزايش 10تا حد

مي نمايد ولي پس از آن، ميزان افزايش بطئي است . با اين حساب شايد بتوان گفت با افزايش

تعداد سؤاالت يك پرسشنامه پايايي آن نيز افزايش مي يابد. لذا چنین می توان گفت که مقايسه آلفاي كرونباخ دو پرسشنامه با تعداد سؤال متفاوت امر

معقولي نيست.- متجانس تر و همگون تر نمودن سؤاالت سبب افزايش

آلفاي كرونباخ مي شود.

ناهمگون بودن افراد مورد بررسي وm آزmمودني ها سبب افزايش آلفاي كرونباخ مي شود، چون ضريب پايايي به

واريانس اندازه گيري وابسته است.- اگر اكثر آزمودني ها تمام عبارات پرسشنامه را پاسخ

ندهند، به صورت كاذب آلفاي كرونباخ افزايش مي يابد . درصد آزمودني ها پاسخ 15توصيه مي شود اگر بيش از

كامل به كل پرسشنامه نداده باشند، آلفا محاسبه نشود.- آلفاي كرونباخ به شكل توزيع نمرات نيز ارتباط دارد، به

طوري كه هرچه چولگي نمره كل پرسشنامه بيشتر باشد )به عبارتي ميانگين نمرات به بجاي آنكه به مركز

مقياس ليكرت نزديك باشد به طرفين تمايل يابد(، آلفاي كرونباخ كمتر مي شود.

پايايي‌آزمون‌‌-‌باز‌آزموناين روش ثبات اندازه گيري در طول زمان را •

مي سنجد. به اين ترتيب كه یک پرسشنامه به همان افراد، و به فاصله زماني كوتاهي مجدداً

داده مي شود. مدت زمان حد فاصل اين دو اندازه گيري نه بايد به حدي كوتاه باشد كه به علت يادآوري پاسخ ها، نتايج مخدوش گردند و نه به حدي طوالني باشد كه به علت عوامل

متفاوت، تغييرات ناخواسته صورت بپذيرد.• -stability over time

معموالً منابع، عددي براي فاصله زماني بين دو •اندازه گيري ذكر نمي نمايند، چون صفت مورد بررسي نيز خود از اهميت برخوردار است، به طوري كه اگر

پرسشنامه مربوط به سنجش شخصيت فرد باشد در مقايسه با پرسشنامه اي كه بmه اندازه گيري سالمت عمومي وي مي پردازد از نوسانات كمتري در طول 2زمان برخوردار خواهد بود. در مجموع فاصله زماني

هفته در پژوهش هاي پرسشنامه اي متداول است. الزم به ذكر است برخي صاحبنظران به علت تأثيرپذيري

اين روش از عوامل مختلف، استفاده از آزمون – بازآمون در سنجش پايايي را معتبر ندانسته و به هيچ

وجه توصيه نmمي نمايند

گيرها اندازه بين پايايياين نوع پايايي، توافق بين اندازه گيري ها يا •

نفر 2هموژنيني بين آنان را مي سنجد. در واقع يا بيشتر، يك اندازه گيري يا مصاحبه را بر روي يك گروه انجام مي دهند و از طريق اين روش همبستگی یا توافق بين آنان محاسبه مي شود

پايايي‌آزمون‌موازي

در اين روش دو پرسشنامه مشابه به يك •گروه داده مي شود و براي اثبات اين

تشابه بايد همبستگي بين نمرات حاصل از اين دو پرسشنامه باال باشد. اين روش معموالً در پژوهش هاي آموزشي مورد

educational - استفاده بيشتري دارد.research

توصيه صاحبنظران آن است كه براي محاسبه •پايايي پرسشنامه حتماً از دو روش استفاده

شود. در مجموع اگرچه تقسيم بندي فوق براي •

انواع پايايي ارائه گرديد، ولي محاسبه پايايي توسط نرم افزار به شيوه هاي متفاوت قابل انجام است. دقت نماييم توصيه به محاسبه پايايي از حداقل دو روش را با انواع پايايي

اشتباه نكنيم، چرا که دو روش معmموال دو روش متفاوت نرم افزاری برای محاسبه پایایی می

باشند، و نه الزاماً دو نوع پایایی از انواع پایایی که توضیح داده شدند

validity

روایی

تعریف• The extent to which a test measures that

which it is intended to measure. • This conception of validity, which reflects the

idea of agreement with a criterion, is commonly used in epidemiology and underlies the notions of sensitivity and specificity.

• It is a limited conception

تعریف• Hence, a more general definition holds that

validity describes the range of interpretations that can be appropriately placed on a measurement score: What do the results mean? What can we conclude about a person who produced a particular score on the test?

معانی روایی• Ravaجایز، سزاوار •Revaریسمان پشت ستور •Rovaزیبا رو

Types of validity(Nunnally)

• Content (intrinsic, relevance, representative) validity

• Construct (trait, factorial) validity• Predictive (empirical, statistical, criterion

related) validity

Types of validity(Survey methods in community medicine, Abramson)

• Based on judgment:• Face validity• Content validity• Consensual validity

Types of validity(Survey methods in community medicine, Abramson)

• Based on checks against data:سنگ تراوزوی هر یک داخل پرانتز نوشته شده •

است• Criterion (better measurement)• Convergent & Discriminant (different measure)• Construct (related variable)• Predictive (an event)• Responsiveness (change)

Sensibility

• Feinstein: Does it make sense?آیا به دلمون می چسبه؟•

• Abramson: Face (logical) validity is a sine qua non

Content validity

تعریف روایی محتوا• The extent to which an instrument

adequately samples the research domain of interest when attempting to measure phenomena.

• Content validity concerns the degree to which a scale has an appropriate sample of items to represent the construct of interest

روش اندازه گیری• A common procedure is to ask patients and

experts in the field to critically review the content of the scale.

• Alternatively, more formal focus groups and in-depth interviews may be arranged to explore whether the questionnaire is covering all aspects of the topic relevant to patients.

روش اندازه گیری• There is “no agreed upon criterion for

determining the extent to which a measure has attained content validity” (Carmines and Zeller (1979), p. 22).

• An editorial in Research in Nursing & Health indicated that authors submitting an instrument development manuscript to that journal should include a content validity assessment (Froman & Schmitt, 2003).

Sample size

CVI

• A CVI value can be computed for each item on a scale (which h we refer to as I-CVI) as well as for the overall scale (which we call an S-CVI). To calculate e an item -level CVI (I-C VI), experts are asked to rate the relevance of each item, usually on a 4-point scale.

• There are several variations of labeling the 4 ordinal points, but the scale that seems to be used most t often is 1 = not relevant , 2 = somewhat relevant ,3= quite relevant ,4=highly relevant

لطفا مشخص فرمایید هر یک از عبارات زیر تا •چه حد با موضوع مورد اندازه گیری )نگرش

نسبت به اخذ زیرمیزی توسط پزشکان( مرتبط است؟

• Then, for each item, the I-CVI (item -level CVI) is computed as the number of experts giving a rating of either 3 or 4, divided by the number of experts—that is, the proportion in agreement about relevance.

• Items with an I-CVI of .78 or higher for three or more experts could be considered evidence of good content validity

Criterion Validity

• Criterion validity considers whether scores on the instrument agree with a definitive, “gold standard” measurement of the same theme.

• This option for validating a measure typically occurs when a new instrument is being developed as a simpler, more convenient alternative to an accepted measurement: can a self-report of anxiety replicate what a psychiatrist would have diagnosed?

• Criterion validity may be divided into con-current and predictive validity, depending on whether the criterion refers to a current or future state.

• To illustrate the former, results from a questionnaire on hearing difficulties might be compared with the results of audiometric testing.

Concurrent validity

• The threshold score that divides these two categories is known as the cutting-point or cutting-score.

• For clarity cutting-points will be expressed as two numbers, such as 23/24.

• Choosing a cutting-point is challenging.

• If the goal is to rule out a diagnosis, a cutting-point will be chosen that enhances sensitivity, whereas if the clinical goal is to rule in a disease the cutting-point will be chosen to enhance specificity.

• Many times , it is awkward to compare the validity of two tests in terms of both sensitivity and specificity: AUC

ويژگي و حساسيت

a b

c d

DiseaseYes No

Pos.

Neg.Test

حقيقي = حساسيت مثبت=بيماران

aa + c

a + c b + d

حساسیت مفهوم

اگر شخصی بیمار باشد چند درصدتستش مثبت می شود؟

True positive rate کاربرد تست حساس در رد کردن

بیماری است. وقتی بکار می رود که هدفمان غربال

گری باشد.


a b

c d

DiseaseYes No

Pos.

Neg.Test

حقيقي = ويژگي منفيها =سالم

db + d

a + c b + d

ویژگی مفهوم

اگر شخصی سالم باشد تستشچند درصد منفی می شود؟

True negative rate کاربرد تست در اثبات بیماری

است. وقتی بکار می رود که زدن

مارک بیماری )به اشتباه( به شخص تبعات منفی قابل توجهی

برای وی دارد.

Positive Likelihood Ratio

Indicates: - How much odds of disease is increased if test is positive - A ratio of something that is desirable (true positives)

divided by something undesirable (false positives)

General Guidelines:1 => Test is Useless1 - 2 => Rarely important change in pre- to post test odds2 - 5 => Small Change5 - 10 => Moderate Change>10 => Large Change

Positive Likelihood Ratio:

sensitivityLR+ = ------------------------

1 - specificity

In our example:

0.8= ------------ = 8.0 1 - 0.9

A Measure of Overall Usefulness of a Test:

AUC = Area Under (ROC) Curve

Sens

itivi

ty

0%

100%

1 - Specificity0%

100%

Sens

itivi

ty

0%

100%

1 - Specificity0%

100%

Sens

itivi

ty

0%

100%

1 - Specificity0%

100%

Sens

itivi

ty

0%

100%

1 - Specificity0%

100%

AUC of Four ROC Curves

100%

50%

90%65%

AUC: Interpretation

Randomly select a diseased patient and get a score of Y.

Now, randomly select a healthy patient and get a score of X.

then,

AUC = Probability that Y is bigger than X (assume larger test values associated with disease)

Rough AUC Guidelines: Swets, J.A. (1988)0.50 - 0.60 - Not So Good Science, 1285 - 19930.60 - 0.75 - Fair0.75 - 0.90 - Good0.90 - 0.97 - Very Good0.97 - 1.00 - Excellent

At cut-off of 7/8, the sensitivity and specificity were 100% and 93%, respectively. The area under the curve was 0.99 and statistically significant (P < 0 .001).

200

Item Analysis

• To identify poor items in Knowledge tests

201

Item Analysis

• The group of statistical techniques applied to items on multiple choice exams in order to improve the assessment.

• Generally, item statistics will be somewhat unstable for small groups of students. Perhaps fifty students might be considered a minimum number if item statistics are to be stable.

Item-Objective Congruency

• This task is to determine whether each item is accurate and the answer correct based on current understanding in the field. The experts also evaluate the grammar and suggest wording changes to improve the items.


• The experts read each item and then rate each item on every objective. Experts suggest assigning -1 for an item that is a poor match with an objective, 0 for a moderate or uncertain match, and +1 for a strong match.


• For an item to be retained, the number of experts who agree should be equal to n - 1. Thus, if there are four experts, three of them (n - 1) must give a rating of +1 to the intended objective for an item to be retained.

Determining Item Difficulty

• In order to know how difficult an item is, an experienced instructor might use professional judgment initially and then use an item analysis in which the difficulty and discrimination of an item is calculated.

Reducing Guessing:The more difficult the item, the greater the effect of guessing

207

Item Difficulty/IF• Tells you the % of students who correctly

answered any given item

IF= N number of students answering correctly

N‌number of students taking the test

Range will be .00 to 1.00, multiply by 100 )move the decimal place two places to the right( to read as a percentage correct

ضريب‌دشواری -1Difficulty Index

:تعريفدرصد‌کل‌آزمون‌

شوندگا‌ني‌که‌به‌يک‌‌جواب‌درست‌سؤال‌

مي‌دهند.

• The average difficulty of a test is the average of the individual item difficulties. For maximum discrimination among students, an average difficulty of .60 is ideal.

• If 243 students answered item no. 1 correctly and 9 students answered incorrectly, the difficulty level of the item would be 243/252 or .96.

20اگر‌تعدادآزمون‌شوندگان‌‌نفرباشد،برگه‌هاي‌آزمون‌را‌≤

کال‌به‌دو‌دسته‌باال‌و‌پايين‌تقسيم‌مي‌کنيم.

40اگر‌تعداد‌بيش‌از‌‌نفرباشد،بهترين‌رقم‌براي‌

%است.27گروه‌باال‌و‌پايين‌تا‌‌25بطور‌کلي‌مي‌توان،‌از‌

‌درصد‌راانتخاب‌نمود.33

جواب‌‌گروه‌باالتعدادافرادي‌که‌از‌‌داده‌انددرست ‌

+

جواب‌گروه‌پايين‌تعدادافرادي‌که‌از‌‌داده‌انددرست

کل‌‌+کل‌تعداد‌افراد‌گروه‌باال‌تعدادافراد‌گروه‌پايين

مثال

نتايج‌يک‌سؤال‌ازيک‌آزموننفر(89)تعدادآزمون‌شوندگان=

گزينه باال27% پايين27% متوس46%ط

الف 2 11 20

ب 4 4 5

ج 18 9 15

د 0 0 1

جمع نفر24 نفر24 نفر41

5.048918

بنابراين‌هرچه‌ضريب‌دشواري‌

‌باشد‌،سؤال‌باالتر‌تر‌استآسان .

ضريب‌دشواري‌مناسب‌آن‌‌نزديک‌باشد.5/0است‌که‌به‌

بطورکلي‌ضريب‌هاي‌دشواري‌حداکثر‌اطالع‌را‌‌7/0تا‌3/0بين

در‌باره‌تفاوت‌بين‌آزمون‌شوندگان‌به‌دست‌مي‌دهند.

Ebel,R.L.,and Frisbie ,D.A.(1986).Essentials of educational measurement (4Th ed).

KlineP (1993): The Handbookof Psycho logical Testing : London, Rou-tledge.

سؤاالت‌‌و‌باالتر4/0شاخص‌هاي‌‌=‌بسيار‌خوب

تقريبا‌39/0تا‌‌3/0شاخص‌هاي‌‌=خوب‌ولي‌احتماال‌بايد‌بهتر‌شود.

سؤاالت‌29/0تا‌‌2/0شاخص‌هاي‌‌=لب‌مرزي‌كه‌به‌نوعي‌تجديد‌نظر‌نياز‌داشته‌و‌يابايد‌حذف‌شوند.

سؤاالت‌‌19/0شاخص‌هاي‌زير‌‌=‌ضعيف‌كه‌به‌تجديدنظراساسي‌نيازداشته‌و‌يابايد‌حذف‌شوند.

The index of discrimination

• is a numerical indicator of how the poorer students answered the item as compared to how the better students answered the item.

-ضريب‌تميز2Discrimination index

‌انتخاب‌های‌-انتخاب‌های‌درست‌گروه‌باال درست‌گروه‌پايين

)باال‌يا‌پايين(يک‌گروهتعدادافراد‌

220

Item/Index Discrimination• The degree to which an item separates the

students who did well from those who did poorly• Divide the class into groups (probably thirds) by

ranking scores

ID= IF upper- IF lower

• You will have an ID for each item ranging from -1.00 to +1.00

• Values of 0.30- 0.70 and are quite good discriminators

Calculation

• Sixty students take a test. The top 16 scores and the bottom 16 scores are the upper and lower groups.

• For item no. 1, twelve of the sixteen students in the upper group answered the item correctly while seven students in the lower group answered correctly.

222

Point Biserial Correlation• Is a coefficient that represents the 1, 0

(correct, incorrect) correlation between the item response for each student and the student's total test score.

• Conceptually, the point biserial is similar to the discrimination index, but the point biserial includes the data for the middle group of students from the score distribution.

• Correlations can range between +1 & -1• A pbsc above .20 means the item is behaving as

expected (.30-.70 are recommended)• One would expect that higher scoring students

would get each item correct. • If lower scoring students got a particular item

correct more often than did higher scoring students, then that item would have a negative point biserial correlation

The point biserial correlation

• The column “Corrected Item-Total Correlation.” This column displays the corrected point biserial correlation.

• Items with pbs below 0.1 should be examined for a possible incorrect key.

The point biserial correlation

• A positive point biserial tells us that higher scoring students were likely to get the item correct

• A negative point biserial tells us high scoring Ss answered incorrectly more times than lower scoring Ss

SPSS

• Despite the horrible name, it’s really quite easy to do!

• This is simply a Pearson correlation when the dichotomous variable is coded with 0 for one category and 1 for the other.

• The sign of the correlation will depend entirely on which way the coding of the dichotomous variable was made.

• The first item is too easy to discriminate. • The second item operates very well, • and the third item should be revised to

improve the a and b foils as well as its discrimination.

!!!‌چه‌رسم‌جالبی‌است

...محبتت‌را‌می‌گذارند‌پای‌احتیاجت‌…•...صداقتت‌را‌می‌گذارند‌پای‌سادگیت‌•

…...سکوتت‌را‌می‌گذارند‌پای‌نفهمیت‌•

…...نگرانیت‌را‌می‌گذارند‌پای‌تنهاییت‌…•...و‌وفاداریت‌را‌پای‌بی‌کسیت‌…•و‌آن‌قدر‌تکرار‌می‌کنند‌که‌خودت‌•

باورت‌می‌شود‌که‌تنهایی‌و‌بی‌کس‌و‌محتاج...

...آدم‌ها‌آن‌قدر‌زود‌عوض‌می‌شوند‌•…آن‌قدر‌زود‌که‌تو‌فرصت‌نمی‌کنی‌به‌•

ساعتت‌نگاهی‌بیندازی...‌...و‌ببینی‌چند‌دقیقه‌بین‌دوستی‌ها‌تا‌•

دشمنی‌ها‌فاصله‌افتاده‌است‌…

Reliability

• A random error occurs when the answer to a test—the opinion, belief, or feeling that is selected—is different from what one would have selected under ideal test conditions.

Waterpipe.sav

• An item-to-total score correlation of 0.2 has been cited as the cut-off point below which items should be discarded.

• Streiner DL & Norman GR (1992): Health Measurement Scales: A Practical Guide to Their Development and Use. Oxford: Oxford University Press.

Negative alphas

• One situation in which negative reliability might occur is when the scale items represent more than one dimension of meaning, and these dimensions are negatively correlated.

Negative alphas

• values less than 0 or greater than 1.0 may occur, especially when the number of cases and/or items is small.

• a negative Cronbach's alpha indicates inconsistent coding (see assumptions) or a mixture of items measuring different dimensions, leading to negative inter-item correlations.

The squared multiple correlation, R2

is the R2 for an item when it is predicted from all other items in the scale. The larger the R2, the more the item is contributing to internal consistency.

The lower the R2, the more the researcher should consider dropping it.

Note the R2 of some items may be low even on a scale which has an acceptable Cronbach's alpha overall.

Standardized item alpha

• Is the average inter-item correlation when item variances are equal.

What are the main measures of reliability?

• What if the data are dichotomous or polychotomous?– Reliability should be assessed with some type of Kappa

coefficient• What if the data are quantitative (interval or ratio

scale?– Reliability should be measured with the Intraclass

Correlation Coefficient (ICC)– The various types of ICC and their use is what we will

talk about here.

Interclass vs Intraclass Correlation Coefficients:What is a class?

• What is a class of variables? Variables that share a:– metric (scale), and – variance

• Height and Weight are different classes of variables.• There is only 1 Interclass correlation coefficient –

Pearson’s r.• When one is interested in the relationship between

variables of a common class, one uses an Intraclass Correlation Coefficient.

Big Picture: What is the Intraclass Correlation Coefficient?

• It is, as a general matter, the ratio of two variances:

Variance due to rated subjects (patients)ICC = --------------------------------------------------------------------

(Variance due to subjects + Variance due to Judges + Residual Variance)

Test-retest reliability(Intra-rater reliability)

• As a measure of agreement, the intraclass correlation (ICC) is now normally used to indicate reliability instead of Pearson or rank-order coefficients.

• Like the Pearson correlation, the ICC ranges from −1 to +1, but it measures the average similarity of the subjects’ actual scores on the two ratings, not merely the similarity of their relative standings on the two

A simple example to how misleading interrater correlations

• Computing the interrater r (pearson correlation) between raters 1 and 2, we get 1.00 .

• The Intraclass r (Shrout and Fleiss model 2) is 0.056.

• Computing the interrater r (pearson correlation) between raters 1 and 4, we also get 1.00 . The Intraclass r for these data is also 1.00

Intraclass Correlation reliability designs

• Model 1: Each patient to be rated is rated by a unique rater, with each rater randomly selected from a larger population (a one-way ANOVA random effects model).

• Each rater makes only one rating decision. This model assumes you have a large pool of raters, who are randomly assigned to make one rating per patient per variable. So, for a study in which we rate 10 patients on 5 variables, we would need 50 raters.

• Model 2: Every patient is rated by each rater. We assume the raters are randomly selected from some population of raters (a two-way random effects model). In essence, each rater rates all patients on all variables. This is the efault model that covers most rating situations.

• For example, for a study in which we rate 10 patients on 5 variables, we would need at least 2 raters in order to assess interrater reliability. Each rater would make (10*5)=50 rating judgements.

Model 3

• Model 3: Every patient is rated by each rater, BUT, in contrast to Model 2, we assume the raters are THE population of raters (a two-way, fixed-effects model).

• However, it is assumed that these are the only two raters who will ever make ratings – no generalizability assumed to other raters.

247

ICC Model Decision Tree (Consideration 1: Raters)

Were raters drawn from larger pool?

Did the same subset of raters rate each target?

Two-way mixed

NoYes

One-way Random Two-way random

No Yes

For two-way models you must choose TYPE as well (Consideration 2: Individual rater variability): consistency (interested in whether targets ranked the same) absolute agreement (interested in whether targets got exact same scores)

248

What type of score?

• Are you interested in the reliability of an individual rater or the reliability of the mean of all raters?

• Typically, if you have more than one rating, you would average them for your analyses, since the average will always be a more reliable measure.

• SPSS gives you both, all the time.– Single Measure Intraclass Correlation = reliability of an

individual rater– Average Measure Intraclass Correlation = reliability of

the mean of the raters

• Fleiss, J.L. (1981) Statistical Methods for Rates and Proportions, 2 nd . Edition. New York: Wiley.


a b

c d

DiseaseYes No

Pos.

Neg.Test

حقيقي = حساسيت مثبت=بيماران

aa + c

a + c b + d