کدام آزمون آماری برای ... - web viewکیفی سنجیده شده و فاقد...

65
مار ی در آ س م آسا ی ه ا ف مای ه ی ور ئ ت و لاتا م ت ح ود. آ( ش ی می سر ب و( ث ح, ب ی ط ا, ب3 ن ب س مار آ و آ لات ما ت ح ی و آ ف ی ص و ت مار ه آ اخ( مار در دو س آ س و ن ا ، وآریB ن گی ی ا ب م ی، نرآوآ ف د ب3 ت ی ما ف ی ص و تار م آB ن ی نM ح م ه. ث س آB ارج ا خ م( ث ح, بره ب دآ مال آساسا آر ت ح آ د. ده آی( ه س ت ف ر گ رX ظ ن در روض مف ز ی ن۱ ی ف ی ص و ت مار ی و آ ط ا, ب3 ن ب س مار آ آ- ار م ود در آ, ج و مای ه( روش آرB دگان ب ه د خ س اM ی ی مو م عای ه گی( ر ب و ف ی ص و تی و سر ب ث ه, ج( ش ه و( رM بq ک در ی ردد. گ ب م اده ف ی س آB ن گی ی ا ب م ی و مع, ج ب ی ن رآوآ ف د ی، درص ن رآوآ ف د ی، در ص ن رآوآ ف ع ی ور ت , دآول د خ ب3 ت ی ما ف ی ص و ت ا ی ی ف ی ص و ت ار م آ دف هB ن ی ,رآ ب ا تdescriptive ماری( ش ز س اده آر ف ی س ا آ, ه ی ع خ,ام ای زه می ارآM ه ی, ت س حا م. ث س عه آ ز خ,ام ص ا ب ع ی م ما ت ا ی ی ط ا, ب3 ن ب س مار آ در آinferential ا, س یM سپ رده و ک ه, ت س حا م ها رآ ماره ه آ ون م تر ب اد ف م اده ف ی س ا آ, ر ی گ( ش ه و( رM ب ه و ن ج ب , رآی ب د. ی ده م م ی م ع ت ه ع خ,ام ای زه می ارآM ه ی, ا رآ ن ه اره م اری، آ م آ رض فB ون م ر ا آ و یB ن می ج بq ک م ک ود.( ش ی م اده ف ی س ی آ ط ا, ب3 ن ب س مار آ های آ( روش آر( ش ه و( رM ب های ه ت ص ر فB ون م ر ها و آ ل دآده ب ل ح ب ده آر م آ ث س د, ص ی خ ا( و س ث س ماری آ( ش ز س اده آر ف ی س ا آ, یاری م ه آ ع خ,ام ده آر م آ ث س د, ص ی خ ا( ز س می ارآM ی ه ون م تq ک یn ا ه ی ع خ,امB ن گی ی ا ب م ال( ب م , رآی ب ود.( ش ی م ده ب م ا اره ی م ه آ ع خ,ام ی آر ن ا یµ ه ع ام م خ, ه م ز می ارآM یq ک ی ورد ,رآ ب اره م ه آ ا ک ه ی ون م تB ن گی ی ا ب م آر ر ط ا خB ن می ه ه, ن ث س پ ی زش ی س ه در د( ش مپ ه ه ع خ,امB ن گی ی ا ب مB ونM ج. ث س آ ز می ارآM ده ی ب3 کنµ ود.( ش ی م اده ف ی س وآرد آ م اری ب ن در ث س آ۲ ماری آB ن می ج ب ماری و آB ون م ر آ- آر ق ئ ق ح بر گ ود. آ( شرج مظ( ش ه و( رM ب ه ت ص ر ف ا ی( ش ه و( رM بوآل ش د ای, امه ی یB ان ایM یq ک ا ی ی ی( ش ه و( رM ب اله ف مq ک در ی اده ف ی ساری آ م آB ن می ج ب آر وآلات ش ه, ن خ س اM ی ,رآی ب د،( اس, ز ی می ارآM اره ی, دری( س سرM باوی ا خ زف ص ی و لوآ ش وع ت

Upload: vuonghuong

Post on 30-Jan-2018

234 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

مفاهیم اساسی در آمار آمار در دو شاخه آمار توصیفی و احتماالت و آمار استنباطی بحث و بررس��ی می شود. احتماالت و تئوریهای احتمال اساسا از دایره بحث ما خارج است. همچ��نین

نیز مفروض در نظ��ر گرفت��ه…آمار توصیفی مانند فراوانی، میانگین، واریانس و شده اند.

- آمار استنباطی و آمار توصیفی۱ در یک پ��ژوهش جهت بررس��ی و توص��یف ویژگیه��ای عم��ومی پاس��خ دهن��دگان از روش های موجود در آمار توصیفی مانند جداول توزیع فراوانی، در صد ف��راوانی، درصد فراوانی تجمعی و میانگین استفاده میگردد. بنابراین هدف آمار توصیفی یا

descriptiveمحاس��به پارامتره��ای جامع��ه ب��ا اس��تفاده از سرش��ماری تم��امی عناصر جامعه است. پژوهشگر با استفاده مقادیر نمونه آماره ها راinferentialدر آمار استنباطی یا

محاسبه کرده و سپس با کمک تخمین و یا آزمون فرض آم��اری، آم��اره ه��ا را ب��ه پارامترهای جامعه تعمیم می دهد.برای تجزیه و تحلیل داده ه��ا و آزم��ون فرض��یه

های پژوهش از روش های آمار استنباطی استفاده می شود. پارامتر شاخص بدست آمده از جامعه آماری ب��ا اس��تفاده از سرش��ماری اس��ت و

تائی از جامعه آماره نامیده می ش��ود. ب��رایnشاخص بدست آمده از یک نمونه ی��ک پ��ارامتر مهم جامع��ه اس��ت. چ��ون می��انگین جامع��هµمثال میانگین جامعه یا

همیشه در دسترس نیست به همین خاطر از میانگین نمونه ی��ا ک��ه آم��اره ب��رآورد است در بسیاری موارد استفاده می شود.µکننده پارامتر

- آزمون آماری و تخمین آماری۲ در یک مقاله پژوهشی یا یک پایان نامه بای��د س��وال پ��ژوهش ی��ا فرض��یه پ��ژوهش مطرح شود. اگر تحقیق از ن�وع س�والی و ص�رفا ح�اوی پرس�ش درب�اره پ�ارامتر باشد، برای پاسخ به س��واالت از تخمین آم��اری اس��تفاده می ش��ود و اگ��ر ح��اوی فرضیه ها بوده و از مرحله سوال گ�ذر ک�رده باش��د، آزم��ون فرض�یه ه�ا و فن��ون

آماری آن به کار می رود. هر نوع تخمین یا آزمون فرض آماری با تعیین ص��حیح آم��اره پ��ژوهش ش��روع می شود. سپس باید توزیع آم��اره مش��خص ش��ود. براس��اس توزی��ع آم��اره آزم��ون ب��ا استفاده از داده های بدست آمده از نمونه محاسبه شده آم��اره آزم��ون محاس��به می شود. سپس مقدار بحرانی با توج��ه ب��ه س��طح خط��ا و ن��وع توزی��ع از ج�داول مندرج در پیوست های کتاب آماری محاسبه می شود. در نهایت با مقایسه آماره محاسبه شده و مقدار بحرانی سوال یا فرضیه تحقیق بررسی و نتایج تحلی��ل می

شود. در ادامه این بحث موشکافی می شود.- آزمون های آماری پارامتریک و ناپارامتریک۳

آمار پارامتریک مستلزم پیش فرضهائی در مورد جامعه ای که از آن نمونه گ��یری صورت گرفته می باشد. به عنوان مهمترین پیش فرض در آمار پ��ارامترک ف��رض می شود که توزیع جامعه نرمال اس��ت ام��ا آم��ار ناپارامتری��ک مس��تلزم هیچگون��ه فرضی در مورد توزیع نیست. به همین خاطر بسیاری از تحقیقات عل��وم انس��انی

Freeکه با مقیاس های کیفی سنجیده شده و فاق��د توزی��ع ) of distribution) هستند از شاخصهای آمارا ناپارامتریک استفاده می کنند.

فنون آمار پارامتریک شدیدا تحت تاثیر مقیاس س��نجش متغیره��ا و توزی��ع آم��اری جامع��ه اس��ت. اگ��ر متغیره��ا از ن��وع اس��می و ترتی��بی ب��وده حتم��ا از روش��های

Page 2: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

ناپارامتریک استفاده می شود. اگر متغیرها از نوع فاص��له ای و نس��بی باش��ند در صورتیکه فرض ش��ود توزی��ع آم��اری جامع�ه نرم��ال ی��ا بهنج��ار اس��ت از روش��های پارامتریک استفاده می ش�ود در غیراینص��ورت از روش��های ناپارامتری�ک اس��تفاده

می شود.- خالصه آزمونهای پارامتریک۳

برای آزمون فرض پیرامون میانگین یک جامع��ه اس��تفاده : تک نمونه t آزمون می شود. در بیشتر پژوهش هائی که ب��ا مقی��اس لیک��رت انج��ام می ش��وند جهت بررسی فرضیه های پژوهش و تحلیل س��واالت تخصص��ی مرب��وط ب��ه آنه��ا از این

آزمون استفاده می شود. ب��رای آزم��ون ف��رض پ��یرامون دو می��انگین از ی��ک جامع��ه : وابس,,ته t آزمون

استفاده می شود. برای مثال اختالف میانگین رضایت کارکنان یک س��ازمان قب��ل و بعد از تغییر مدیریت یا زمانی که نمرات یک کالس با پیش آزمون و پس آزمون

سنجش می شود. جهت مقایس��ه می��انگین دو جامع��ه اس��تفاده می دو نمونه مستقل: t آزمون

ب��رای دو نمون�ه مس�تقل ف�رض می ش��ود واری��انس دو جامع�هtشود. در آزمون برابر است. برای نمونه به منظور بررسی معنی دار بودن تفاوت می��انگین نم��ره نظرات پاسخ دهندگان بر اس��اس جنس��یت در خص��وص ه��ر ی��ک از فرض��یه ه��ای

پژوهش استفاده میشود. دو نمونه جهت مقایسه میانگین دوtاین آزمون نیز مانند آزمون  ولچ: t آزمون

ولچ ف��رض می ش��ود واری��انس دو جامع��هtجامعه استفاده می شود. در آزم��ون برابر نیست. برای نمونه به منظور بررسی معنی دار بودن تفاوت میانگین نم��ره نظرات پاسخ دهندگان بر اس��اس جنس��یت در خص��وص ه��ر ی��ک از فرض��یه ه��ای

پژوهش استفاده میشود. برای مقایسه چند میانگین از دو جامعه اس��تفاده می ش��ود. : هتلینگ t آزمون

یعنی دو جامعه براساس میانگین چندین صفت مقایسه شوند. از این آزم��ون ب��ه منظ��ور بررس��ی اختالف (:ANOVA) تحلی,,ل واری,,انس

میانگین چند جامعه آماری استفاده می شود. برای نمونه جهت بررسی معنی دار بودن تفاوت میانگین نمره نظرات پاسخ دهندگان بر اساس سن ی��ا تحص��یالت در

خصوص هر یک از فرضیه های پژوهش استفاده می شود. از این آزمون به منظور بررس��ی (:MANOVA) تحلیل واریانس چندعاملی

اختالف چند میانگین از چند جامعه آماری استفاده می شود. MANOVAچنانچ���ه در  (:MANCOVA) تحلی,,ل کوواری,,انس چن,,دعاملی

بخواهیم اثر یک یا چند متغیر کمکی را حذف کنیم استفاده می شود.خالصه آزمونهای ناپارامتریک  -۵

برای آزمون ف��رض پ��یرامون می��انگین ی��ک جامع��ه : آزمون عالمت تک نمونهاستفاده می شود.

برای آزمون فرض پیرامون دو میانگین از ی��ک جامع��ه : آزمون عالمت زوجیاستفاده می شود.

همان آزمون عالمت زوجی است که در آن اختالف نسبی تفاوت : ویلکاکسوناز میانگین لحاظ می شود.

نیز موسوم است و جهت مقایس��ه می��انگین دو جامع��هUبه آزمون  من-ویتنی:استفاده می شود.

Page 3: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

از این آزم��ون ب��ه منظ��ور بررس��ی اختالف می��انگین چن��د کروس,,کال-والیس: نیز موس��وم اس��ت و تعمیم آزم��ونHجامعه آماری استفاده می شود. به آزمون

Uمان-ویتنی می باشد. آزمون کروسکال-والیس مع��ادل روش پارامتری��ک آن��الیز واریانس تک عاملی است.

این آزمون معادل روش پارامتریک آنالیز واریانس دو عاملی است که فریدمن: بلوک تخصیص داده شده اند.n تیمار به صورت تصادفی به kدر آن

ن�وعی آزم�ون نیک��وئی ب�رازش ب��رای مقایس��ه ی��ک : کولموگروف-اسمیرنفتوزیع نظری با توزیع مشاهده شده است.

در این آزمون شکل توزیع مورد سوال ق�رار می گ�یرد. : آزمون تقارن توزیعفرض بدیل آن است که توزیع متقارن نیست.

kجهت مقایس��ه میان��ه دو جامع��ه اس��تفاده می ش��ود و ب��رای  : آزم,,ون میانهجامعه نیز قابل تعمیم است.

برای بررسی مشاهدات زوجی درباره متغیرهای دو ارزشی استفاده : مک نمارمی شود.

نمونه وابسته است.kتعمیم آزمون مک نمار در  کوکران: Q آزمون برای محاسبه همبس��تگی دو مجموع�ه داده ک��ه ضریب همبستگی اسپیرمن:

به صورت ترتیبی قرار دارند استفاده می شود.http://spss-amar.vcp.irمنبع:

Page 4: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

کدام آزمون آماری برای تحقیق ما مناسب است؟۰  ق.ظ۱۱:۰۷ کاشانی

شاخه های مختل��ف عل��وم ب��رای تجزی��ه و تحلی��ل داده ه��ا از روش ه��ای مختلفیمانند روش های ذیل استفاده می نمایند:

الف( روش تحلیل محتواب( روش تحلیل آماریج( روش تحلیل ریاضید( روش اقتصاد سنجی

ه( روش ارزشیابی اقتصادی…و(

تمرکز این نوشتار بر روش های تجزیه و تحلیل سیستمهای اقتصادی اجتم��اعی وبویژه روش های تحلیل آماری می باشد.

آمار علم طبق�ه بن�دی اطالع�ات، علم تص��میم گ�یری ه�ای علمی و منطقی، علم برنامه ریزی های دقیق و علم توصیف و بیان آن چ��یزی اس��ت ک��ه از مش��اهدات

می توان فهمید. هدف ما آموزش درس آمار نیست زیرا اینگون��ه مط��الب تخصص��ی را میت��وان در مراجع مختلف یافت، هدف اصلی ما ارائه ی�ک روش دس�تیابی س�ریع ب�ه به�ترین

روش آماری می باشد. یکی از مشکالت عمومی در تحقبقات میدانی انتخاب روش تحلیل آماری مناسب و یا به عبارتی انتخاب آزمون آماری مناسب برای بررس��ی س��واالت ی��ا فرض��یات

تحقیق می باشد. در آزمون های آم��اری ه��دف تع��یین این موض��وع اس��ت ک��ه آی��ا داده ه��ای نمون��ه

شواهد کافی برای رد یک حدس یا فرضیه را دارند یا خیر؟انتخاب نادرست آزمون آماری موجب خدشه دار شدن نتایج تحقیق می شود.

دکتر غالمرضا جندقی استاد یار دانشگاه تهران در مقاله ای کاربرد ان��واع آزم��ون های آماری را با توجه به نوع داده ها و وب��ژگی ه��ای نمون��ه آم��اری و ن��وع تحلی��ل

نشان داده است که در این بخش به نکات کلیدی آن اشاره می شود:قبل از انتخاب یک آزمون آماری بایستی به سواالت زیر پاسخ داد:

- چه تعداد متغیر مورد بررسی قرار می گیرد؟۱- چند گروه مفایسه می شوند؟۲- آیا توزیع ویژگی مورد بررسی در جامعه نرمال است؟۳- آیا گروه های مورد بررسی مستقل هستند؟۴- سوال یا فرضیه تحقیق چیست؟۵ هستند؟Categorical- آیا داده ها پیوسته، رتبه ای و یا مقوله ای ۶

قبل از ادامه این مبحث الزم است مفهوم چند واژه آم��اری را ی��اد آور ش��وم ک��هزیاد وقت گیر نیست.

به مجموعه کاملی از افراد یا اشیاء ی��ا اج��زاء ک��ه ح��داقل در جامعه آماری: -۱،گفته می شود. باشند یک صفت مورد عالقه مشترک

نمونه بخشی از یک جامعة آماری تحت بررس��ی اس��ت ک��ه ب��ا نمونه آماری: -۲ انتخاب می شود، به قس��می ک��ه می ت��وان از است روشی که از پیش تعیین شده

این بخش، استنباطهایی دربارة کل جامعه بدست آورد.

Page 5: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

پارامتر یک وی�ژگی جامع�ه اس�ت در ح�الی ک�ه آم�اره ی�ک پارامتر و آماره: -۳ ویژگی نمونه است. برای مثال میانگین جامع��ه ی��ک پ��ارامتر اس��ت. ح��ال اگ��ر از جامعه نمونه گیری کنیم و میانگین نمونه را بدست آوریم، این میانگین ی��ک آم��اره

است. برآوردیابی و آزمون ف��رض دو روش��ی هس��تند ک��ه برآورد و آزمون فرض: -۴

دو جمعیت به کار می روند. مجهول برای استنباط درمورد پارامترهای ویژگی یا خاصیت یک فرد، شئ و ی��ا م��وقعیت اس��ت ک��ه ش��امل ی��ک متغیر: -۵

سری از مقادیر با دسته بندیهای متناسب است. ق��د، وزن، گ��روه خ��ونی و جنسنمونه هایی از متغیر هستند. انواع متغیر می تواند کمی و کیفی باشد.

- داده های کمی مانند قد، وزن یا سن درجه بن��دی می ش��وند و ب��ه همین دلی��ل۶ داده های کمی نیز خ�ود ب�ه دو دس�ته دیگ�ر تقس�یم باشند. قابل اندازه گیری می

می شوند:(Interval dataالف: داده های فاصله ای )

(Ratio dataب: داده های نسبتی ) )ض��ریبIQب��ه عن��وان مث��ال داده ه��ایی ک��ه متغ��یر  داده های فاصله ای: -7

، چون۱۱۷ و ۹۷، ۷۵، ۱۱۰، ۸۰هوشی( را در پنج نفر توصیف می کنند عبارتند از: نمیIQ  این داده ه��ا ع��دد هس��تند پس داده ه��ای م��ا کمی ان��د ام��ا می دانیم که

در فاصلهIQ  مقادیر سایر تواند صفر باشد و صفر در اینجا فقط مبنایی است تاای منظم از صفر و یکدیگر قرار گیرند پس این داده ها فاصله ای اند.

داده های نسبتی داده هایی هستند که با عدد نوش��ته می داده های نسبتی: -۸ شوند اما صفر آنها واقعی است. اکثریت داده ه�ای کمی این گون�ه ان�د و حقیقت��ا دارای صفر هستند. به عنوان مثال داده هایی که متغیر طول پاره خط بر حس��ب

، چون این داده ها۲۳ و ۸، ۳۵، ۱۵، ۲۰سانتی متر را توصیف می کنند عبارتند از: عدد هستند پس داده های ما کمی اند و چون صفر در اینجا واقعا وج��ود دارد این

داده نسبتی تلقی می شوند. - داده های کیفی مانند جنس، گروه خ��ونی ی��ا ملیت فق��ط دارای ن��وع هس��تند و۹

خاصی نیس��تند. داده ه��ای کیفی خ��ود ب��ه دو دس��ته قابل بیان با استفاده از واحددیگر تقسیم می شوند:(Nominal data ) الف: داده های اسمی(Ordinal data ) ب: داده های رتبه ای

مانن��د کیفیت درس��ی ی��ک دانش آم��وز :Ordinalداده ه,,ای رتب,,ه ای  -10(…ها ) یک ستاره، دو ستاره و  هتل بندی )ضعیف، متوسط و قوی( و یا رتبه

که مربوط به متغیر یا خواص کیفی مانند  (nominalداده های اسمی ) -۱۱ خ��اص می categoryعضویت در یک گروها  بیانگر جنس یا گروه خونی است و

باشد. )داده مقوله ای( ب��ه عن��وان مث��ال تع��داد تص��ادفات متغیر تصادفی گسسته و پیوس,,ته: -۱۲

ج��اده ای در روز ی��ک متغ��یر تص��ادفی گسس��ته اس��ت ولی انتخ��اب ی��ک نقطه ب��ه ی���ک متغ���یر۳تص���ادف روی دای���ره ای ب���ه مرک���ز مب���دأ مختص���ات و ش���عاع

است. پیوسته تصادفی یک متغیر می تواند به لحاظ بررسی یک ویژگی خاص در یک گروه و گروه: -۱۳

: دو گروه می تواند وابس��ته و ی��ا۱یا دو و یا بیشتر مورد بررسی قرار گیرد. نکته مستقل باشد. دو گروه وابسته است اگر ویژگی یک مجموعه افراد قبل و بعد از

Page 6: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

وقوع یک عامل سنجیده شود. مثال میزان رضایت ش��غلی کارکن��ان قب��ل و بع�د از پرداخت پاداش و همچنین اگر در مطالعات تجربی افراد از نظر برخی ویژگی ها

در یک گروه با گروه دیگر همسان شود.جامعه ای است که از توزیع نرمال تبعیت می کند. جامعه نرمال: -۱۴ یکی از مهم��ترین توزی��ع ه��ا در نظری��ه احتم��ال اس��ت. و توزی,,ع نرم,,ال: -۱۵

کاربردهای بسیاری در علوم دارد. فرمول این توزیع بر حسب دو پارامتر امی��د ریاض��ی و واری��انس بی��ان می ش��ود. منحنی رفتار این تابع تا حد زیادی شبیه به زنگ های کلیسا می باشد. این منحنی دارای خواص بسیار جالبی است برای مثال نسبت به محور عم��ودی متق��ارن می باشد، نیمی از مساحت زیر منحنی باالی مق��دار متوس��ط و نیم��ه دیگ��ر در پ��ایین مقدار متوسط قرار دارد و اینکه هرچه از طرفین به مرکز مختص��ات نزدی��ک می

شویم احتمال وقوع بیشتر می شود. سطح زیر منحنی نرمال برای مقادیر متفاوت مقدار میانگین و واریانس فراگیری این رفتار آنق��در زی��اد اس��ت ک��ه دانش��مندان اغلب ب��رای م��دل ک��ردن متغیره��ای تصادفی که با رفتار آنها آشنایی ندارند، از این تابع استفاده می کنن��د. ب��ه عن��وان مثال در یک امتحان درسی نمرات دانش آم��وزان اغلب اط��راف می��انگین بیش��تر می باشد و هر چه به سمت نمرات باال یا پایین پیش برویم تعداد افرادی ک��ه این نمرات را گرفته اند کمتر می شود. این رفتار را بسهولت می توان با ی��ک توزی��ع

نرمال مدل کرد. % مش��اهدات در۲۶٫۶۸اگر یک توزیع نرمال باش��د مط��ابق قض��یه چی بی ش��ف

%۴۴٫۹۵  فاص���له می���انگین، مثبت و منفی ی���ک انح���راف معی���ار ق���رار دارد. و مش����اهدات در فاص����له می����انگین، مثبت و منفی دو انح����راف معی����ار ق����رار

% مشاهدات در فاصله میانگین، مثبت و منفی سه انحراف معیار۷۳٫۹۹ و دارد.قرار دارد.

: واضح است که داده های رتبه ای دارای توزیع نرمال نمی باشند.۱نکته : وقتی داده ها کمی هستند و تعداد نمون��ه ن��یز کم اس��ت تش��خیص نرم��ال۲نکته

اسمیرنف مشکل خواهد شد.–بودن داده ها توسط آزمون کولموگروف آزمون های پارامتریک، آزمون ه��ای هس��تند ک��ه ت��وان آزمون پارامتریک: -۱۶ 

ه��ای پیچی��ده  های جمع آوری شده در طرح آماری باال و قدرت پرداختن به دادهرا دارند. در این آزمون ها داده ها توزیع نرمال دارند. )مانند آزمون تی(.

آزمون هائی می باشند که داده ها توزی�ع غ�یر آزمون های غیرپارامتری: -۱۷ ه��ای پ��ارامتری از ت��وان تشخیص��ی کم��تری نرمال داشته و در مقایسه با آزم��ون

ویتنی و آزمون کروسکال و والیس(– )مانند آزمون من  برخوردارند. : اگر جامعه نرمال باش��د از آزم��ون ه��ای پارامتری��ک و چنانچ��ه غ��یر نرم��ال۳نکته

استفاده می نمائیم. پارامتری غیر باشد از آزمون های : اگر نمونه بزرگ باشد، طبق قضیه حد مرک��زی ج��تی اگ��ر جامع��ه نرم��ال۴نکته

پارامتریک استفاده نمود. های آزمون از نباشد می توان آزمون م��ورد نظ��ر خ��ود را۲۴حال به کمک جدول زیر براحتی می توانید یکی از

انتخاب کنید:

داده کمی و دارایهدفتوزیع نرمال

داده رتبه ای و یا داده کمی غیر

نرمالداده های کیفی اسمی

Categorical

آزمون نسبتآزمون میانه آزمون میانگین وتوصیف یک گروه

Page 7: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

انحراف معیار مقایسه یک گروه با

دو یا آزمون دو–آزمون خی آزمون ویلکاکسونآزمون یک نمونه اییک مقدار فرضیجمله ای

مقابسه دو گروهمستقل

آزمون برای نمونه ویتنی–آزمون من های مستقل

آزمون دقیق فیشر ) آزمون خی دو برای نمونه های

بزرگ( مقایسه دو گروه

نار–آزمون مک آزمون کروسکالآزمون زوجیوابسته مقایسه سه گروه یا

بیشتر )مستقل( آزمون آنالیز

دو–آزمون خی آزمون والیسواریانس یک راهه

مقایسه سه گروه یابیشتر )وابسته(

آزمون آنالیز واریانس با اندازه

های مکررآزمون کوکرانآزمون فریدمن

اندازه همبستگی بیندو متغیر

آزمون ضریبهمبستگی پیرسون

آزمون ضریبآزمون ضریب توافقهمبستگی اسپرمن

پیش بینی یک متغیر بر اساس یک یا چند

متغیر آزمون رگرسیون

ساده یا غیر خطی آزمون رگرسیون نا

آزمون رگرسیون لجستیکپارامتریک

در رویکردی دیگر بر مبنای تعداد متغیر، تعداد گروه و نرمال بودن جامعه نیز میتوان به الگوریتم آزمون آماری مورد نظر دست یافت:

یک متغیر: انتخاب آزمون آماری

برای یک متغیر یک متغیر در یک

گروه یک متغیر در

دو گروه یک متغیر در سه

گروه یا بیشتر آزمون میانگین ومتغیر نرمال

آزمون آنالیز واریانسآزمون تیانحراف معیارANOVA

آزمون نسبت )دومتغیر غیر نرمالجمله ای(

آزمون خی -آزمون ناپارامتریکدو

دو متغیر انتخاب آزمون آماری

برای دو متغیر هر دو متغیر

پیوسته هستند یک متغیر پیوسته و

دیگری گسسته است هر دو متغیر

مقوله ای هستند آزمون

همبستگی آزمون آنالیز واریانس

ANOVA دو–آزمون خی سه متغیر و بیشتر:

انتخاب آزمون آماری برای سهدو گروه و بیشتریک گروهمتغیر و بیشتر

تحلیل ممیزیآنالیز کواریانس آنالیز واریانس با اندازه

های مکرر آنالیز واریانس چند

متغیرهتحلیل عاملی

ورگرسیون چند گانه

قابل ذکر است قبل از ورود به الگ��وریتم انتخ��اب آزم��ون آم��اری به��تر اس��ت ب��هسواالت زیر پاسخ دهیم:

Page 8: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

- آیا اختالفی بین میانگین )نسبت( یک ویژگی در دو یا چند گروه وجود دارد؟۱- آیا دو متغیر ارتباط دارند؟۲- چگونه می توان یک متغیر را با استفاده از متغیر های دیگر پیش بینی کرد؟۳- چه چیزی می توان با استفاده از نمونه در مورد جامعه گفت؟۴

پس از انتخاب آزمون آماری مناسب حال می ت�وان ب�ا ه�ر ی�ک از آزم�ون ه�ا ب�هصورت تخصصی برخورد کرد:

 آزمون کی دو )خی دو یا مربع کای( این آزمون از نوع ناپارامتری است و برای ارزیابی همقوارگی متغیره��ای اس��می به کار می رود. این آزمون تنها راه حل موجود برای آزم��ون همق��وارگی در م��ورد متغیره��ای مقی��اس اس��می ب��ا بیش از دو مقول��ه اس��ت، بن��ابراین ک��اربرد خیلی زیادتری نسبت به آزمونهای دیگر دارد. این آزمون نسبت به حجم نمونه حس��اس

است.آزمون خطای استاندارد میانگین   - z  آزمون

این آزمون برای ارزیابی م�یزان همق�وارگی ی�ا یکس�ان ب�ودن و یکس�ان نب�ودن )Goodness of fitمیانگین نمون��ه ای و می��انگین جامع��ه ب��ه ک��ار می رود. این )

آزمون مواقعی به کار می رود که می خ��واهیم ب��دانیم آی��ا می��انگین ب��رآورد ش��ده اگ��ر این تف��اوت کم باش��د، این نمونه ای با میانگین جامعه ج��ور می آی��د ی��ا ن��ه.

تفاوت معلول تغییر پذیری نمونه ای شناخته می شود، ولی اگر زیاد باش��د نتیج��ه گرفته می شود که برآورد نمونه ای با پارامتر جامعه یکسان )همق��واره( نیس��ت. این آزم�ون پ�ارامتری اس�ت یع�نی اس�تفاده از آن مش�روط ب�ه آن اس�ت ک�ه دو پارامتر جامعه که میانگین و انحراف معیار معلوم باش��ند. همچ��نین ب��رای آزم��ون

و ی��ا متغیرهای پیوس��ته )مقی��اس فاص�له ای( ک�اربرد دارد. تع�داد نمون�ه بزرگ�تر باشد و نیز توزیع متغیر در جامعه نرمال باشد. ۳۰مساوی

t آزمون استیودنت این آزمون برای ارزی��ابی م��یزان همق��وارگی ی��ا یکس��ان ب��ودن و نب��ودن می��انگین نمونه ای با میانگین جامعه در حالتی ب��ه ک�ار می رود ک�ه انح��راف معی��ار جامع�ه

( ب��ا اس��تفاده۳۰ در مورد نمونه های کوچک )کمتر از  tمجهول باشد. چون توزیع از درجات آزادی تعدیل می شود، می توان از این آزمون ب��رای نمون��ه ه��ای بس�یار کوچک استفاده نمود. همچنین این آزمون م��واقعی ک��ه خط��ای اس��تاندارد جامع��ه

نامعلوم و خطای استاندارد نمونه معلوم باشد، کاربرد دارد. برای به ک��اربردن این آزم��ون، متغ��یر م��ورد مطالع��ه بای��د در مقی��اس فاص��له ای

باشد.۳۰باشد، شکل توزیع آن نرمال و تعداد نمونه کمتر از در حالتهای زیر کاربرد دارد:tآزمون

- مقایسه یک عدد فرضی با میانگین جامعه نمونه- مقایسه میانگین دو جامعه

- مقایسه یک نسبت فرضی با یک نسبتی که از نمونه بدست آمده- مقایسه دو نسبت از دو جامعه

F آزمون است و ب�رای ارزی�ابی یکس�ان ب�ودن ی�ا یکس�انtاین آزمون تعمیم یافته آزمون

نبودن دو جامعه و یا چند جامعه به کار برده می شود. در این آزمون واریانس کل جامعه به عوامل اولی��ه آن تجزی��ه می ش��ود. ب��ه همین دلی��ل ب��ه آن آزم��ون آن��الیز

( نیز می گویند.ANOVAواریانس )

Page 9: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

وقتی بخواهیم بجای دو جامعه، همق��وارگی چن��د جامع��ه را توام��ا ب��ا هم مقایس��ه نماییم از این آزمون استفاده می شود، چون مقایسه میانگین های چند جامع��ه ب��ا

همق�وارگی چن��د جامع�ه مقایس��ه می��انگین ه��ا و بسیار مشکل اس��ت.   tآزمون امکان پذیر است. t( راحت تر از آزمون ANOVA یا   Fبوسیله این آزمون )

 آزمون کوکران آزمون کوکران تعمیم یافته آزمون مک نمار است. این آزمون برای مقایسه بیش از دو گروه که وابسته باشند و مقیاس آنها اسمی یا رتبه ای باشند به کار می رود

و همچون آزمون مک نمار، جوابها باید دوتایی باشند. برای آزمون تغییرات یک نمونه در زمان ها و یا موقعیت های مختل��ف )مث��ل آراء رای دهن��دگان قب��ل از انتخاب��ات در زمانه��ای مختل��ف( ب��ه ک��ار می رود. مقی��اس می تواند اسمی یا رتبه ای باشد. به ج��ای چن��د س��وال می ت��وان ی��ک س��وال را در موقعیت های مختلف ارزیابی نمود. همه افراد باید به هم��ه س��واالت پاس��خ گفت��ه باشند. چون پاسخ ها دو جوابی است، در بعضی از ان��واع تحقیق��ات ممکن اس��ت اطالعات بدست آمده از دست برود و بهتر است از رتبه بندی اس��تفاده ک��رد ک��ه

در این صورت »آزمون ویلکاکسون« بهتر جوابگو خواهد بود. کوکران مناسب نیس��ت و به��تر اس��ت از آزمون ها نمونه بودن در صورت کوچک

»آزمون فرید من« استفاده شود. آزمون فریدمن

این آزمون برای مقایسه چند گروه از نظر میانگین رتب��ه ه��ای آنهاس��ت و معل��وممی کند که آیا این گروه ها می توانند از یک جامعه باشند یا نه؟

مقیاس در این آزمون باید حداقل رتبه ای باشد. این آزمون متناظر غیر پارامتری ب��ه ک��ار می رود وF است و معم��وال در مقی��اس ه��ای رتب��ه ای ب��ه ج�ای Fآزمون

واریانس ها وجود داشته باشد که در  باید همگنیFجانشین آن می شود )چون در مقیاسهای رتبه ای کمتر رعایت می شود(.

آزمون فریدمن برای تجریه واریانس دو طرفه )برای داده های غیر پ��ارامتری( از طریق رتبه بندی به کار می رود و نیز برای مقایسه میانگین رتبه بندی گروه ه��ای

این آزم��ون مع��ایب از این مختلف. تعداد افراد در نمونه ها باید یکسان باشند کهاست. نمونه ها باید همگی جور شده باشند.

 آزمون کالماگورف- اسمیرانف این آزمون از نوع ناپارامتری است و برای ارزیابی همقوارگی متغیرهای رتب��ه ای در دو نمونه )مستقل و یا غیر مستقل( و یا همقوارگی توزیع یک نمونه با توزیعی که برای جامعه فرض شده است، به کار می رود )اسمیرانف یک نمون��ه ای(. این آزمون در مواردی به کار می رود که متغیرها رتبه ای باش��ند و توزی��ع متغ��یر رتب��ه ای را در جامعه بتوان مشخص نمود. این آزمون از طریق مقایسه توزیع فراوانی

انج��ام  با توزیع ف��راوانی ه��ای نس��بی جامعه های نسبی مشاهده شده در نمونه می گیرد. این آزمون ناپارامتری است و بدون توزیع است اما باید توزیع متغ��یر در جامعه برای هر یک از رتبه های مقیاس رتبه ای در جامعه بط��ور نس��بی در نظ��ر

گرفته شود که آنرا نسبت مورد انتظار می نامند.-Twoآزمون کالم��اگورف- اس��میرانف دو نمون��ه ای Sample Kalmogorov-

Smiranov Test

Page 10: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

این آزمون در م��واقعی ب��ه ک�ار می رود ک��ه دو نمون��ه داش��ته باش��یم )ب��ا ش��رایط مربوط به این آزمون که قبال گفته شد( و بخواهیم همقوارگی بین آن دو نمونه را

با هم مقایسه کنیم.آزمون کروسکال- والیس

، موقعی بهF است و همچون آزمون  Fاین آزمون متناظر غیر پارامتری آزمون باش��د. مقی��اس ان��دازه گ��یری در۲بیش از  کار برده می شود ک��ه تع��داد گ��روه ها

کروسکال والیس حداقل باید ترتیبی باشد. نمونه رتبه ای )و ی��ا فاص��له ای(۲این آزمون برای مقایسه میانگین های بیش از

بک�ار می رود. فرض�یات در این آزم�ون ب�دون جهت اس��ت یع�نی فق�ط تف�اوت را نش��ان می ده��د و جهت بزرگ��تر ی��ا کوچک��تر ب��ودن گ��روه ه��ا را از نظ��ر می��انگین

است.F درصد آزمون ۹۵هایشان نشان نمی دهد. کارایی این آزمون آزمون مک نمار

این آزمون از آزمونهای ناپ��ارامتری اس��ت ک��ه ب��رای ارزی��ابی همانن��دی دو نمون��ه متغیر دو ج��وابی اس��تفاده می ش��ود. متغیره��ا می توانن��د دارای وابسته بر حسب

مقیاس های اسمی و یا رتبه ای باشند. این آزمون در طرح ه��ای ماقب��ل و مابع��د می تواند مورد استفاده قرار گیرد )یک نمونه در دو موقعیت مختلف(. این آزمون

مخصوصا برای سنجش میزان تاثیر عملکرد تدابیر به کار می رود. ویژگی ها: اگر متغیرها اسمی باشند، این آزمون بی بدیل است اما اگ��ر رتب��ه ای

،t نیز استفاده کرد )در صورت وجود شرایط آزم��ون tباشد می توان از آزمون �) است ک��ه جهت و و یا آزمون ویلکاکسون استفاده نمود. از عیوب این آزمون این

اندازه تغییرات را محاسبه نمی کند و فقط وجود تغییرات را در نمونه ه��ا در نظ��رمی گیرد.

آزمون میانهtاین آزمون همتای ناپارامتری آزمون های – Z – F است و وق��تی دو ی��ا چن�د

گروه از میان دو یا چند جامعه مستقل با توزیع های یکسان انتخاب ش��ده ان��د ب��ه کار برده می شود. در این آزمون مقیاس اندازه گیری ترتیبی است و بین داده ها نباید همرتبه وجود داشته باشد. این آزم��ون، هم ب��رای گ�روه ه�ای مس�تقل و هم

کاربرد دارد و لزومی ندارد ک��ه حتم��ا حجم گ��روه ه��ای نمون��ه ب��ا یک��دیگر وابستهبرابر باشند.

 آزمون تک نمونه ای دورها این آزمون مواقعی به کار می رود که توالی مق��ادیر متغیره��ا را بخ��واهیم آزم��ون نماییم که آیا تصادفی بوده و یا نه. در واقع آزمون کی دو و یا آزم��ون ه��ای دیگ��ر که در آنها توالی متغیرها بی اهمیت اس��ت، در این آزم��ون مهم و اص��ل انگاش��ته می شود. به عبارت دیگر، برای اینکه بتوانیم در ی��ک نمون��ه ک��ه در آن روی��دادهای مختلف از طرف فرد و یا واحد آماری رخ داده است، آزم��ون نم��اییم ک��ه آی��ا این رویدادها تصادفی است یا نه، به کار برده می ش��ود. هیچ آزم��ون دیگ��ری همچ��ون این آزمون نمی تواند توالی را مورد نظر ق��رار ده��د. بن��ابراین ب��رای این منظ��ور

منحصر به فرد می باشد.آزمون عالمت

این آزمون از انواع آزمونهای غیر پارامتری است و هنگامی به کار برده می ش��ود که نمونه های جفت، مورد نظر باشد )مثل زن و شوهر و یا خانه های فرد و زوج و . . . (. زیرا در این آزمون یافته ها ب��ه ص��ورت جفت جفت بررس��ی می ش��وند و

Page 11: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

اندازه مقادیر در آن بی اثر است و فقط عالمت مثبت و منفی و یا در واقع جهت پاسخ ها و یا بیشتر و کمتر بودن پاسخ های جفت های گروه مورد تحقی��ق )نمون��ه

آماری( در نظر گرفته می شود. هنگامی که ارزشیابی متغیر مورد مطالعه با روش��های ع��ادی قاب��ل ان��دازه گ��یری نباشد و قضاوت در مورد نمونه های آماری )که به صورت جفت ها هستند( فقط ب��ا عالمت بیش��تر )+( و کم��تر )-( م��ورد نظ��ر باش��د ، از این آزم��ون می ت��وان استفاده کرد. شکل توزیع می تواند نرمال و یا غیر نرمال باشد و یا از یک جامع��ه و یا دو جامعه باشند )مستقل و یا وابسته(. توزیع باید پیوس��ته باش��د. این آزم��ون فقط تفاوت های زوجها را مورد بررسی قرار می دهد و در صورت مساوی ب��ودن نظرات هر زوج )مشابه بودن( آنها را از آزمون ح��ذف می کن��د. چ��ون مق��ادیر در این آزمون نقشی ندارند، شدت و ضعف و اندازه بیش��تر ی��ا کم��تر ب��ودن نظ��رات پاسخگویان )جفت ها( در این آزم��ون بی اث��ر اس��ت و در واق��ع نقص این آزم��ون

حساب می شود.(T) آزمون تی هتلینگ

ی��ک نمون��ه ای،t اس��تیودنت اس��ت. در آزم��ون t هتلین��گ تعمیم یافت��ه Tآزم��ون میانگین یک صفت از ی��ک نمون��ه، ب��ا ی��ک ع��دد فرض��ی ک��ه می��انگین آن ص��فت از

متغ��یرK هتلین��گ  Tجامعه فرض می شد، مورد مقایسه قرار می گ��رفت، ام��ا در عدد فرضی، م��ورد مقایس��ه ق��رار k)صفت( از آن جامعه )نمونه های جامعه( با

می گیرند. در واقع این آزمون از نوع آزمونهای چند متغیره است که همقوارگی )Goodness of fit را بین صفت های مختلف از جامعه بدست می ده��د. در )T 

اس��تیودنت دو نمون�ه ای، مقایس�ه دو نمون�هTهتلینگ دو نمون�ه ای ن�یز همچ�ون صفت از جامعه دیگرK صفت از یک جامعه )نمونه( با Kآزمون  است اما در این

)نمونه دیگر( مورد مقایسه قرار می گیرد.  U آزمون مان وایتنی

هر گاه دو نمونه مستقل از جامعه ای مفروض باشد و متغیرهای آنها ب��ه ص��ورت اس��تیودنت ب��اtترتیبی باشند، از این آزمون استفاده می شود. این آزمون مشابه

می شود. دو نمونه مستقل است و آزمون ناپارامتری آن محسوبhttp://isigroup.ir/tagمنبع:

هرگاه شرایط استفاده از آزمونه�ای پ�ارامتری در متغیره�ا موج��ود نباش�د، یع�نی متغیرها پیوسته و نرمال نباشند از این آزم��ون اس��تفاده می ش��ود. دو نمون��ه بای��د

۱۰ مورد باشند. در صورت بزرگ��تر ب��ودن از ۱۰مستقل بوده و هر دو کوچکتر از به Z استفاده کرد )در محاسبات کامپیوتری، تبدیل به  Z مورد باید از آماره های

انجام می شود(. در این آزمون شکل توزیع، پیش فرضی ندارد یعنی طور خودکارمی تواند نرمال و یا غیر نرمال باشد.

  آزمون ویلکاکسون این آزمون از آزمونهای ناپ��ارامتری اس��ت ک��ه ب��رای ارزی��ابی همانن��دی دو نمون��ه وابسته با مقیاس رتبه ای به کار می رود. همچون آزم��ون م��ک نم��ار، این آزم��ون نیز مناسب طرح های ماقبل و مابعد است )یک نمونه در دو موقعیت مختلف(، و یا دو نمونه که از یک جامعه باشند. این آزمون اندازه تفاوت می�ان رتب�ه ه�ا را در نظر می گیرد بنابراین متغیرها می توانند دارای جوابه��ای متف��اوت و ی��ا فاص��له ای

دو نمون��ه ای وابس��ته اس��ت و در ص��ورتtباشند. این آزمون متناظر ب��ا آزم��ون جانشین خوبی برای آن است. نمونه های ب��ه ک��ارtوجود نداشتن شرایط آزمون

Page 12: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

برده شده در این آزمون باید نسبت ب�ه س�ایر ص�فت هایش�ان ج�ور ش�ده )جفتشده( باشند.

Levene آزمون لون آزمون لون همگنی واریانس ها را در نمونه های متفاوت بررس��ی می نمای��د. ب��ه عبارتی فرض تساوی متغیر وابسته را برای گروه هائی ک��ه توس��ط عام��ل رس��ته ای تعیین شده اند، آزمون می کند و نسبت به اکثر آزمونها کمتر به فرض نرم��ال

بودن وابسته بوده و در واقع به انحراف نرمال مقاوم است. این آزمون در نظر می گیرد که واریانس جمعیت آم��اری در نمون��ه ه��ای مختل��ف براب��ر اس��ت. ف��رض ص��فر همگن ب��ودن واری��انس ه��ا می باش��د یع��نی واری��انس

۰٫۰۵ در اماره لون کم��تر از P-VALUEجمعیت ها با هم برابر است و اگر مقدار باشد تفاوت بدست آمده در واریانس نمونه بعید است که بر اساس روش نمونه گیری تصادفی رخ داده باشد. بنابراین فرض ص��فر ک��ه براب��ری واری��انس ه��ا می باشد رد می شود و به این نتیج��ه می رس��یم ک��ه ک��ه بین واری��انس ه��ا در نمون��ه

تفاوت وجود دارد.http://isigroup.irمنبع:  

Page 13: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

کاربرد آمار در داده کاوی۲  ب.ظ۹:۱۵ کاشانی

همانگونه که واضح و مشخص است با گذشت زمان علم ن�یز پیش�رفت می کن��د، هر چه به جلوتر می رویم روشهای جدیدتر و بهتر مورد استفاده ق��رار می گ��یرد. علم امروز نسبت به دی��روز جدی��دتر اس��ت. روش��های جدی��د علمی در پی کش��ف محدودیت های روشهای قدیمی ایجاد می شود و از آنج��ایی ک��ه روش��های آم��اری

محسوب می شوند، از این قاعده کلی کهData miningجزء روشهای قدیمی دارای محدودیت هستند مستثنی نیستند. داش��تن ف��رض اولی��ه در م��ورد داده ه��ا، یکی از این موارد است. در اینج��ا ب��ه تش��ریح بیش��تر تف��اوت ه��ای بین مب��احث و متدهای آماری و دیگر متدهای داده کاوی که در کتابهای مختلف بحث شده است

می پردازیم. تکنیکهای داده کاوی و تکنیکهای آماری در مباحثی چون تعریف مقدار هدف برای

( خوب عملclean dataپیش گویی، ارزشیابی خوب و داده های دقیق )تمیز( ) می کنند، همچنین این موارد در جاه��ای یکس��ان ب��رای ان��واع یکس��انی از مس��ایل )پیش گویی، کالس بندی و کش��ف( اس��تفاده می ش��وند، بن��ابراین تف��اوت این دو چیست؟چرا ما آنچنان که عالقه مند بکاربردن روشهای داده کاوی هستیم عالق��ه مند روشهای آماری نیستیم؟ برای جواب این سوال چندین دلیل وج��ود دارد. اول اینکه روشهای کالسیک داده کاوی از قبیل شبکه های عصبی، تکنیک نزدیک ت��رین همسایه روشهای قوی ت��ری ب��رای داده ه��ای واقعی ب��ه م��ا می دهن��د و همچ��نین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و به��تر می توانند از آن استفاده کنند. دلیل دیگر اینکه بخاطر اینکه معموال داده ها اطالع��ات زیادی در اختیار ما نمی گذارند، این روشها با اطالعات کمتر بهتر می توانن��د ک��ار

کنند و همچنین اینکه برای داده ها وسیع کابرد دارند. در جایی دیگر اینگون��ه بی��ان ش��ده ک��ه داده ه��ای جم��ع آوری ش��ده نوع��ا خیلی از فرضهای قدیمی آماری را در نظر نمی گیرن��د، از قبی��ل اینک��ه مشخص��ه ه��ا بای��د مستقل باشند، تعیین توزیع داده ها، داشتن کمترین همپوش��انی در فض��ا و زم��ان اغلب داده ها هم پوشانی زیاد می دارند، تخلف کردن از هر کدام از فرض��ها می تواند مشکالت بزرگی ایجاد کند. زمانی که یک کاربر )تصمیم گیرن��ده( س��عی می کن��د ک��ه نتیج��ه ای را بدس��ت آورد. داده ه��ای جم��ع آوری ش��ده بط��ورکلی تنه��ا مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جم��ع آوری

شده اند.Dataدر ج��ایی پای��ه و اس��اس miningب��ه دو مقول��ه آم��ار و ه��وش مص��نوعی

تقسیم شده است که روشهای مصنوعی به عنوان روشهای ی��ادگیری ماش��ین در نظر گرفت��ه می ش��وند.ف��رق اساس��ی بین روش��های آم��اری و روش��های ی��ادگیری

machine) ماشین learningبر اساس فرض��ها و ی��ا ط��بیعت داده ه��ایی ک��ه ) پردازش می شوند.بعنوان یک قانون کلی فرضها تکنیکهای آماری ب��ر این اس��اس است که توزیع داده ها مشخص است که بیشتر م��وارد ف��رض ب��ر این اس��ت ک��ه توزیع نرمال است و در نهایت درستی یا نادرستی نت��ایج نه�ایی ب��ه درس��ت ب�ودن فرض اولیه وابسته اس��ت.در مقاب��ل روش��های ی��ادگیری ی��ادگیری ماش��ین از هیچ فرض در مورد داده ها استفاده نمی کند و همین م��ورد ب��اعث تفاوته�ایی بین این

دو روش می شود.

Page 14: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

به هر ح�ال ذک�ر این نکت�ه ض�روری ب�ه نظ�ر می رس�د ک�ه بس�یاری از روش�های از ح��داقل چن��د اس��تنتاج آم��اریdatasetی��ادگیری ماش��ین ب��رای س��اخت م��دل

استفاده می کنندکه این مساله بطور خاص در شبکه عصبی دیده می شود. بطور کلی روشهای آم��اری روش ه��ای ق��دیمی ت��ری هس��تند ک��ه ب��ه ح��الت ه��ای

Dataاحتمالی مربوط می شوند. miningجایگاه جدید تری دارد ک��ه ب��ه ه��وش ( و مت��دلوژیMISمص��نوعی ی��ادگیری ماش��ین سیس��تمهای اطالع��ات م��دیریت )

Database.مربوط می شود روشهای آماری بیشتر زمانی که تعداد دادهها کمتر است و اطالعات بیش��تری در مورد داده ها می توان بدست آورد استفاده می شوند به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارن��د همچ��نین ب��ه ک��اربران ابزاره��ای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خالف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود.بک��ار بردن این روشها مجموعه داده های مجموعه داده های زیاد احتم��ال خط��ا در این

وخطا بیش��تر می ش��ود و  noiseروشها را زیاد می کند.چون در داده ها احتمال می پردازند، بنابراین خطای محاسباتnoise نیز روشهای آماری معموالبه حذف

در این حالت زیاد می شود. در بعضی از روشهای آماری نیازداریم که توزیع داده ها را ب��دانیم. اگ��ر بت��وان ب��هآن دسترسی پیدا کرده با بکار بردن روش آماری می توان به نتایج خوبی رسید.

روشهای آماری چون پایه ریاضی دارند نتایج دقیق تری نسبت ب��ه دیگ��ر روش�هایData miningارائه می دهند ولی اس��تفاده از رواب��ط ریاض��ی نیازمن��د داش��تن

اطال عات بیشتری در مورد داده ها است. مزیت دیگر روشهای آماری در تعبیر و تفسیر داده ه��ا اس��ت. ه��ر چن��د روش��های آماری به خاطر داشتن ساختار ریاضی تفسیر سخت تری دارن��د ولی دقت نتیج��ه گیری و تعبیر خ��روجی ه��ا در این روش به��تر اس��ت بط��ور کلی روش��های آم��اریزمانی که تفسیر داده ها توسط روشهای دیگر مشکل است بسیار مفید هستند.

Dataتفاوتهای کلی روشهای آماری و دیگر روش�های mining  در ج�دول اری�ه شده است :

Data mining دیگر روشهایروشهای آماریبدون فرض اولیهداشتن فرض اولیه در انواع مختلفی از داده ها کاربرد عددی کاربرد دارند تنها برای داده های

دارند نه فقط داده های عددیدر محدوده وسیع تری از داده هادر محدوده کوچکی از داده ها

ها ، داده های نامشخصnoiseحذفdirty dataووفیلتر کردن

Data mining به دادهای درست clean dataبستگی دارند

روشهای رگرسیون و استفاده ازمعادالت

استفاده از شبکه عصبی

استفاده از چارتهای دو بعدی و سهبعدی

Data visualizationاستفاده از

استفاده از روشهای یادگیری ماشین واستفاده از روابط ریاضیهوش مصنوعی

Page 15: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

clusterوdescriptive statistical در nalysis .کاربرد دارد

در یادگیری غیر نظارتی کاربرد بیشتردارد

داده ه��ا اغلب ب��ر اس��اس همپوش��انی نمون��هDMهمچنین می توان گفت ک��ه در هاست،نسبت به اینکه بر اساس احتمال داده ها باشد.همپوشانی نمونه ها ب��رای آشنایی همه انواع پایه ها برای تخمین پا را مترها مشهور است. وهمچ��نین اغلب

استنتاج های آماری نتایج ممکن است مشارکتی باشد تا اینکه سببی باشند. تکنیکهای ماشین را به سادگی می توان تفسیر کرد .مثال روش شبکه عص��بی ب��ر اساس یک مدل ساده بر اساس مغز انسان اس��توار اس��ت.یع��نی هم��ان س��اختار مغز انسان را اجرا می کنند ولی خروجی های بسیاری از روشهای آماری ساختار ریاضی دارند،مثال یک معادله است که تعبیر و تفسیر آن مشکل تر است.در مورد روش های آماری بایداین مطلب را گفت بدون توجه به اینکه مدل کاربردی،م��دل

آماری است یا خیر،تستهای آماری می تواند برای تحلیل نتایج مفید باشد. ب��ا ارای��ه توض��یحات داده ش��ده درب��اره ه��ای تفاوته��ای روش��های آم��اری و دیگ��ر

در ادامه به کابردهای روش روشهای آماری و بحثهای مشترک آمارDMروشهای می پردازیم .  DMو

کاربردهای روشهای آماریData  mining   در  زی��ر را  عبارت به��تر اس��تراتژهای  وظایف یا به معموال  

می برد : داده ها بکار(description- توضیح و تفسیر ) 

( (estimation- تخمین ( (prediction- پیش بینی

( (classification- کالس بندی(clustering ) - خوشه سازی

(association- وابسته سازی وایجاد رابطه ) و روشهای هر استراتژی مشخص شده است :  استراتژی ها در جدول زیر

استراتژیهاروشها وتفسیر توضیح داده ها تحلیل

تخمینتحلیل های آماریپیش بینیتحلیل های آماری

کالس بندیالگوریتم نزدیک ترین همسایهکالس بندی تصمیم درخت

کالس بندیشبکه های عصبیخوشه سازیk-mean  خوشه سازی

خوشه سازیkohonenشبکه های رابطه سازی و ایجاد رابطه وابسته سازی

  به یک استراتژی خاص محدود  تنها data mining گفت که روشهای  البته باید می ده��د. ب��رای مث��ال  ی��ک را همپوش��انی بین روش��ها نش��ان  نتایج نمی شوندو

درخت تصمیم ممکن است ک�ه درکالس بن�دی تخمین وپیش بی�نی ک�اربرد داش�ته باشد. بنابراین این جدول را نباید به عنوان تعریف تعریف تقسیم بندی از وظایف

بلکه به عنوان یک خروجی از آنچه ک��ه م��ا ب��ه عن��وان وظ��ایفشود در نظرگرفتهdataminig .آشنایی پیدا کردیم در نظر گرفته می شود

Page 16: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

در مب��احث تخمین و پیش بی��نی همانگونه که ازجدول پیداس��ت روش��های آم��اری کاربرد دارند. در تحلیل آماری تخمین و پیش بینی عناصری از استنباطهای آماری هستند.استنباطهای آماری شامل روشهایی برای تخمین و تست فرضیات درب��اره

جمعیت ش��امل جمعیتی از ویژگیها براساس اطالعات حاصل از نمونه است .یک مجموعه ای از عناصر از قبیل افراد، ایتم ه��ا، ی��ا داده ه��ا یی ک��ه دری��ک مطالع��ه

دواستراتژی می پردازیم. خاص آمده است. بنابراین در اینجا به توضیح این- تخمین۱

که مقدار یک مشخصه خروجی مجه��ول را تع��یین در تخمین به دنبال این هستیم کنیم،مشخصه خروجی در مسائل تخمین بیشتر عددی هستند تا قیاسی. بن��ابراین مواردی که بصورت قیاسی هستند باید به حالت عددی تب��دیل ش��وند. مثال م��وارد

تبدیل می شود.۱ و۰بلی،خیر به قادرند یکی از دو نوع مسایل کالس بندی یا تخمین را حلDMتکنیکهای نظارتی

کنند، نه اینکه هر دو را. یعنی اینکه تکنیکی که کار تخمین را ا نجام می ده��د، کالس بندی نمی کند.

روش��های آم��اری م��ورد اس��تفاده دراین م��ورد بط��ورکلی ش��امل تخمین نقط��ه و …فاصله اطمینان میباشد. تحلیل های آماری تخمین و تحلیل ه��ای ی��ک متغ��یره و

می باشند. از این جمله اینک��ه چ��را ب��ه س��راغ تخمین می رویم بای��د گفت ک��ه مق��دار واقعی در توض��یح

پارامترها برای ما ناشناخته است.مثال مقدار واقعی میانگین یک جامع��ه مش��خص نیست. داده ها ممکن است که بطور رضایت بخشی جم��ع آوری نش��ده باش��د ی��ا

نش��ده باش��د. ب��ه همین دلی��ل تحلی��ل گ��ران از تخمینwarehouse عب��ارتی  بهاستفاده میکنند.

مجموعه ای از داده ها برای م��ا مهم اس��ت.مثال میانگین در خیلی از موارد تعیین میانگین نمرات درسی یک کالس،میانگین تعداد نف��راتی ک��ه در ی��ک روز ب��ه بان��ک

شعبه خاص از بانک واری��ز مراجعه می کنند،متوسط مقدار پولی که افراد دریکاین چنینی. می کنند و موارد

زمانی که مقدار یک آماره را برای براورد کردن پارامتر یک جامعه به ک��ار ب��بریم، آن پارامتر را تخمین زده ایم و به مقدار این آماره برآورد نقطه ای پرامتر اطالق می کنیم. در واقع از کلمه نقطه برای تم��ایز بین ب��راورد کنن��ده ه��ای نقط��ه ای و

اس��ت ک��ه ب��ه ت��رتیب فاصله ای استفاده می کنیم. از مهمترین تخمین زننده ه��ا برآورد واریانس و میانگین جامعه هستند. خ��ود ب��رآورد کنن��ده ه��ا دارای خاص��یت

هستند، که هر ی��ک ب��ه بی��ان…هایی چون ناریبی، کارایی، ناسازگاری، بسندگی و توان��ایی آنه��ا را در تخمین درس��ت و ویژگی خاصی از آنه��ا می پردازن��د و م��یزان

دقیق یک پارامتر تعیین می کنند. در مواردی نیز تخمین فاصله برای ما اهمیت دارد. فاصله اطمینان شامل فاص��له

پ��ارامتر  با درص��دی از اطمین��ان می ت��وانیم بگ��وییم ک��ه مق��دار یک ای است که درون این فاصله قرار می گیرد. به عبارت دیگر اگر چه برآورد نقط��ه ای طریق��ه متداول توصیف برآورد هاست اما درب��اره آن، ج�ا ب��رای پرسش��های زی��ادی ب��اقی است. مثال برآورد نقطه ای به ما نمی گوید که برآورد بر چه مقداری از اطالعات  مبتنی است و چیزی درباره خطا بیان نمی کند. بن��ابراین می ت��وانیم ک��ه ب��رآورد

،ی��ا ب��ا بعالوه ک��ردن ان��دازه ک��ردن ان��دازه نمون��ه و مق��دار واری��انس  را  پارامتر

Page 17: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

کام��ل ک��نیم.این ک��ار م��ا را ق��ادر می اطالعات دیگری درباره توزیع نمونه گ��یری سازد که اندازه ممکن خطا را برآورد کنیم.

(prediction- پیش بینی) ۲ هدف از انجام پیش بینی تعیین ترکیب خروجی ب��ا اس��تفاده از رفت��ار موج��ود می باشد. یعنی در واقع رسیدن به ی��ک نتیج��ه بوس��یله اطالع��ات موج��ود از داده ه��ا. مشخصه های خ��روجی در این روش هم می توانن��د ع��ددی باش��ند و هم قیاس��ی.

از اهمیت خاصی بر خوردارdata miningاین استراتژی در بین استراتژی های اس��ت، و مفه��وم کلی ت��ری را نس��بت ب��ه م��وارد دیگ��ر دارد. خیلی از تکنیکه��ای

data  نظارتی miningکه برای کالس بندی و تخمین مناس��ب هس��تند در واق��ع کار پیش بینی انجام می دهند.

dataآنچ��ه از کتابه��ای آم��اری و minigتحت عن��وان پیش بی��نی ب��رمی آی��د م�ر ب�وط ب�ه آن اس�ت . در واق�ع در اک�ثر این کتابه�ا ه�دف رگرسیون و مباحث

هاس��ت و  داده  ک��اوی، رگرس��یون اصلی از انجام تحلیل های آماری ب��رای دادهاین بعنوان وظیفه اصلی متد های آماری معرفی می شود.

رگرسیون اهداف تحلیلبا انجام رگرسیون می خواهیم اهداف زیر را دنبال کنیم :

ب��ا تغی��یر y ،یعنی اینکه متغ��یر x توسط متغییر y بدست آوردن رفتار متغییر  -۱x در نمونه ها چه رفتاری را از خود نشان می دهد. مثال در نمون��ه ای این رفت��ار

است یا اینکه شکل منحنی خواهد داشت. خطی برای نمونه های آینده، که هدف اصلی در داده  بر اساس داده ها - پیش بینی۲ 

کاوی از طریق متدهای آماری اس��ت. مثال از روی اطالع�اتی مث�ل داش��تن ک��ارت اعتباری یک فرد جدید، نوع جنسیت او، سن فرد و میزان درآمد سالیانه او بت��وان حدس زد که این فرد از بیمه عمر استفاده می کند یا خیر. و ی��ا اینک��ه ب��ا داش��تن

بیمه عمر و سن فرد بتوان اطالعات در مورد داشتن یا نداشتن کارت اعتباری وجنسیت فرد را تعیین کرد.

ب��ه ان��دازه خاص��ی x- استنباط استنتاجی یا تحلیل حساسیت، تعیین اینکه اگر ۳  تا چه اندازه تغییر خواهد کرد. هدف از فهمیدن اینکه چگونه تغییرات yتعییر کند

y  تابعی از xاست. باید توجه داشت که نوع تغییرات مدل رگرسیونی خاصی را می دهد.

اس��تفاده از نت��ایج م��دل ب��رای yو  xاهداف مدلسازی برای تش��ریح ارتب��اط بین پیش بینی کاربردهای تخمین عب��ارت اس��ت. ام��ا اس��تنباط اس��تنتاجی ی��ک مقول��ه ظریف تری است. زمانی ک��ه ب��ه اس��تنباط آم��اری فک��ر میک��نیم در واق��ع درب��اره

متغییر رفتاری و متغییر های کنترل فکر می کنیم. متغییرهای رفتاری مشخصه هایی را ارایه میکنندک��ه تبحروتجرب��ه خاص��ی دارن��دیا اینکه قابلیت آن نبحر را دارن��د.مثال مق��دار دز دارو ک��ه ب��رای بیم��ار اس��تفاده می

ها در یک محیط شود در تجربه پزشکی .همچینین متغییرهای کنترل دیگر ویژگی آزمایشی را اندازه میگیرند،از قبیل وزن بیمار که قبل از رفتار ان��دازه گ��یری می

شود. اگر ما برای یکی از متغییر های رفتاری، کنترل انجام دهیم، رگرسیون ما احتم��اال استنباط های استنتاجی را درست حدس میزن��د.و اگ��ر م��ا عالق��ه من��د ب��ه ه��ر دو

تایی��د ه��ر دوم��ورد را مورد پیش بینی انتخاب سهم وتخمین اث��رات علته��ا باش��یمبعنوان متغییرهای خروجی که همپوشانی دارند در نظر می گیریم.

Page 18: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

خطی روش��های مختل��ف رگرس��یون ب��رای داده ک��اوی وج��ود دارد .رگرس��یون بیشترین کاربردرا دارد وهمچنین مشتقات آن حایزاهمییت است.یک نمون��ه از آن

مراتبی یا رگرسیون چند س��طحی اس��ت.  خطی سلسله مشتقات آن رگرسیون این روش یکی از ابزارهای تحلیل دادههای پیچیده از قبیل افزایش ف��ر ک��انس در تحقیق��ات مق��داری را ش��امل می ش��ود.م��دلهای رگرس��یون چن��د س��طحی ب��رای حالتهایی که همپوشانی در سطوح مختل��ف وج��ود دارد مفی��د اس��ت. ب��رای مث��ال اطالعات آموزشی ممکن است اطالعاتی از قبیل اطالعات فردی دانش آم��وزان

کالس از )نام، نام خانوادگی و در ک��ل پیش زمین��ه خ��انوادگی(،اطالع��ات س��طح قبی��ل وی��ژگی ه��ای معلم وهمچی��نین اطالع��ات درب��اره مدرس��ه همانن��د سیاس��ت

دادهه��ای بدس��ت  باشد. حالت دیگر مد لهای چن��د س��طحی ،تحلیل…آموزشی و آمده از نمونه های خوشه بندی شده است. یک خانواده از مدلهای رگرسیون، به عنوان متغییرهای شاخص بری رتبه بندی ی��ا خوش��ه بن��دی اس��ت عالوه ب��ر اینک��ه

شده مدلسازی چند سطحی همپوشانی را اندازه می گیرد. با نمونه خوشه بندیبرای توسعه نمونه هایی که داخل خوشه نیستند،الزم است.

ی��ا سلس��له مرات��بی مح��دودیتی ب��رای تع��داد در روش رگرس��یون چن��د س��طحی س��طوح تغی��یر ک��ه می توان��د انج��ام ش��ود،وج��ود نداردروش��های ب��یزی در تخمین

پیچی��ده ای دارد.س��اده پارامترهای مجهول کمک می کن��د،هرچن��د ک��ه محاس��بات ترین توسعه از رگرس��یون همپوش��انی مجموع��ه ای از متغیره��ای ش��اخص ب��رای  کالس بندی نمونه های آموزشی یا رتبه بندی وخوش��ه بن��دی درنمون��ه ه��ای داده

نظ��ر گرفت��ه می  در  توس��عه رگرس��یون خطی شده اس��ت.همچ��نین ب��ه عن��وانشود،که در ادامه به توضیح آن می پردازیم] :

 (Linear regression- رگرسیون خطی)۱

یکی از هدفهای اصلی بسیاری از پژوهشهای آماری ا یجاد وابستگی ه��ایی اس��ت ت��ا پیش بی��نی ی��ک ی��ا چن��د متغ��یر را ب��ر حس��ب س��ایرین ممکن می س��ازد.مثال مطالعاتی انجام می شودتا فروش��های ب��القوه ی��ک محص��ول جدی��د را ب��ر حس��ب قیمت آن،وزن یک بیماررا بر حسب تعداد هفته هایی که پرهیز داشته است،پیش

بینی کند. در عمل مسایل متعددی وجود دارن��د ک��ه در آن ه��ا مجموع��ه ای از داده ه��ا زوج ش��ده ب��ر آن داللت می کن��د ک��ه رگرس��یون خطی اس��ت و در آن توزی��ع ت��وأم متغیرهای تص��ادفی تحت بررس��ی رانمی دانیم ام��ا ب��ا این ح��ال می خ��واهیم ک��ه

ضرایب رگرسیون را برآ ورد کنیم. روش رگرسیون خطی یک تکنیک یادگیری نظ�ارتی اس�ت ک�ه ب�ه وس��یله آ ن می خواهیم تغییرات یک متغ��یر وابس��ته بوس��یله ت��رکیب خطی از ی��ک ی��ا چن��د متغ��یر

مستقل مدل کنیم . حالت کلی معادله آن به این صورت است :(۱)                                             f)x1+x2+…+xn(=a1x1+a2 x2+…

+an xn+b متغ��یر)f)x1.x1…xn ض��رایب ث��ابت هس��تند وbه��او aه��ا متغ��یر مس��تقل و xک��ه

اس��ت ک��ه   y=ax+b( ۲ )   وابسته می باشند.حالت ساده این معادله بصورت (۲)یع��نی مع��ادله۱متغیر وابسته است ب��ه ح��الت س��اده ش��ده معادل��ه y در اینجا

shope-intercept from.می گویند

Page 19: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

روش ح��داقل مربع��ات اس��ت.مالک کم��ترینa,bیک روش برای تع��یین ض��رایب که مجموع مربعات ا نحراف ها را مینیمم ک��نیم؛بن��ابراین اگ��ر مربعات این است

{ داده شده باشد،i=1,2,…,n(,xi,yiمجموعهای از داده های زوج شده مانند }) هستند که بهa,bبرآ وردهای کم ترین مر بعات ضرایب رگرسیون، مقادیری مانند

ا زای آنها کمیت مینیمم است . راa,b تایی داشته داشته باشیم مق��ادیر nبنابر این در حالت ساده اگر یک نمونه از طریق روابط زیر برآورد می کنیم :

مزیت رگرسیون خطی این است که فهمیدن و کار ب��ا آن س��اده اس��ت در ح��الت کلی برای استراتژی و پیش بینی مناسب است. با بکار ب��ردن این روش از نت��ایج خ��روجی می ت��وان دری��افت ک��ه این روش مناس��ب ب��وده ی��ا خ��یر . بن��ابر این معیارهایی داریم که با استفاده از آنها می توان دریافت که آیا می توان ب��ه نت��ایج

خروجی اطمینان کرد یا خیر. آنچه در انجام رگرسیون مهم به نظر می رسد،تعیین م��یزان همبس��ته ب�ودن داده ها به یکدیگر است.با مشخص کردن میزان همبس��ته ب��ودن داده ه��ای متغیره��ای ورودی و خروجی می توان دریافت که رگرس��یون خطی ب��رای انج��ام داده ک��اوی مناسب است یا خیر، بنابراین ضریب همبس��تگی و برآورده��ای آن در بس��یاری از

(( ب��اxiپژوهشهای آماری اهمیت دارن��د. ش��رایطی ک��ه وق��تی چن��د متغ��یر پیش��گو در فض��ای یکدیگر هم پوشانی دارند،این هم پوشانی منج��ر نااس��تواری و تزل��زل

جواب می شود،همچنین منجر به نتایج بی ارتباط)بی ربط( می شود.حتی اگ��ر از این تزلزل اجتناب ش��ود هم پوش��انی بین متغیره��ایی ک��ه م��یزان بین متغیره��ایی همبستگی آنها زیاد است ،منجر ب��ه تاکی��د ک��ردن روی بخش خاص��ی از م��دل می

شود. بنابر این از بین متغیر های ورودی مواردی که با هم بستگی زیادی دارند، نباید ب��ا

هم در تعیین ارزش متغیر خروجی بکار برده شوند.(Logistic Regression- رگرسیون لجیستسک)۲

این روش یکی از تکنیکهای ی��ادگیری نظ��ارتی و در ح��التی ک��ه نت��ایج خ��روجی ب��ه هستند،مورد توجه قرار می گیرد. در کل زمانی نتایج خروجی بهbinaryصورت هستند رگرسیون خطی خیلی کارا نیست،در این حالت اس��تفادهbinaryصورت

از این تکنیک مناسب تر است.نکته دیگ��ر اینک��ه این روش ی��ک تکنی��ک رگرس��یون غ��یر خطی اس��ت و ل��زومی ن��دارد ک��ه داده ه��ا ح��الت خطی داش��ته باش��ند.ا گ�ر

Logisticبخواهیم دلیل اس�تفاده regressionرا بی��ان ک�نیم بای�د اینگون�ه بحث کنیم در رگرسیون خطی عالوه ب��ر اینک��ه نت��ایج خ��روجی بای��د ب��ه ص��ورت ع��ددی باشد،متغیر ها هم باید به صورت عددی باش��د بن�ابراین حالته�ایی ک�ه ب�ه ص�ورت کتگوری ) قیاسی( هستند باید به حالت عددی تغییر شکل پیدا کنن��د.مثال جنس��یت

تغی��یر پی��دا می کن��د.در۱ و۰ حالته��ای  افراد از حالت زن و مرد بوده به ترتیب به باش��د می توان��دbinary    این روش اگر نتایج خروجی)متغیر خروجی( بص��ورت

مفید باش��د. چ��ون اس��اس رگرس��یون خطی در این ح��الت ای��راد پی��دا می کن��د و ارزش قیدی که بر روی متغیر وابسته قرار می گیرد توسط معادله رگرسیون در

نظر گرفته نمی شود. در وا قع چون رگرسیون خطی،معاد ل��ه ی��ک خ��ط را ترس��یم می کن��د،نمی توان��د حالت مثبت و منفی یا به عبارتی ص��فر و ی��ک را در نظ��ر بگ��یرد. ب��ه همین دلی��ل

را هم در نظ��ر گ��رفت، بای��د ش��کل معادل��ه راbinaryبرای اینکه بتوان حالته��ای

Page 20: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

تغییر داد.با این تغی��یر ش��کل معادل��ه رگرس��یون احتم��ال اتف��اق افت��ادن ی��ا اتف��اقنیفتادن یک واقعه را بدست می دهد.

این مشکل حلLogistic regressionبا تغییر شکل رگرسیون خطی به حالت می شود.

را توس��طb  کرده و ضرایب متغیر ها و مقدار ثابت Excelداده های زیر را وارد بدست می آوریم. داده ها و نتایج به این صورت می باشد :LINEST تابع

Computed probability

Life insurance promotion

agesexCredit card insurance

incomeinstance

0.007045104010.987140003020.024042104031.000143113040.999138005050.049055002061.000135113070.584027102080.005043103090.9811410030100.9851430040110.3801291020120.999139015013

مشخصه ورودی و یک مشخصه خروجی دارد ک��ه ض��رایب متغیره��ای۴این مثال ورودی در زیر محاسبه شده است :

ax+b= 0.0001income+19.827credit card ins-8.314sex+0.415age+17.691

lifeبا این معادله می توان نت��ایج insuranee promotionبدس��ت آ ورد ، ک�ه همانطور که در جدول فوق نشان داده شده نتایج محاسبه شده با متغیر وابس��ته

هم خوانی زیادی دارد. حال اگر نمونه جدیدی به این صورت داشته باشیم :In cone=35k       credit card Insuranee=1    sex=0   age=39

می باشد. که این فرد ی��ک کاندی��دا۰٫۹۹۹با محاسبات احتمال بدست آمده برابر Life)Insuraneeرا برای بیمه عمر promotionمی باش��د. ح��الت دیگ��ر اینک��ه

نمونه جدید به صورت :Ineome=35k        credit card  Insuran =0     sex=1   age=39

است که نش��ان می۰٫۰۳۵باشد در این حالت مقدار احتما لی بدست آمده برابر اس��ت و بیم��ه ک��ارت اعتب��اری۳۵۰۰۰ ساله که در آمد سالیانه او ۳۹دهد یک مرد

ندارد یک نمونه ضعیف برای داشتن بیمه عمرا ست.۳ - Bayse classsifire

این مقدار یکی از روشهای ساده ی��ادگیری نظ��ارتی اس��ت، ک��ه در آن ف��رض می شود که تمام متغیرها ی ورودی به ی��ک ان��دازه مهم هس��تند و مس��تقل از هم می باشند و نیز اگر یکی از شرایط هم برقرار نباشد این روش در ش��رایطی ک��اربرد

دارد این روش بر اساس تئوری بیز بنا شده است.

Page 21: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

Bayse classifierبرخالف اکثر روشهای آماری برای حالتی که مقدار داده یک متغیر ورودی نامعلوم است نیز کاربرد دارد.

مطلب دیکر اینکه زمانی که مقدار یک احتمال صفر باشد چون احتمال ها در هم باشد مق��دار احتم��ال ضرب می شوند کل احتمال صفر خواهد شد مثال وقتی که

Bayesخواهد شد، classifier برای رفع این مشکل به یک مقدار kب��ه ص��ورت به مخرج اضافه می کند.k  و یک مقدار pکسر ضرب در یک احتمال

بستگیpمقداری بین صفر و یک دارد که معموال مقدار یک می گیرد و نیز k که به تعداد انتخابهای متغیر خروجی دارد مثال اگ��ر متغ��یر خ��روجی دو ح��التی باش��د)

yes,No مقدار،)p می باشد.۰٫۵ برابر نیز کاربردMissing data( برای حالت Bayse chassifireعالوه برا ین روش )

دارد. یعنی اگر مقدار یکی از مشخصه های ورودی در یک نمونه جدید را نداش��تهباشیم. در این روش این مشخصه را کال حذف می شود.

http://statisticslu.blogfa.comمنبع:

Page 22: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

مفاهیم اساسی در داده کاوی۰  ق.ظ۹:۴۳ کاشانی

Bagging: این مفهوم برای ترکیب رده بندی های پیش بینی شده از چن��د م��دل ب��ه ک��ار می رود.فرض کنیدکه قصدداریدمدلی برای رده بن��دی پیش بی��نی بس��ازیدو مجموع��ه داده های مورد نظرتان کوچک است.شمامی توانید نمونه هایی) با ج��ایگزینی( را از مجموعه داده ها انتخاب و ب��رای نمون��ه ه��ای حاص��ل ازدرخت رده بن��دی )مثال

C&RTو CHAIDاستفاده نمایید.به طورکلی برای نمونه های مختلف ب��ه درخت) های متفاوتی خواهید رسید.سپس برای پیش بینی با کمک درخت های متفاوت به دست آمده از نمونه ها ، یک رای گیری ساده انجام دهی��د. رده بن��دی نه��ایی ، رده

بندی ای خواهد بود که درخت های مختلف آنرا پیش بینی کرده اند .Boosting:

این مفهوم برای تولید مدل های چندگان��ه )ب��رای پیش بی��نی ی��ا رده بن��دی(ب��ه ک��ار اس����تفاده وترتی����بی ازCHAID ی����ا C&RT ن����یزاز روش Boostingمی رود.

classifier. ها را تولید خواهد کرد

Meta-Learning: این مفه��وم ب��رای ت��رکیب پیش بینی ه��ای حاص��ل از چن��د م��دل ب��ه ک��ار می رود.و هنگامی که انواع مدل های موجود در پروژه خیلی متف��اوت هس��تند، ک��اربرد دارد.

Treeفرض کنید که پروژه داده کاوی شما شامل classifier ه��ا نظ��یرC&RTو CHAIDتحلیل خطی و شبکه های عصبی است.هر یک از کامپیوتره��ا،رده بن��دی ،

هایی رابرای نمونه ها پیش بینی ک��رده ان��د.تجرب��ه نش��ان می دهدک��ه ت��رکیب پیش بینی های چند روش دقیق تراز پیش بی�نی ه�ای هری��ک از روشهاس��ت.پیش بی��نی

موردmeta-linear را می توان به عنوان ورودی classifierهای حاصل از چند پیش بینی هارا ت��رکیب می کن��د ت��ا به��ترین ردهmeta-linearاستفاده قرار داد.

بندی پیش بینی شده حاصل شود.http://fumblog.um.ac.ir

Page 23: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

Wekaنرم افزار داده کاوی ۰  ق.ظ۱۰:۴۶ کاشانیمقدمه

تا به امروز نرم افزار های تجاری و آموزشی فراوانی برای داده کاوی در حوزه های مختلف داده ها به دنیای علم و فناوری عرضه شده اند. هریک از آنها با

توجه به نوع اصلی داده هایی که مورد کاوش قرار می دهند، روی الگوریتمهای خاصی متمرکز شده اند. مقایسه دقیق و علمی این ابزارها باید از جنبه های

متفاوت و متعددی مانند تنوع انواع و فرمت داده های ورودی، حجم ممکن برای پردازش داده ها، الگوریتمها پیاده سازی شده، روشهای ارزیابی نتایج، روشهای

[ داده ها، واسطهای کاربر پسند ]۲[ ، روشهای پیش پردازش ]۱مصور سازی ] [ های سازگار برای اجرا، قیمت و در دسترس بودن نرم افزار۴[ ، پلت فرم ]۳

با داشتن امکانات بسیار گسترده، Wekaصورت گیرد. از آن میان، نرم افزار امکان مقایسه خروجی روشهای مختلف با هم، راهنمای خوب، واسط گرافیگی کارآ، سازگاری با سایر برنامه های ویندوزی، و از همه مهمتر وجود کتابی بسیار

[ ، معرفی میData Mining, witten et Al. 2005جامع و مرتبط با آن ] شود.

، مجموعه ای از الگوریتم های روز یادگیری ماشینی وWeka[ ۵میزکار ] افزار به گونه ای طراحی شدهابزارهای پیش پردازش داده ها می باشد. این نرم

است که می توان به سرعت، روش های موجود را به صورت انعطاف پذیری روی مجموعه های جدید داده، آزمایش نمود. این نرم افزار، پشتیبانیهای ارزشمندی را برای کل فرآیند داده کاوی های تجربی فراهم می کند. این

پشتیبانیها، آماده سازی داده های ورودی، ارزیابی آماری چارچوب های یادگیری و نمایش گرافیکی داده های ورودی و نتایج یادگیری را در بر می گیرند. همچنین،

هماهنگ با دامنه وسیع الگوریتم های یادگیری، این نرم افزار شامل ابزارهای [ متنوع و جامع، از طریق یک۶متنوع پیش پردازش داده هاست. این جعبه ابزار ]

واسط متداول در دسترس است، به نحوی که کاربر می تواند روش های متفاوت را در آن با یکدیگر مقایسه کند و روش هایی را که برای مسایل مدنظر

مناسب تر هستند، تشخیص دهد.

واقع در نیوزلند توسعه یافته است وWaikato در دانشگاه Wekaنرم افزار ”Waikato Environment for knowledge Analysisاسم آن از عبارت “

، نام پرنده ای با طبیعت جستجوگر استWekaاستخراج گشته است. همچنین که پرواز نمی کند و در نیوزلند، یافت می شود. این سیستم به زبان جاوا نوشته

انتشار یافته است.GNU[ ۷شده و بر اساس لیسانس عمومی و فراگیر ]Wekaتقریبا روی هر پلت فرمی اجرا می شود و نیز تحت سیستم عامل های

[ ،۸لینوکس، ویندوز، و مکینتاش، و حتی روی یک منشی دیجیتالی شخصی ]آزمایش شده است.

این نرم افزار، یک واسط همگون برای بسیاری از الگوریتم های یادگیری متفاوت، فراهم کرده است که از طریق آن روش های پیش پردازش، پس از

[ و ارزیابی نتایج طرح های یادگیری روی همه مجموعه های داده ۹پردازش ]موجود، قابل اعمال است.

Page 24: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

، پیاده سازی الگوریتم های مختلف یادگیری را فراهم می کندWekaنرم افزار و به آسانی می توان آنها را به مجموعه های داده خود اعمال کرد.

همچنین، این نرم افزار شامل مجموعه متنوعی از ابزارهای تبدیل مجموعه های [ می باشد. در این محیط می۱۰داده ها، همانند الگوریتم های گسسته سازی ]

توان یک مجموعه داده را پیش پردازش کرد، آن را به یک طرح یادگیری وارد نمود، و دسته بندی حاصله و کارآیی اش را مورد تحلیل قرار داد. )همه این

کارها، بدون نیاز به نوشتن هیچ قطعه برنامه ای میسر است.(

این محیط، شامل روش هایی برای همه مسایل استاندارد داده کاوی مانند رگرسیون، ردهبندی، خوشه بندی، کاوش قواعد انجمنی و انتخاب ویژگی می

باشد. با در نظر گرفتن اینکه، داده ها بخش مکمل کار هستند، بسیاری از ابزارهای پیش پردازش داده ها و مصورسازی آنها فراهم گشته است. همه

[ به فرمت۱۱ای ]الگوریتم ها، ورودی های خود را به صورت یک جدول رابطهARFFدریافت می کنند. این فرمت داده ها، می تواند از یک فایل خوانده شده

یا به وسیله یک درخواست از پایگاه داده ای تولید گردد. ، اعمال یک روش یادگیری به یک مجموعهWekaیکی از راه های به کارگیری

داده و تحلیل خروجی آن برای شناخت چیزهای بیشتری راجع به آن اطالعات می باشد. راه دیگر استفاده از مدل یادگیری شده برای تولید پیشبینی هایی در

مورد نمونه های جدید است. سومین راه، اعمال یادگیرنده های مختلف و مقایسه کارآیی آنها به منظور انتخاب یکی از آنها برای تخمین می باشد. روش

،Weka[ ۱۲ نامیده می شوند و در واسط تعاملی ]Classifierهای یادگیری هاclassifier[ انتخاب نمود. بسیاری از ۱۳می توان هر یک از آنها را از منو ]

objectپارامترهای قابل تنظیم دارند که می توان از طریق صفحه ویژگیها یا editorبه آنها دسترسی داشت. یک واحد ارزیابی مشترک، برای اندازهگیری

رود. به کار میclassifierکارآیی همه پیاده سازی های چارچوب های یادگیری واقعی، منابع بسیار ارزشمندی هستند

فراهم می کند. ابزارهایی که برای پیش پردازش داده ها استفاده میWekaکه ها را ازfilter ها، می توان classifier نامیده می شوند. همانند filterشوند.

منوی مربوطه انتخاب کرده و آنها را با نیازمندی های خود، سازگار نمود. درادامه، به روش به کارگیری فیلترها اشاره می شود.

شامل پیاده سازی الگوریتم هایی برای یادگیریWekaعالوه بر موارد فوق، قواعد انجمنی، خوشه بندی داده ها در جایی که هیچ دسته ای تعریف نشده

[ در داده ها می شود.۱۴است، و انتخاب ویژگیهای مرتبط ]Weka- روش استفاده از ۲

را نشان می دهد.Weka، راههای انتخاب واسط های مختلف ۱شکل ، از طریق واسطی گرافیکی است کهWekaآسان ترین راه استفاده از

Explorerخوانده میشود. این واسط گرافیکی، به وسیله انتخاب منوها و پر کردن فرم های مربوطه، دسترسی به همه امکانات را فراهم کرده است. برای

Page 25: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

خواند وARFFمثال، می توان به سرعت یک مجموعه داده را از یک فایل درخت تصمیمگیری آن را تولید نمود. امادرخت های تصمیمگیری یادگیرنده صرفا ابتدای کار هستند. الگوریتم های بسیار دیگری برای جستجو وجود دارند. واسط

Explorer.کمک می کند تا الگوریتم های دیگر نیز آزمایش شوند

در وضعیت انتخاب واسطWeka ۱٫شکل

این واسط با در اختیار گذاشتن گزینه ها به صورت منو، با وادار کردن کاربر به اجرای کارها با ترتیب صحیح، به وسیله خاکستری نمودن گزینه ها تا زمان صحیح به کارگیری آنها، و با در اختیار گذاشتن گزینه هایی به صورت فرم های پرشدنی،

کاربر را هدایت می کند. راهنمای ابزار مفیدی، حین عبور ماوس از روی گزینه ها، ظاهر شده و اعمال الزم مربوطه را شرح می دهد. پیش فرض های معقول

قرار داده شده، کاربر را قادر می سازند تا با کمترین تالشی، به نتیجه برسد. اما کاربر باید برای درک معنی نتایج حاصله، راجع به کارهایی که انجام می دهد،

بیندیشد.

Weka دو واسط گرافیکی دیگر نیز دارد. واسط knowledge flowبه کاربر امکان می دهد تا چنیش هایی برای پردازش داده های در جریان، طراحی کند.

. نگهداری هر چیزی در حافظه اصلی آن است.Explorerیک عیب پایه ای ، کل آن را، در حافظExplorer)زمانی که یک مجموعه داده را باز می کنیم،

، صرفا برای مسایل با اندازه هایExplorerباز می کند( نشان می دهد که شامل تعدادیWekaکوچک تا متوسط، قابل اعمال است. با وجود بر این

Page 26: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

الگوریتم های افزایشی است که می تواند برای پردازش مجموعه های داده امکان می دهدknowledge flowبسیار بزرگ مورد استفاده قرار گیرد. واسط

[ های نمایانگر الگوریتم های یادگیری و منابع داده ها را به درون۱۵تا جعبه ] صفحه بکشیم و با اتصال آنها به یکدیگر، ترکیب و چینش دلخواه خود را بسازیم. این واسط اجازه می دهد تا جریان داده ای از مؤلفه های به هم متصل که بیانگر منابع داده، ابزارهای پیش پردازش، روش های ارزیابی و واحدهای مصور سازی

هستند تعریف شود. اگر فیلترها و الگوریتم های یادگیری، قابلیت یادگیری افزایشی را داشته باشند، داده ها به صورت افزایشی بار شده و پردازش

خواهند شد. خوانده می شود، کمک می کند تاExperimenter ، که Wekaسومین واسط

به این سؤال عملی و پایه ای کاربر حین استفاده از تکنیک های ردهبندی و رگرسیون، پاسخ دهد: “چه روش ها و پارامترهایی برای مسأله داده شده، بهتر

عمل می کنند؟”

عموما راهی برای پاسخگویی مقدماتی به این سؤال وجود ندارد و یکی از دالیل را قادر بهWeka ، فراهم نمودن محیطی است که کاربران Wekaتوسعه

مقایسه تکنیک های گوناگون یادگیری بنماید. این کار، می تواند به صورت تعاملی با ساده کردن اجرایExperimenter انجام شود. با این وجود، Explorerدر

ردهبندی کننده ها و فیلترها با پارامترهای گوناگون روی تعدادی از مجموعه های داده، جمع آوری آمار کارآیی و انجام آزمایش های معنا، پردازش را خودکار می

برای توزیع بار محاسباتیExperimenterکند. کاربرهای پیشرفته، می توانند از بین چندین ماشین، استفاده کنند. در این روش، می توان آزمایش های آماری

بزرگی را راه اندازی نموده و آنها را برای اجرا، رها نمود.

قرار دارد. توابع پایه ایWekaورای این واسط های تعاملی، عملکرد پایه ای Weka[ های متنی قابل دسترسی هستند. زمانی که۱۶ ، از طریق خط فرمان ] Weka:فعال می شود، امکان انتخاب بین چهار واسط کاربری وجود دارد ،

Explorer ، knowledge ، Experimenter.و واسط خط فرمان را به عنوان واسط کاربریExplorerاکثر کاربران، حداقل در ابتدای کار

انتخاب می کنند.Weka قابلیتهای ۳٫

مستندسازی در لحظه، که به صورت خودکار از کد اصلی تولید می شود و دقیقا Wekaساختار آن را بیان می کند، قابلیت مهمی است که حین استفاده از

وجوددارد. نحوه استفاده از این مستندات و چگونگی تعیین پایه های ساختمانی اصلی

Wekaمشخص کردن بخش هایی که از روش های یادگیری با سرپرست ، استفاده می کند، ابزاری برای پیش پردازش داده ها بکار می رود و اینکه چه

روش هایی برای سایر برنامه های یادگیری وجود دارد، در ادامه تشریح خواهد بهWekaشد. تنها به لیست کاملی از الگوریتم های موجود اکتفا می شود زیرا

طور پیوسته تکمیل می شود و به طور خودکار از کد اصلی تولید می شود. مستندات در لحظه همیشه به هنگام شده می باشد. اگر ادامه دادن به مراحل

Page 27: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

بعدی و دسترسی به کتابخانه از برنامه جاوا شخصی یا نوشتن و آزمایش کردن برنامه های یادگیری شخصی مورد نیاز باشد، این ویژگی بسیار حیاتی خواهد

بود. در اغلب برنامه های کاربردی داده کاوی، جزء یادگیری ماشینی، بخش کوچکی از سیستم نرم افزاری نسبتا بزرگی را شامل می شود. در صورتی که نوشتن برنامه کاربردی داده کاوی مد نظر باشد، می توان با برنامه نویسی اندکی به

از داخل کد شخصی دسترسی داشت. اگر پیدا کردن مهارتWekaبرنامه های در الگوریتم های یادگیری ماشینی مدنظر باشد، اجرای الگوریتم های شخصی

بدون درگیر جزییات دست و پا گیر شدن مثل خواندن اطالعات از یک فایل، اجرای الگوریتم های فیلترینگ یا تهیه کد برای ارزیابی نتایج یکی از خواسته ها

دارای همه این مزیت ها است. برای استفاده کامل از اینWekaمی باشد. ویژگی، باید با ساختارهای پایه ای داده ها آشنا شد.

Weka دریافت ۴٫

، http://www.cs.waikato.ac.nz/me/weka  ، در آدرسWekaنرم افزار [ متناسب با یک پلت۱۷در دسترس است. از این طریق می توان نصب کننده ]

را که در صورت نصب بودن جاوا به راحتیJava jarفرم معین، یا یک فایل [ نمود.۱۸قابل اجرا است، دانلود ]

Explorer مروری بر ۵٫

است که امکان دسترسی بهExplorerواسط گرافیکی اصلی برای کاربران، را از طریق انتخاب منوها و پر کردن فرمها فراهم میWekaهمه امکانات

را نشان می دهد. در این واسط، شش پانل ]Explorer، نمای ۲آورد. شکل [ باالی صفحه قابل انتخاب هستند و۲۰[ مختلف وجود دارد که از طریق نوار ]۱۹

متناظر می باشند.Weka[ داده کاوی پشتیبانی شده توسط ۲۱با وظایف ]

Page 28: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

Explorer واسط گرافیکی ۲٫شکل به طور۴ و ۳ در شکل های Explorerدو گزینه از شش گزینه باالی پنجره

خالصه تشریح شده است.به طور خالصه، کارکرد تمام گزینه ها به شرح ذیل است.

Preprocess[ آن از راه های گوناگون۲۲ : انتخاب مجموعه داده و اصالح ]Classify[ برنامه های یادگیری که ردهبندی یا رگرسیون انجام۲۳ : آموزش ]

می دهند و ارزیابی آنها.Clusterیادگیری خوشه ها برای مجموعه های داده :

Associateیادگیری قواعد انجمنی برای داده ها و ارزیابی آنها : Select attributes[ ها در مجموعه های داده۲۴ : انتخاب مرتبط ترین جنبه ]

Visualizeمشاهده نمودارهای مختلف دوبعدی داده ها و تعامل با آنها :

Page 29: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

خواندن فایل داده های آب و هوا۳٫شکل Weka Exphorerامکان رده بندی دارد، چنانچه به کاربران اجازه می دهد به

نمودارWekaصورت تعاملی اقدام به ساخت درخت تصمیمگیری کنند. پراکندگی داده ها را نسبت به دو ویژگی انتخاب شده، فراهم می آورد. وقتی

ای که رده ها را به خوبی جدا می کند، پیدا شد، امکان ایجاد دو شاخهزوج ویژگیبا کشیدن چند ضلعی اطراف نقاط داده ها بر نمودار پراکندگی وجود دارد.

Page 30: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

Classify نوار ۴٫شکل هر نوار، دسترسی به دامنه کاملی از امکانات را فراهم می کند. در پایین هر

پیغام هایی است کهstatus قرار دارد. جعبه log و دکمه statusپانل، جعبه Exploresنشان می دهد چه عملیاتی در حال انجام داده شدن است. مثال اگر

آن را گزارش می دهد. کلیکstatusمشغول خواندن یک فایل باشد، جعبه راست در هر جا داخل این جعبه یک منو کوچک با دو گزینه می آورد، نمایش

..Java garbage collector و اجرای Wekaمیزان حافظه در دسترس به طور ثابت به عنوان یک عملgarbage collectorالزم است توجه شود که

، گزارش عملکردlog[ در هر حال اجرا می شود کلیک دکمه ۲۵پیش زمینه ] تاکنون در این بخش انجام داده است با برچسبWekaمتنی کارهایی که

زمانی ارایه می کند. در حال عملیات است، پرنده کوچکی که در پایین سمت راستWekaزمانیکه

پنجره است، باال و پایین می پرد. عدد پشت × نشان می دهد که به طور همزمان چند عملیات در حال انجام است. اگر پرنده بایستد در حالیکه حرکت

از نو اجراExplorerنمی کند، او مریض است! اشتباه رخ داده است و باید شود.

خواندن و فیلتر کردن فایل ها۱٫ URL، دکمه هایی برای باز کردن فایل، ۳ در شکل Preprocessدر باالی پانل

. درarffها و پایگاه های داده وجود دارد. در ابتدا تنها فایل های با پسوند browser[ ۲۶ فایل نمایش داده می شود. برای دیدن سایر فایل ها یاید گزینه] Format.در جعبه انتخاب فایل تغییر داده شود

ARFF تبدیل فایل ها به فرمت ۲٫ [ می باشد، برای فایل های۲۷ دارای سه مبدل فرمت فایل ]Wekaنرم افزار

Page 31: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

. وnames با پسوند C4.5 ، با فرمت فایل CSV[ با پسوند ۲۸صفحه گسترده ]data و برای نمونه های سری با پسوند bsi.

ARFF قادر به خواندن داده ها نباشد، سعی می کند آن را به صورت Wekaاگر )الف( ظاهر می شود.۵تفسیر کند. اگر نتواند جعبه نشان داده شده در شکل

)الف(

)ب(

)ج( ویرایشگر عمومی اشیاء )الف( ویرایشگر )ب( اطالعات بیشتر۵٫شکل

( )ج( انتخاب یک مبدلMore)فشردن دگمه برای انتخاب و تنظیمWeka[ اشیاء است که در ۲۹این، یک ویرایشگر عمومی ]

تنظیم میClassifierاشیا بکار می رود. به عنوان مثال وقتی پارامتری برای برای فایل هایCSV Loaderشود، جعبه ای با نوع مشابه بکار برده می شود.

اطالعاتMore . به طور پیش فرض انتخاب می شود. دکمه CSVبا پسوند )ب( نشان داده شده است.۵بیشتری در مورد آن می دهد که در شکل

[ ارزشمنداست! در این حالت نشان می دهد که۳۰همیشه مطالعه مستندات ] ردیف نخست صفحه گسترده، نام ویژگی را تعیین می کند. برای استفاده از این

کلیکchoose کلیک شود. برای مورد مختلف الزم است بر Okمبدل باید بر )ج( انتخاب انجام شود.۵شود تا از لیست شکل

است و فقط به دلیل ناموفق بودن به این نقطه میArffloaderگزینه اول، choose پیش فرض است و در صورت نیاز به فرض دیگر، CSVLoaderرسیم.

است که دو فایل برایC4.5کلیک می شود. سومین گزینه، مربوط به فرمت مجموعه داده وجود دارد یکی اسم ها و دیگ�ری داده های واقع�ی می باشد.

Page 32: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

[ مجموعه داده ای۳۲[ ، برای بازخوانی ]۳۱چهارمین برای نمونه های سریالی ] است که به صورت شیئ سریالی شده جاوا ذخیره شده است. هر شیء در

جاوا می تواند در این شکل ذخیره و بازخوانی شود. به عنوان یک فرمت بومی بایدARFF خوانده می شود چرا که فایل ARFF[ ، سریع تر از فایل ۳۳جاوا ]

[ و کنترل شود. وقتی یک مجموعه داده بزرگ مکررا بازخوانی می۳۴تجزیه ]شود، ذخیره آن در این شکل سودمند است.

استopen و save )الف(، ۵ویژگیهای دیگر ویرایشگر عمومی اشیا در شکل که به ترتیب برای ذخیره اشیای تنظیم شده و بازکردن شیئی که پیش از این

ذخیره شده است، به کار می رود. اینها برای این نوع خاص شیئ مفید نیستند. لکن پانل های دیگر ویرایشگر عمومی اشیاء، خواص قابل ویرایش زیادی دارند.

به دلیل مشکالتی که ممکن است حین تنظیم مجدد آنها رخ دهد، می توانترکیب اشیاء ایجاد شده را برای استفاده های بعدی، ذخیره کرد.

، فایل های موجود روی کامپیوترWeka[ مجموعه های داده برای ۳۵تنها منبع ] برای دانلودHTTP از پروتکل Weka را باز کرد تا URLنیستند. می توان یک

از شبکه استفاده کند. همچنین میتوان یک پایگاه داده ها راArffکردن یک فایل � هر پایگاه داده ای که درایور اتصال به مجموعه های دادهopen DBباز نمود )

، نمونه ها راSQL زبان select را دارد.( و به وسیله دستور JDBCبه زبان جاوا به همه فرمت های ذکرsaveبازیابی نمود. داده ها می توانند به کمک دگمه

شده، ذخیره شوند. جدای از بحث بارگذاری و ذخیره مجموعه های داده، پانلpreprocessبه کاربر اجازه فیلتر کردن داده ها را می دهد. فیلترها، اجزای

هستند.Wekaمهم بکارگیری فیلترها۳٫

می توان به لیستی۳ )گوشه باال و سمت چپ( در شکل chooseبا کلیک دگمه از فیلترها دست یافت. می توان از فیلترها برای حذف ویژگیهای مورد نظری از

یک مجموعه داده و انتخاب دستی ویژگیها استفاده نمود. مشابه این نتیجه را می توان به کمک انتخاب ویژگیهای مورد نظر با تیک زدن آنها و فشار دادن کلیه

Remove.به دست آورد الگوریتم های یادگیری۴٫

classify در پانل chooseزمانی که یک الگوریتم یادگیری با استفاده از دگمه انتخاب می شود، نسخه خط فرمانی رده بند در سطری نزدیک به دگمه ظاهر

می گردد. این خط فرمان شامل پارامترهای الگوریتم است که با خط تیره شوند. برای تغییر آنها می توان روی آن خط کلیک نمود تا ویرایشگرمشخص می

راWeka، لیست اسامی رده بندهای ۶مناسب شیء، باز شود. جدول شکل ، Bayesian ، treesنمایش می دهد. این الگوریتم ها به رده بندهای

functions rules ، lazyو دسته نهایی شامل روش های متفرقه تقسیم شده اند.

۴-۱٫ TreesDecision stump که برای استفاده توسط روش های boostingطراحی شده

است، برای مجموعه های داده عددی یا رده ای، درخت تصمیمگیری یک سطحی می سازد. این الگوریتم، با مقادیر از دست رفته، به صورت مقادیر مجزا

برخورد کرده و شاخه سومی از درخت توسعه می دهد.۴-۲٫ Rules

Page 33: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

Decision Table.یک رده بند بر اساس اکثریت جدول تصمیمگیری می سازد این الگوریتم، با استفاده از جستجوی اولین بهترین، زیر دسته های ویژگیها راارزیابی می کند و می تواند از اعتبارسنجی تقاطعی برای ارزیابی بهره ببرد )

۱۹۹۵ ،Kohavi.) یک امکان این است که به جای استفاده از اکثریت جدول تصمیمگیری که بر

کند، از روش نزدیکترین همسایه برایاساس دسته ویژگیهای مشابه عمل می [ جدول تصمیمگیری پوشش۳۶تعیین رده هر یک از نمونه ها که توسط مدخل ]

داده نشده اند، استفاده شود.Conjunctive Ruleقاعده ای را یاد می گیرد که مقادیر رده های عددی را رده

ای را پیشبینی می کند. نمونه های آزمایشی به مقادیر پیش فرض رده نمونه های آموزشی، منسوب می شوند. سپس تقویت اطالعات )برای رده های

رسمی(، یا کاهش واریانس )برای رده های عددی( مربوط به هر والد محاسبه [ ، قواعد هرس می۳۷شده و به روش هرس کردن با خطای کاهش یافته ]

شوند.ZeroRبرای رده های اسمی، اکثریت داده های مورد آزمایش و برای رده های

عددی، میانگین آنها را پیشبینی می کند. این الگوریتم بسیار ساده است.M5Rules به کمک ، M5از روی درخت های مدل، قواعد رگرسیون استخراج

می کند.

Page 34: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

Wekaالف. الگوریتمهای رده بندی در ۶٫شکل

Page 35: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

Wekaب. الگوریتمهای رده بندی در ۶٫شکل در این بخش به شرح مختصری برخی از این الگوریتمها و پارامترهایشان که

قابلیت کار با ویژگی های عددی را دارند، پرداخته می شود.۴-۳٫ Functions

Simple Linear Regresionمدل رگرسیون خطی یک ویژگی مشخص را یاد می گیرد. آنگاه مدل با کمترین خطای مربعات را انتخاب می کند. در این

[ .۳۸الگوریتم، مقادیر از دست رفته و مقادیر غیرعددی مجاز نیستند ]Linear Regressionرگرسیون خطی استاندارد کمترین خطای مربعات را

انجام می دهد میتواند به طور اختیاری به انتخاب ویژگی بپردازد، این کار می [ انجام شود، یا با۴۰[ با حذف عقب رونده ]۳۹تواند به صورت حریصانه ]

ساختن یک مدل کامل از همه ویژگیها و حذف یکی یکی جمله ها با ترتیب نزولیضرایب استاندارد شده آنها، تا رسیدن به شرط توقف مطلوب انجام گیرد.

Least Med sq[ به جای۴۱ یک روش رگرسیون خطی مقاوم است که میانه( ] [ ( مربعات انحراف از خط رگرسیون را کمینه می کند. این روش به۴۲میانگین ]

طور مکرر رگرسیون خطی استاندارد را به زیرمجموعه هایی از نمونه ها اعمالکند و نتایجی را بیرون می دهد که کمترین خطای مربع میانه را دارند.می

SMO tegالگوریتم بهینه سازی حداقل ترتیبی را روی مسایل رگرسیون اعمال (Scholkopf, 1998 ، Smolaمی کند. )

Pace Regression با استفاده از تکنیک رگرسیون ، paceمدل های ، ،pace (. رگرسیون Witten و Wang ، ۲۰۰۲رگرسیون خطی تولید می کند )

زمانی که تعداد ویژگیها خیلی زیاد است، به طور ویژه ای در تعیین ویژگیهایی که باید صرفنظر شوند، خوب عمل می کند. در واقع در صورت وجود نظم و ترتیب خاصی، ثابت می شود که با بی نهایت شدن تعداد ویژگیها، الگوریتم بهینه عمل

می کند.RBF Networkیک شبکه با تابع پایه ای گوسی شعاعی را پیاده سازی می ،

تعیین]K ]43کند. مراکز و عرض های واحدهای مخفی به وسیله روش میانگین [ ، با استفاده۴۴می شود. سپس خروجی های فراهم شده از الیه های مخفی ]

از رگرسیون منطقی در مورد رده های اسمی و رگرسیون خطی در مورد رده های عددی، با یکدیگر ترکیب می شوند. فعال سازی های توابع پایه پیش از ورود

به مدل های خطی، با جمع شدن با عدد یک، نرمالیزه می شوند. در این تعداد خوشه ها، بیشترین تعداد تکرارهای رگرسیون هایKالگوریتم می توان،

Page 36: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

منطقی برای مسأله های رده های رسمی، حداقل انحراف معیار خوشه ها، و بهKمقدار بیشینه رگرسیون را تعیین نمود. اگر رده ها رسمی باشد، میانگین

خوشه مورد نظر برای هر ردهKطور جداگانه به هر رده اعمال می شود تا استخراج گردد.

Lazy رده بندهای ۴-۴٫ نمونه های آموزشی را ذخیره می کنند و تا زمان رده بندیlazyیادیگرنده های

هیچ کار واقعی انجام نمی دهند.IB1یک یادگیرنده ابتدایی بر پایه نمونه است که نزدیک ترین نمونه های

آموزشی به نمونه های آزمایشی داده شده را از نظر فاصله اقلیدسی پیدا کردهو نزدیکترین رده ای مشابه رده همان نمونه های آموزشی را تخمین می زند.

IBK یک رده بند با Kهمسایه نزدیک است که معیار فاصله ذکر شده را استفاده ( می تواند به طور صریحK= ۱می کند. تعداد نزدیکترین فاصله ها )پیش فرض

در ویرایشگر شیء تعیف شود. پیشبینی های متعلق به پیش از یک همسایه میتواند بر اساس فاصله آنها تا نمونه های آزمایشی، وزن دار گردد.

دو فرمول متفاوت برای تبدیل فاصله به وزن، پیاده سازی شده اند. تعداد نمونه های آموزشی که به وسیله رده بند نگهداری می شود، می تواند با تنظیم گزینه اندازه پنجره محدود گردد. زمانی که نمونه های جدید اضافه می شوند، نمونه های قدیمی حذف شده تا تعداد کل نمونه های آموزشی در اندازه تعیین شده

باقی بماند.Kstarیک روش نزدیکترین همسایه است که از تابع فاصله ای عمومی شده ،

بر اساس تبدیالت استفاده می کند.LWLیک الگوریتم کلی برای یادگیری وزن دار شده به صورت محلی است. این

الگوریتم با استفاده از یک روش بر پایه نمونه، وزن ها را نسبت می دهد و از روی نمونه های وزن دار شده، رده بند را می سازد. رده بند در ویرایشگر شیء

LWL .انتخاب می شود Nave Bayesبرای مسایل رده بندی و رگرسیون توان در اینخطی برای مسایل رگرسیون، انتخاب های خوبی هستند. می

الگوریتم، تعداد همسایه های مورد استفاده را که پهنای باند هسته و شکل هسته مورد استفاده برای وزن دار کردن را )خطی، معکوس، یا گوسی( مشخص می

کند، تعیین نمود. نرمال سازی ویژگیها به طور پیش فرض فعال است.

تحلیل عاملیadmin ۱۲:۵۴۰  ب.ظ

مقدمه تحلیل عاملی نامی است عمومی برای برخی از روشهای چند متغ��یره ک��ه ه��دف اص��لی آن خالص��ه ک��ردن داده هاس��ت. این روش ب��ه بررس��ی همبس��تگی درونی تعداد زیادی از متغیرها می پردازد و در نهایت آنها را در قالب عامله��ای عم��ومی محدودی دسته بندی کرده تبیین می کند. در این تکنیک تم��ام متغیره��ا ب��ه عن��وان

متغیر وابسته قرار می گیرد.

Page 37: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

تحلیل عاملی روشی هم وابسته بوده که در آن کلیه متغیرها بط��ور همزم��ان م��د نظر قرار می گیرد. در این تکنیک، هریک از متغیرها به عنوان یک متغ��یر وابس��ته لح��اظ می گ��ردد. قب��ل از پ��رداختن ب��ه این تکنی��ک آم��اری، الزم اس��ت ب��رخی از

مفاهیم کلیدی این روش معرفی گردند. [: میزان واریانس مش��ترک بین ی��ک متغ��یر ب��ا س��ایر متغیره��ای۱] اشتراک       ·

بکار گرفته شده در تحلیل. [:میزان وارایانس تبیین شده بوسیله هر عامل را بی��ان می۲] مقدار خاص       ·

کند. یکی از ضوابط پرکاربرد در تعیین تعداد عاملها ، مقدار ویژه است ک��ه آن را می باش��د ۱ معیار راکد نیز می گویند در تحلیل ع�املی مق��دار وی��ژه براب��ر است

ولی ما می توا نیم در بسته آماری این مقدار زیاد کنیم . در تحلیل عاملی مولف��ه باش��د ولی این مق��دار کم��تر۱های اصلی ان است که مقدار ویژه آنان بیشتر از

باشد به عنوان عاملهایی است که از نظر آماری معنی دار نیس��ت و بای��د از ۱ ازتحلیل کنار گذاشته شود .

[:عبارتست ترکیب خطی متغیرهای اصلی،که نشان دهنده خالصه۳] عامل       ·شده از متغیرهای مشاهده شده است.

[: همبستگی بین متغیرهای اصلی و عوامل. اگ��ر مق��ادیر ب��ار۴] بار عاملی       · عاملی مجذور شوند،نشان می دهن��د ک��ه چن��د درص��د از واری��انس در ی��ک متغ��یر

توسط آن عامل تبیین می شود. [: جدولی است که باره��ای ع��املی کلی��ه متغیره��ا را در۵] ماتریس عاملی       ·

هر عامل نشان می دهد. [: فرآیندی است برای تعدیل محور عامل به منظود دستیابی به۶]چرخش عاملی

]عامله��ای مع��نی دار وس��اده. یکی از مف��اهیم مهم در تحلی��ل ع��املی چ��رخش عاملهاس��ت. ک��ه این مفه��وم دقیق��ا ب��ه هم��ان معن��ا داللت دارد ک��ه در فرآین��د [۷

چرخش عاملی ، محورهای مختصات عاملها به دور مب��دا چ��رخش داده اس��ت ت��ااینکه موقعبیت جدیدی را بدست بیاورد ما در اینجا دونوع چرخش داریم :

[۸]- چرخش متعامد۱[۹]- متمایل۲

چرخش متعامد: عاملها مستقل از یکدیگر هستند.(۲۸۳: ۱۳۸۷متمایل: عاملها بایکدیگر همبستگی دارند. )کالنتری،

تصمیم گیری در تحلیل عاملی هدف اصلی تحلیل عاملی تلخیص تعداد زی��ادی از متغیره��ا در تع��داد مح��دودی از عاملها می باشد، بطوریکه در این فرایند کمترین میزان گم شدن اطالعات وجود داشته باشد. با توجه به هدف تحلیل عاملی محقق سواالتی از خود می پرسد چه نوع متغیرهای باید در تحلیل به کار گرفته شود . در پاسخ به این سوال باید گفت

که هر متغیری مرتبط با مسئله تحقیق را می توان در تحلیل به کار گرفت. معنی داری ماتریس همبستگی        -

یکی از روش��های انتخ��اب متغیره��ای مناس��ب ب��رای تحلی��ل ع��املی اس��تفاده از ماتریس همبستگی است که اساس روش تحلیل عاملی برای انتخاب متغیرها ب��ه عاملهای متفاوت استفاده از همبستگی بین متغیرها اما از نوع غ��یر علی اس��توار است. البته آمارهای دیگری وجود دارد که محقق از طریق انها نیز قادر به تع��یین و تش��خیص مناس��ب ب��ودن داده ه��ا ب��رای تحلی��ل ع�املی می باش��د از جمل��ه این

می باش��د و۱و۰می باشد ک�ه مق�دار آن هم�واره بین  ]KMO]10 روشها آزمون

Page 38: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

/. باشد داده ها برای تحلیل ع��املی مناس��ب۵۰در صورتی که این مقدار کمتر از /. درصد باشد می توان با احتیاط بیشتر۶۹/. تا۵۰نخواهد بود و اگر مقدار آن بین

می ت��وان ب��ه تحلی��ل ع��املی پ��رداخت. ام��ا در ص��ورتی ک��ه این مق��دار بیش��تر از /.درصد باشد همبستگی موج��ود می��ان داده ه��ا ب��رای تحلی��ل داده ه��ا مناس��ب۷۰

(۲۵۶: ۱۳۷۶خواهد بود.)دواس، ب��رای تحلی�ل ع�املی مب��نی ب��ر اینک��ه و از سوی دیگر ب��رای اطمین��ان از داده ها

ماتریس همبستگی که پایه تحلی��ل عام��ل ق��رار می گ��یرد در جامع��ه براب��ر ص��فر اس��تفاده ک��نیم . این آزم��ون معن��اداری [۱۱]است یا خ��یر بای��د از آزم��ون ب��ارتلت

/. باشد داده ها ب��ا۰۵تحلیل عاملی داده ها را می سنجد و اگر این مقدار کمتر ازجامعه مورد معنی دار است.

حجم نمونه        - ۵۰در رابطه با حجم نمونه نیز باید تاکید کرد که تعداد حجم نمونه نبای��د کم��تر از

مورد افزایش داد. ب��ه عن��وان۱۰۰مورد باشد و ترجیحا حجم نمونه را به بیش از قاع��ده کلی تع��داد نمون��ه بای��د ح��دود چه��ار ی��ا پنج براب��ر تع��داد متغیره��ای م��ورد

م��ورد می باش��د.)س��رمد و۵۰اس��تفاده باش��د. ک��ه در این تحقی��ق حجم نمون��ه (۲۵۸: ۱۳۸۵دیگران،

انتخاب نوع ماتریس همبستگی        - بعد از اطمینان داشتن به داده ها برای تحلیل عاملی، اولین تصمیم در بک��ارگیری تحلیل عاملی، محاسبه ماتریس همبستگی است. برای اینکار باید مش��خص ش��ود که آیا هدف،محاسبه همبستگی بین متغیرهاس��ت ی��ا بین پاس��خگویان. اگ��ر ه��دف تحقیق تلخیص متغیره��ا باش��د در این ص��ورت از همبس��تگی بین متغیرهامحاس��به شود که این روش یکی از تکنیک های عمومی و پرکاربرد در مطالعات می باش��د

معرو ف است. اما تحلیل ع��املی ممکن اس��ت ب��رایRکه به تحلیل عاملی نوع ماتریس همبستگی بین پاسخگویان نیز بکار گرفته شود این نوع تحلیل را تحلی��ل

می نامند . این نوع تحلیل عاملی شاید بدلیل مش�کل ب�ودن کم�تر م�ورد  Qنوع استفاده قرار گیرد و بجای آن از روشهای نظ��یر تحلی��ل خوش��ه ای ی��ا گروهبن��دیسلس��له مرات��بی ب��رای طبق��ه بن��دی پاس��خگویان ی��ا م��وارد اس��تفاده می ش��ود.

( که در این تحقیق با توجه به هدف اصلی تحقی��ق، م��اتریس۲۸۷: ۱۳۸۷)کالنتری،استفاده گردیده است.  Rهمبستگی از نوع

انتخاب مدل عاملی        - در تحلیل عاملی م��دلهای مختلفی وج��ود دارد ک��ه از می��ان آنه��ا دو روش تحلی��ل 

مولفه های اصلی و تحلیل عاملی مش��ترک از پ��ر ک��اربرد ت��رین این روشهاس��ت. انتخاب هریک از مدلها به هدف محقق بستگی دارد.مدل تحلیل مولفه های اصلی زمانی مورد استفاده قرار می گیرد که هدف محقق تلخیص متغیره��ا و دس��تیابی به تعداد محدودی عامل برای اه�داف پیش بی��نی ش�ده باش��د و در مقاب��ل تحلی��ل عاملی مشترک زمانی بکار می رود که هدف شناسایی عاملها یا ابعادی باشد که

(.۱۵۲: ۱۳۸۰به سادگی قابل شناسایی نیستند)کالنتری، روش استخراج عامل ها        -

عالوه بر انتخاب مدل تحلیل، محق��ق بای��د مش��خص کن��د ک��ه عامله��ا چگون��ه بای��د استخراج شوند. برای استخراج عامله��ا دو روش وج��ود دارد. عامله��ای متعام��د و ع��املهالی متمای��ل. در روش متعام��د، عامله��ا ب��ه ش��یوه انتخ��اب می گردن��د ک��ه

درجه قرار می گیرند و این بدین معناست ک��ه ه��ر۹۰محورهای عاملی در حالت

Page 39: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

عام��ل، مس��تقل از س��ایر عامله��ا می باش��د. بن��ابراین،همبس��تگی بین عامله��ا، بطورقراردادی صفر تعیین می گ��ردد. م��دل ع��املی متمای��ل پیچی��ده ت��ر از م��دل عاملی متعامد می باشد. در واقع در این روش فرآیند تحلیلی کامال رضایت بخش بدس��ت نمی آی��د. در این روش عامله��ای اس��تخراج ش��ده دارای همبس��تگی می باشند.انتخاب اینکه چرخش عاملها بر اس��اس متعام��د و ی��ا متمای��ل باش��دباید ب��ر

اساس نیازهای محقق و مسئله تحقیق وجود دارد انجام گیرد. انتخاب نهایی عامل ها        -

زمانیکه در خصوص ماتریس همبستگی، مدل ع��املی و روش اس��تخراج، تص��میم مناسب اتخاذ گردید، زمینه برای استخراج عاملهای اولیه چ��رخش نیافت��ه ف��راهم می گردد. ب��ا بررس��ی م��اتریس چ��رخش نیافت��ه محق��ق می توان��د ب��ه جس��تجوی روشهای تلخیص داده ها و تعیین عاملهای اس�تخراجی ب�پردازد، ام�ا تع�یین نه�ایی تعداد عاملها پس از دستیابی به ماتریس عاملی چ��رخش یافت��ه امک��ان پ��ذیر می

باشد.

Page 40: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

فرمول کوکران و جدول مورگان برای تعیین حجم نمونه۱  ق.ظ۷:۳۵ کاشانی

برای تعیین حجم نمونه در تحقیقات از روشهای مختلفی استفاده می شود. دو روش متداول برای این کار استفاده از فرمول شارل کوکران و جدول مورگان

است. روش شارل کوکران۱٫

به منظور تعیین حجم نمونه س��اده ت��رین روش اس��تفاده از فرم��ول ک��وکران میباشد.

در فرمول کوکران: 

nحجم نمونه =N(… = حجم جمعیت آماری )حجم جمعیت شهر, استان,وt  یا zدر صد خطای معیار ضریب اطمینان قابل قبول = p)نسبتی از جمعیت فاقد صفت معین )مثال جمعیت مردان =

q=1-p )نسبتی از جمعیت فاقد صفت معین )مثال جمعیت زنان eدرجه اطمینان یا دقت احتمالی مطلوب =

)یعنی نیمی۵/۰طبق فرمول باال اگر بخواهیم حجم نمونه را با شکاف جمعیتی از جمعیت حایز صفتی معین باشند . نیمی دیگر فاقد آن هستند.

میdاست.   ۱٫۹۶ معموال z در نظر می گیریم. مقدار ۰٫۵ را q و pمعموال باشد.  ۰٫۰۵ یا   ۰٫۰۱ تواند

در برخی از تحقیقات برای تصحیح حجم نمونه از فرمول تصحیح کوکران نیز در. استفاده می شود  ادامه فرمول اصلی

 . روش جدول مورگان:2

زمانی که نه از واریانس جامعه و نه از احتمال موفقیت یا عدم موفقیت متغیر دارید و نمی توان از فرمولهای آماری برای براورد حجم نمونه استفاده اطالع

کرد از جدول مورگان استفاده می کنیم. این جدول حداکثر تعداد نمونه را میدهد.

S ،حجم نمونه:Nحجم جامعه:NSNSNSNSNS1010100802801628002602800338151411086290165850265300034120191209230016990026935003462524130973201759502744000351302814010334018110002784500351353215010836018611002855000357403616011338018112002916000361454018011840019613002977000364

Page 41: کدام آزمون آماری برای ... - Web viewکیفی سنجیده شده و فاقد توزیع (Free of distribution) هستند از شاخصهای آمارا ناپارامتریک

50441901234202011400302800036755482001274402051500306900036860522101324602101600310100003736556220136480214170031315000375705923014050021718003172000037775632401445502251900320300003798066250148600234200032240000380857026015265024222003275000038190732701557002482400331750003829576270159750256260033510000

0384

 http://www.iranresearches.ir