خلاصه ای درباب داده کاوی و یادگیری ماشین

!دانشگاه آزاد اسالمی

واحد تهران شمال

!!داده کاوی و یادگیری ماشین!

!امیررضا اسدی!

!880122506

!!!!!!!!

Data) چیست؟! Mining داده کاوی (

بـــه ، داده کـــاوی عـــبارت اســـت از اقـــتباس يـــا اســـتخراج دانـــش از مجـــموعـــه ای از داده هـــا داده کـــاوی فـــرايـــندی اســـت کـــه بـــا اســـتفاده از تـــکنيکهای هـــوشـــمند، دانـــش را از ، بـــيان ديـــگر

مجموعه ای از داده ها می کند.!

تعاریف داده کاوی!

داده کاوی استخراج اطالعات مفهومی، ناشناخته و به صورت بالقوه مفید از • 1پایگاه داده می باشد.

• 2داده کاوی علم استخراج اطالعات مفید از پایگاه های داده یا مجموعه داده ای

!تعریف یادگیری ماشین!

یادگیری ماشین عبارت است از اینکه چگونه میتوان برنامه ای نوشت که از طریق تجربه یادگیری کرده و عملکرد خود را بهتر کند. یادگیری ممکن است باعث تغییر در ساختار

برنامه و یا داده ها شود.

چرا ماشین ها باید توانایی یادگیری داشته باشند؟!

بعضی کارها را بدرستی نمیتوان توصیف نمود. در صورتیکه ممکن است آنها را بتوان بصورت مثالهای( ورودی/خروجی) معین نمود. ممکن است در خیل عظیمی از داده

اطالعات مهمی نهفته باشد که بشر قادر به تشخیص آن نباشد ( اهمیت داده کاوی) ممکن است موقع طراحی یک سیستم تمامی ویژگیهای آن شناخته شده نباشد در

حالیکه ماشین میتواند حین کار آنها را یاد بگیرد. ممکن است محیط در طول زمان تغییر

�2

! . W.Frawley and G. Piatetsky. Knowledge Discovery I Data Bases.1

� Source: D. Hand,H. Mannila,P. Smyth(2001).Principles of Data Mining.MIT 2

Press,Cambridge

از این رو 3کند. ماشین میتواند با یادگیری این تغییرات خود را با آنها وفق دهد.

یادگیری ماشین در زمینه های گوناگونی اعم از کنترل روبات ها ،تشخیص گفتار ، شناسایی منت ، پردازش داده های اینترنتی ،بازی های ویدیویی و .... کاربرد دارد.!

!مدل سازی داده ها:!

در یادگیری ماشین با استفاده از تئوری اطالعات مدل های ریاضی ساخته می شود که میتوانند برای استنتاج استفاده شوند که به طور عمده به دو دسته تقسیم می شوند:

مدل پیشگویانه (Predictive) که برای پیش بینی موارد جدید بکار می روند. •

مدل مکن است توصیفی (descriptive) که دانش آن از داده یادگرفته میشود.!•

روش های یادگیری!

یادگیری با ناظر: این روش ، یک روش عمومی در یادگیری ماشین است که در آن به یک سیستم، مجموعه

کند تا تابعی از ورودی های ورودی – خروجی ارائه شده و سیستم تالش می‌ ای از جفت‌به خروجی را فرا گیرد. یادگیری تحت نظارت نیازمند تعدادی داده ورودی به منظور آموزش سیستم است.این که هم و ورودی و هم خروجی مشخص شوند، اصطالحا

!برچسب گذاری شدن گفته می شود !یادگیری بدون ناظر:

یک مجموعه از مثالهای یادگیری وجود دارد که در آن فقط مقدار ورودی ها مشخص است و اطالعاتی در مورد خروجی صحیح در دست نیست. یادگیری بدون ناظر

برای دسته بندی ورودیها و یا پیش بینی مقدار بعدی بر اساس موقعیت فعلی بکار هایی میرود. این نوع یادگیری بسیار مهم است چون دنیای ربات پر از ورودی‌

ها برچسبی اختصاص داده نشده اما به وضوح جزیی از یک است که به آن‌دسته هستند.

یادگیری نیمه نظارتی: های بدون برچسب و های یادگیری ماشین است که در آن از داده‌ ای از روش‌ دسته‌

زمان برای بهبود دقت یادگیری استفاده می‌شود. های برچسب‌دار به صورت هم‌ داده‌

! Knowledge Discovery راهبرد های مختلف در

�3

� Machine Learning, Tom Mitchell, McGraw-Hill 3

برای کشف دانش جدید ، توسط ماشین راهبرد های مختلفی وجود دارند، که این موارد از اهمیت بیشتر و کاربرد گسترده تری برخوردار هستند.!

. دسته بندی (Classifaction): ورودی ها به دسته های از پیش تعیین شده 1.نسبت داده می شود.!

خوشه بندی (Clustering ): سیستم تشخیص می دهد که کدام ورودی ها را با 2.هم در یک دسته (خوشه) قرار دهد.!

رگرسیون(Regression) : پیش بینی یک متغیر مبنی بر متغیر های 3.دیگر.

کشف قواعد وابستگی: از میان داده ها وابستگی ها کشف شوند. 4.

یادگیری از طریق درخت تصمیم: از طریق نگاشت درخت های تصمیم 5.مشاهدات قبلی می توان رفتار آتی را پیش بینی کرد.برای مثال می توان بر اساس تصمیمات بازیکنان در یک بازی را مدل کرد تا تصمیمات آتی آن ها

پیش بینی شود.

شبکه های بیزی:مجموعه ای متغیر های تصادفی و نحوه روابط آن هاست که 6.می تواند به منظور شناسایی هویت روابط احتمالی به منظور پیشگویی یا

ارزیابی کالس عضویت به کار رود.

گرفته از شیوه کارکرد سیستم عصبی 7. شبکه های عصبی: ایده این روش الهام‌ها، و اطالعات به منظور یادگیری و ایجاد دانش قرار زیستی، برای پردازش داده‌

است. عنصر کلیدی این ایده، ایجاد ساختارهایی جدید برای سامانه پردازش اطالعات است. این سیستم از شمار زیادی عناصر پردازشی فوق العاده

پیوسته با نام نورون تشکیل شده که برای حل یک مسأله با هم هماهنگ عمل بهم‌می‌کنند و توسط سیناپسها(ارتباطات الکترومغناطیسی) اطالعات را منتقل

ها قادر به یادگیریاند. برای مثال با اعمال سوزش به میکنند. این شبکه‌گیرند که به طرف جسم داغ نروند و با سلولهای عصبی المسه، سلولها یاد می‌

آموزد که خطای خود را اصالح کند. یادگیری در این این الگوریتم سیستم می‌گیرد، یعنی با استفاده ازمثالها وزن سیستمها به صورت تطبیقی صورت می‌

کند که در صورت دادن ورودیهای جدید، سیستم ای تغییر می‌ سیناپسها به گونه‌پاسخ درستی تولید کند.

!

�4

کاربرد عملی در بازی های ویدیویی !!

برای داده کاوی و یادگیری ماشین در زمینه بازاریابی، هوش تجاری ، حقوق بشر،هواشناسی، شناخت الگو ها و تحلیل شرایط کاربرد های گسترده ای دارد،

ولی مثالی که اینجا برای پایان مطلب آورده شده است ، مربوط به بکارگیری داده Forza کاوی و یادگیری ماشین در یک بازی ویدیویی تجاری است. بازی

Motorsport 5 جدیدترین بازی اتومبیل رانی شرکت مایکروسافت است که در دسامبر 2013 عرضه شده است.تکنولوژی که در هوش مصنوعی اتومبیل ها به کار

رفته است Drivetar نام دارد که توسط شبکه عصبی یادگیرنده ای پیاده سازی شده است.!

!�توسعه Drivetar به سه بخش اصلی تقسیم می گردد.!

راه ،جاده ،ویژگی های خودرو •کنترل خودرو و نگهداشنت آن در خط مورد نظر •استراتژی در مسابقه از قبیل بالک کردن ،سبقت گرفنت و .. •

Drivetar هر یک از این بخش ها را به صورت جداگانه مورد بررسی قرار می دهد. یعنی وقتی بازیکن در حال اجرای بازی است این اطالعات ذخیره شده و در

پایان بازی به سرور های مایکروسافت ارسال می گردند.در آنجا این اطالعات به دو

�5

جهت مختلف مورد پردازش قرار می گیرند. یادگیری الگوی رفتاری بازیکن در بازی جهت مقابله با بازیکن در دفعات بعدی بازی. و دیگری افزایش دانش هوش

مصنوعی برای بازی با دیگر بازیکنان. از این طریق با هر دفعه ای که یک بازیکن در دنیا این بازی را انجام می دهد. اطالعات جدیدی به هوش مصنوعی بازی

افزوده می گردد . در واقع وقتی که اولین بار بازی عرضه شده، هوش مصنوعی توسط عملکرد تیم 400 نفره سازندگان بازی Forza motorsport شکل گرفته بود

و بازیکنان با بازیکنی که شبیه این تیم رفتار می کند بازی می کردند.!

!!

!!!!!

�6

خلاصه ای درباب داده کاوی و یادگیری ماشین

Data & Analytics