فصل اول - download-thesis.com · web viewnew technologies, mobility and security (ntms). 29....

دانلود متن کامل درdownload-thesis.com

دانشکده مهندسی

افزار نرم مهندسی کامپيوتر-یی کارشناسی ارشد در رشتهپايان نامه

هاپيش بينی بهره کشی و خوشه بندی آسيب پذيريی متن کاویبوسيله

به کوشش......................

استاد راهنمادکتر اشکان سامی

1390شهريور ماه

http://download-thesis.com/


به نام خدا

کاویی متنها بوسيلهپذيريبندی آسيبکشی و خوشهبينی بهرهپيش

به کوشش..................

نامهپايانهایارائه شده به تحصيالت تکميلی دانشگاه به عنوان بخشی از فعاليت

تحصيلی الزم برای اخذ درجه کارشناسی ارشد

یدر رشتهافزار)مهندسی کامپيوتر (نرم از دانشگاه شیراز

شیراز جمهوری اسالمی ايران



ارزيابی شده توسط کميته پايان نامه با درجه:عالی، استاديار بخش مهندسی کامپیوتر )رئیس کمیته(............................................دکتر اشکان سامی، استاديار بخش مهندسی کامپیوتر .......................................................................دکتر رضا بوستانی

، استاديار بخش مهندسی کامپیوتر.....................................................................دکتر شهرام جعفری

90شهريور ماه

تقديم به مهربان فرشتگانی که لحظات ناب باور بودن، لذت و غرور دانستن،

هایجسارت خواستن، عظمت رسیدن و تمام تجربههاست يکتا و زيبای زندگیم، مديون حضور سبز آن

تقديم به خانواده عزيزم



سپاسگزاری ام بخش0ید، ب0ه طري0ق علم و دانش راهنم0ايی و ب0هکران پروردگار يکت00ا را ک0ه هس0تیسپاس بی

همنشینی با رهروان اين راه مفتخرم کرد، و خوشه چینی از علم و معرفت را روزيم قرار داد. دانم ازاکنون که به ياری خداوند توانستم اين پاي00ان نام00ه را ب00ه انج00ام برس00انم، برخ00ود الزم می

-ی سروران و عزيزانی که در انجام اين پايان نامه من را مورد لطف و عنايت خود قرار دادهکلیه اند، کمال تشکر و قدردانی را ابراز نمايم. خصوصاً از استاد راهنمای بزرگوارم جناب آقای دک00تر

هايشان، و نیز از اساتید مشاورم جناب آق0ایدريغ و راهنمايیهای بیاشکان سامی به خاطر حمايت دکتر رضا بوستانی و جناب آقای دکتر شهرام جعفری نهايت تشکر را دارم و موفقیت روز اف00زون

ايشان را از درگاه ايزد مّنان خواهانم. ها را برايم هموار ساختند و ص00میمانه م00را ي00اریدر پايان از پدر و مادرم که بسیاری از ناهمواري

کردند نهايت سپاسگزاری را دارم و سالمتی و بهروزی ايشان را از خداوند متعال خواستارم.

که دراز است ره مقصد و من نوسفرمی راه کن ای طاير قدسهمتم بدرقه



چکيدهی متن کاویها بوسيلهپيش بينی بهره کشی و خوشه بندی آسيب پذيري

توسطعاطفه خزاعی قوژدی

تواند منجر به تلفات مالی و اطالعاتی شود. ب00ه علت مح00دود ب00ودن من00ابع م00الی وهای نرم افزار میآسیب پذيري باشد. پیش از اين پژوهش، تعداد زيادی از محقق00ان آس00یبها بسیار مورد توجه میانسانی، اولويت دهی به آسیب

ها، فراهماند. اماگاهی طبیعت متغییر آسیب پذيريهای تجربی و آماری، رده بندی کردهها را براساس دانشپذيريکند.ها را غیر ممکن میکردن يک معیار رده بندی برای آن

-شوند. اطالعات متنی آسیب پذيريهای مختلف ثبت میهای آسیب پذيری، به طور پیوسته در پايگاه دادهگزارش گ00یرد. اين پ00ژوهش نش00ان داد ک00ه ازها، به طور کامل توسط ابزارهای اتوماتیک موجود، مورد استفاده ق0رار نمی

توان استفاده کرد. متن کاوی ابزاری مناسب ب00رای ب00هگو میهای پیشها برای ساخت مدلاطالعات موجود در متنباشند. دست آوردن اطالعاتی است که در اخذ تصمیمات مهم مديريتی موثر می

در زمینه پیش بینی بهره کشی با استفاده از متن کاوی، تاکنون فقط يک تحقیق انجام شده است. اين تحقی00قفراتر از اکتشافی: آم0وزش ب0رای، کالس بن0دی آس0یب پ0ذيری و پیش بی0نی به0رهKDD2010در "، با عنوان

"کشی ارائه شده است. اين تحقیق به سواالت زير، با استفاده از متن کاوی پاسخ داده است: آيا از آسیب پذيری بهره کشی خواهد شد؟ چه زمانی از آسیب پذيری موجود به00ره کش00ی خواه00د ش00د؟ اين مقال00ه در مقايس00ه ب00ا

CVSSهای معروف آسیب پذيری است( ب0ه نت00ايج خ0وبی رس0یده اس0ت. در اين پ0ژوهش ب0ه)که يکی از متريک سواالت فوق و به سواالت جديد زير دقت بااليی پاسخ داده شده است:

ه0ااگر سیستمی مورد بهره کشی قرار گرفته، چه زمانی اين بهره کشی آغاز شده اس0ت؟ )دقت پاس0خ%(84-94.5بین

اگر سیستمی آسیب پذير است، چه زمانی بسته اصالح شده آن از سوی سازندگان ارائه خواه00د ش00د؟%(68-91ها بین )دقت پاسخ

دارایOSVDBها، تاکنون تحقیقات زي00ادی انج00ام ش00ده اس00ت. پايگ0اه داده در زمینه خوشه بندی آسیب پذيري ه0ا ب0ر اس00اس توص0یف آس0یبباشد، اما هیچ ي0ک از اين دس0تهها میهای مختلفی برای آسیب پذيريدسته بندي

ه00ایاند، ک00ه دس00تههايشان خوشه بندی شدهها با استفاده از توصیفها نیست. در اين تحقیق آسیب پذيريپذيري حاصل عبارتند از: سرريز بافر، رد سرويس، دستکاری داده، کنترل از راه دور، پیکربندی نامناسب، شکاف در رمز

-ها به دس00تهعبور، دسترسی غیر مجاز به اطالعات، و دسترسی غیر مجاز به سرويس. برای انتساب آسیب پذيري باش00د. دس00تههای مناسب به صورت دستی به تجربه نیروی انسانی نیاز است و انجام اين کار بسیار مالل آور می

-ها را به طور خودکار به دس00تهبندی ارائه شده در اين پژوهش، امکان ساخت نرم افزاری که بتواند آسیب پذيريکند. های مناسب نسبت دهد، را فراهم می

ها که(، و اطالعات تاريخ آسیب پذيريCVEو OSVDBها )در اين پژوهش از دو پايگاه داده معروف آسیب پذيري ه00ایاستفان فری در اختیارمان قرار داد، استفاده شده است. برای پیش بینی بهره کشی از کالس بندی کنن00ده

ماشین بردار پشتیبانی و جنگل تصادفی، و برای انجام خوشه بندی از روش نگاش00ت خ00ود س00ازمانده نوخاس00تهاستفاده شده است.

فهرست مطالب

صفحهعنوان1فصل اول: مقدمه

2-آسیبپذيری1-12-تعريف آسیبپذيری1-1-13- کالس بندی آسیبپذيريها1-1-2

4هاهای ايجاد آسیبپذيري- علت1-1-35- شناسايی و حذف آسیبپذيريها1-1-4

5ی مورد نیاز- مفاهیم اولیه1-25- متن کاوی1-2-1

د



8بندی و پیش بینی- کالس1-2-212بندی- خوشه1-2-314- انتخاب ويژگی1-2-4

16- هدف تحقیق1-318فصل دوم: مروری بر تحقيقات پيشين

19ها- نقش افراد و فرآيندهای مختلف بر آسیبپذيري2-124های ارزيابی و رده بندی آسیبپذيريها- روش2-2

25- سیستم نمره دهی آسیبپذيری متعارف2-2-130ها- دسته بندی آسیب پذيري2-336هاهای آسیب پذيريهای امنیتی با استفاده از گزارش- پیش بینی2-436ها با استفاده از سورس کد نرم افزارها- تشخیص آسیب پذيري2-5

39هاهاوروشاستخراجويژگيفصل سوم: داده40های تحقیق- داده3-144بینیبندی و پیشها برای کالس- روش استخراج ويژگی3-247بندیها برای خوشه- روش استخراج ويژگی3-3

50فصل چهارم: روش انجام و نتايج آزمايشات51بینیبندی و پیش- روش و نتايج آزمايشات کالس4-1

51بینی بهره کشی برون خط- پیش4-1-154بینی بهره کشی برخط- پیش4-1-256بینی زمان- پیش4-1-3

CVE62 و OSVDB- مقايسه 4-264- ارزيابی ويژگیها4-366- خوشه بندی آسیب پذيريها4-4

OSVDB68- تحلیل دستههای موجود در پايگاه داده 4-4-178ها- ارائه دسته بندی آسیب پذيري4-4-284بندی ارائه شده- ارزيابی دسته4-4-3

87گيریفصل پنجم: بحث و نتيجه88ها- پیش بینی بهره کشی از آسیب پذيري5-189ها- خوشه بندی آسیب پذيري5-2

89نتیجه گیری90های آيندهپیشنهادات برای پژوهش

91منابع و ماخذ

ه



فهرست جدولها

صفحهعنوان47: ويژگیهای استخراج شده از هر صفت1- 3جدول 52: دسته بندی بهره کشی آسیب پذيريها و نحوه برچسب زنی1- 4جدول : نتايج پیش بینی بهره کشی برون خط برای تعداد کالس بندی کنندههای2- 4جدول مختلف

5354 کالس بندی کننده 9: دقت پیش بینی در آزمايش برون خط برای 3- 4جدول روز آينده بهره کشی خواهد شد ياT: پیش بینی اينکه آيا از آسیب پذيری در 4- 4جدول

نه58

روز آينده بهره کشی خواهد شد ياT: پیش بینی اينکه آيا از آسیب پذيری در 5- 4جدول قسمتی10 اعتبار متقاطع 10نه با روش

58 روز گذشته بهره کشی شده است ياT: پیش بینی اينکه آيا از آسیب پذيری در 6- 4جدول

نه59

روز گذشته بهره کشی شده است ياT: پیش بینی اينکه آيا از آسیب پذيری در 7- 4جدول قسمتی10 اعتبار متقاطع 10نه، با روش

5960 روز آينده ارائه خواهد شد يا نهT: پیش بینی اينکه آيا بسته اصالح شده در 8- 4جدول روز آينده ارائه خواهد شد يا نه، باT: پیش بینی اينکه آيا بسته اصالح شده در 9- 4جدول قسمتی10 اعتبار متقاطع 10روش

6061: نتايج متوازن سازی، نامتوازنترينگروههای پیش بینی زمانی10- 4جدول 63 در پیش بینی بهره کشی برون خطCVE و OSVDB: مقايسه 11- 4جدول برای پیش بینی زمان بهره کشی برای آسیبCVE و OSVDB: مقايسه 12- 4جدول

مثبت–پذيريهای روز 64

برای پیش بینی زمان بهره کشی برای آسیبCVE و OSVDB: مقايسه 13- 4جدول منفی–پذيريهای روز

64

64 برای پیش بینی زمان ارائه بسته اصالح شدهCVE و OSVDB: مقايسه 14- 4جدول 65: گزارش مختصری از ويژگیهای انتخاب شده15- 4جدول OSVDB67: انواع دسته بندی آسیب پذيری موجود در 16- 4جدول 80: درصد کل نمونههادرهردسته17- 4جدول 81: نمونهای از آسیب پذيريهای هر دسته18- 4جدول 83: نمونهای از آسیب پذيريهای دارای همپوشانی در دستهها19- 4جدول ESOM85: فاصله منهتن برای دستههابهروش20- 4جدول 85- میانگینK: فاصله منهتن برای دستههابهروش21- 4جدول

و



فهرست تصاوير

صفحهعنوان7: مراحل متعارف متن کاوی1- 1تصوير : چرخه آسیب پذيری تعريف شده بوسیله رويدادهای مشخص. توالی دقیق1- 2تصوير

(16رويدادها بین آسیب پذيريها متفاوت است )برگرفته از 20

: فرآيندهای اصلی اکوسیستم امنیتی و رابطه رويدادهای چرخه آسیب پذيری2- 2تصوير (16)برگرفته از

2125(24 )برگرفته از CVSS: متريکهای3- 2تصوير 25(24 )برگرفته از CVSS: وابستگی متريکهای4- 2تصوير CVSS26: فرمول معیار پايه در 5- 2تصوير CVSS27: فرمول معیار زمانی در 6- 2تصوير CVSS28: فرمول معیار محیطی در 7- 2تصوير

ز



29(29: مدل ساده شدهای از چرخه آسیب پذيريها )برگرفته از 8- 2تصوير )محور افق زمان8-2 برای تصوير P3 و P0، P1، P2: احتماالت محاسبه شده؛ 9- 2تصوير

t 29 را نشان میدهد( )برگرفته از)30

41(44 )برگرفته از OSVDB: شمای پايگاه داده 1- 3تصوير 43: مراحل پیش پردازش دادههابرای پیش بینی بهره کشی2- 3تصوير 44: مراحل پیش پردازش دادههابرای خوشه بندی آسیب پذيريها3- 3تصوير 46: مراحل استخراج ويژگیها برای کالس بندی و پیش بینی4- 3تصوير 49: مراحل استخراج ويژگیها برای خوشه بندی5- 3تصوير ESOM70: پارامترهای ورودی1- 4تصوير دسته، تعدادk ويژگی، الگوريتم آموزش 1359 با ESOM: اجرای خوشه بندی2- 4تصوير ، روش وزن دهی اولیه گوسی20،تعدادگامهای آموزش 50 وتعدادسطرها 82ستونها

71 ويژگی، الگوريتم آموزش برخط، تعداد1359 با ESOM: اجرای خوشه بندی3- 4تصوير ، روش وزن دهی اولیه گوسی20،تعدادگامهای آموزش 50 وتعدادسطرها 82ستونها



74 دسته، تعدادk ويژگی، الگوريتم آموزش 586 با ESOM: اجرای خوشه بندی6- 4تصوير ، روش وزن دهی اولیه گوسی40،تعدادگامهای آموزش 120 وتعدادسطرها 100ستونها

75 ويژگی، الگوريتم آموزش برخط، تعداد586 با ESOM: اجرای خوشه بندی7- 4تصوير ، روش وزن دهی اولیه انتخاب اعداد30،تعدادگامهای آموزش 60 وتعدادسطرها 90ستونها

برابر انحراف2 برابر انحراف معیار تا میانگین بعالوه 2تصادفی از فاصله میانگین منهای معیار

76

دسته، تعدادk ويژگی، الگوريتم آموزش 586 با ESOM: اجرای خوشه بندی8- 4تصوير ، روش وزن دهی اولیه انتخاب اعداد30،تعدادگامهای آموزش 60 وتعدادسطرها 90ستونها

برابر انحراف2 برابر انحراف معیار تا میانگین بعالوه 2تصادفی از فاصله میانگین منهای معیار

77

78: نمونههايیازنقشههای بررسی شده 9- 4تصوير 79: خوشههای انتخاب شده بروی نقشه مشخص شده است. 10- 4تصوير 82: نقشههای از اجرا با پارامترهايیکسان11- 4تصوير

ح



فهرست نمودارها

صفحهعنوان : درصد خطای تجمعی کل، خطای منفی غلط و خطای مثبت غلط در آزمايش1- 4نمودار برخط

55 و جنگل تصادفی )برگرفته ازSVMهایهابردقتپیشبینی روش: تاثیر تعداد نمونه2- 4نمودار

(53))62

ط


فصل اول

مقدمه

1آسيب پذيری- 1-1

در مباحث امنیت کامپیوتر، يک آسیب پذيری، ضعفی است که برای مهاجم امکان سوء استفاده شوند وکند. ساالنه هزاران آسیب پذيری کشف و گزارش میاز اطالعات يک سیستم را فراهم می

گردد. برای بهره کش00ی از آس00یبها میها دالر در سرتاسر دنیا صرف مقابله با آسیب پذيريمیلیون پذيری يک سیستم عموماً به سه عامل نیاز است: حساس00یت ي00ا نقص00ی در سیس0تم، دسترس00ی

(.1مهاجم به نقص و توانايی مهاجم برای بهره کشی از نقص )

- تعريف آسيب پذيری1-1-1 ان00د.آسیب پذيری از جمله مفاهیمی است که منابع مختلف تعاريف متفاوتی را برايش ارائه داده

توان به موارد زير اشاره کرد:از جمله اين تعاريف میISO 27005تواند توسط فرد يا گروهی از افرادها که می: ضعف يک دارايی يا گروهی از دارايی

(. در اين تعريف دارايی به معنای ه00ر چ00یزی ک00ه ب00رای س00ازمان2مورد بهره کشی قرار گیرد )ارزشی داشته باشد، است، برای مثال منابع اطالعاتی مورد حمايت سازمان.

IETF RFC 2828،يک عیب يا ضعف در طراحی، پیاده سازی، عملکرد يا مديريت سیستم : (.3تواند باعث بهره کشی، در جهت نقض سیاست امنیتی سیستم شود )که می

،4009شماره CNSS، در دستورالعمل 2های امنیتی اياالت متحده آمريکاکمیته ملی سیستم ،IS، واژه نامه تضمین اطالعات ملی: آس00یب پ00ذيری ض00عف در ي00ک 2010 آوريل 26در تاريخ

تواند منجر به بهره کش00یهای داخلی يا پیاده سازی است، که میهای امنیتی سیستم، کنترلروش(.4شود )

ENISAوجود يک ضعف طراحی يا خطای پیاده سازی ک0ه بتوان0د منج0ر ب0ه روي00داد غ0یر : منتظره نامطلوبی شود، که اين رويداد امنیت سیستم کامپیوتر، شبکه، برنامه ي00ا پروتک00ل را ب00ه

(.5خطر اندازد )(.6: حالتی که قدرت مهاجم بیش از قدرت مقاومت در برابر آن باشد )3گروه باز

: احتمال اينکه يک دارايی قادر به مق00اومت در براب00ر(FAIR)4تحلیل عاملی از خطر اطالعات(. 7عوامل خطر نباشد )

و5امنیت داده و کامپیوتر، فرهنگ لغات مفاهیم و لغات استاندارد، نويسندگان دنیس النگلی: ISBN 0-935859-17-9، 7، استاکتون پرس6مايکل شین

1 Vulnerability

2 The committee on National Security Systems of United States of America

3 Open Group

4 Factor Analysis of Information Risk

5 Dennis Longley

6 Michael Shain88

های ن00اظران،های خودکار شده، کنترلدر امنیت کامپیوتر، ضعف کارکرد امنیتی سیستم.1 های اينترنت و غیره، که بتوانند بوسیله يک مه00اجم ب0ا دسترس0ی غ0یر مج00از ب0هکنترل

اطالعات، پردازش اطالعات را مختل کنند. در امنیت کامپیوتر، يک ضعف در اليه فیزيکی، سازمان، ک00ارکرد، کارکن00ان، م00ديريت،.2

ها با هدف آسیب رس00اندنسرپرستی، سخت افزار يا نرم افزار که امکان بهره کشی از آن وجود داشته باشد. به سیستم يا فعالیت

در امنیت کامپیوتر، هر ضعف يا نقص موجود در يک سیستم، حمل00ه، روي00داد مض00ر ي00ا.3 فرصت دسترسی برای يک عامل تهديد کننده، که امکان تهديد را ب00رای عام00ل ف00راهم

کند، را آسیب پذيری گويند.

ها- کالس بندی آسيب پذيري1-1-2(:2شوند )های زير تقسیم میها، براساس نوع دارايی به دستهآسیب پذيري

سخت افزار، برای مثال: حساسیت به رطوبت، حساسیت به گرد و غبار، استعداد ابتال به ذخیره سازی محافظت نشده.

.نرم افزار، برای مثال: تست ناکافی، فقدان پیگیری.شبکه، برای مثال: خطوط ارتباطی محافظت نشده، معماری شبکه ناامنهای امنیتی ناکافی.کارکنان، برای مثال: روند جذب ناکافی، آگاهی.مکان، برای مثال: منطقه مستعد سیل،منبع برق غیر قابل اعتمادها.سازمانی، برای مثال: عدم پیگیری منظم، عدم تداوم برنامه

هاهای ايجاد آسيب پذيري- علت1-1-3ها عبارتند از:های ايجاد آسیب پذيريبرخی از منابع و علت

ه00ایپیچیدگی سیستم: احتمال وجود نقص و نق00اط دسترس00ی ناخواس00ته در سیس00تم (.8بزرگ پیچیده، بیشتر است )

ها يا س00خت افزاره00ایمتعارف بودن سیستم: استفاده از کدها، نرم افزارها، سیستم عامل معمول و معروف، احتمال اينکه يک مهاجم بتواند به دانش و ابزار، جهت بهره کش00ی از

(.9دهد )نقص موجود دسترسی پیدا کند، را افزايش میه00ای بیش00تر و اف00زايشه00ا و س00رويسها، پروتکل، پورت1اتصال: اتصاالت فیزيکی، امتیازات

(. 7دهد )ها را افزايش میها، دسترسی پذيری به آسیب پذيريمدت زمان هر يک از آننقص در مديريت پسوردها: کاربران کامپیوتر از پسوردهای ضعیفی که با تالش ان00دکی

کنند، و اينها ذخیره میها را در برخی برنامهکنند يا اينکه آنشوند، استفاده میکشف می(. 8 مشترک است )ها و صفحات وبپسوردها بین بسیاری از برنامه

هايیها، عموماً سیاستهای اصلی: طراحان سیستم عاملهای طراحی در سیستم عاملنقص ه00ا،گزينند. برای مثال سیستم عام00لکه کمتر کاربر/مدير سیستم را درگیر کنند را برمی

های اعطای مجوز به هر برنامه و دسترسی کامل کاربران ب00ههايی مثل پیش فرضسیاست ها و بدافزارها، اج00ازه اج00رایها، به ويروسهای سیستم عامل(.اين نقص8سیستم را دارند )

(. 1دهد )دستوراتی از طرف مدير را می

7 Stockton Press

1Privileges89

ه00ا ي00ا تبلیغ00اتهای اينترن00تی دارای جاس00وسهای اينترنت: برخی وب سايتسايتمرور وب ه00ای ک00امپیوتری نص00بتوانند به صورت خودکار روی سیستمخطرناکی هستند، که می

شوند، اطالعات شخصی جم00عها آلوده میها سیستمشوند. بعد از بازديد از اين وب سايت(. 10شود )آوری شده و برای شخص ثالث فرستاده می

های نرم اف00زاری وج00وداشکالت نرم افزاری: اشکالت قابل بهره کشی در بسیاری برنامه دارد. اشکالت نرم افزاری ممکن است ب00ه مهاجم00ان اج00ازه س00وء اس00تفاده از برنام00ه را

(. 8بدهند )ه00ای ک00اربر امنی وروديکنندک00ه هم00هها فرض میهای کاربر کنترل نشده: برنامهورودي

کنند، در واقع امکان اجرای مستقیمهای کاربر را بررسی نمیهايی که ورودياست. برنامه(.8کنند )ها را فراهم میدستورات ناخواسته و دستکاری در پايگاه داده

ها- شناسايی و حذف آسيب پذيري1-1-4 ه00ایهای زيادی در جهت ساخت نرم افزارهايی ب00ا ق00ابلیت کش00ف خودک00ار آس00یب پ00ذيريتالش

توانن00د در ب00رخی م00واردهای کامپیوتری انجام شده است. اگرچه نرم افزارهای موجود میسیستم توانند جايگزين بررسیهای سیستم فراهم کنند، اما نمیديد کلی خوبی را نسبت به آسیب پذيري

ه00ایها شوند. تکیه بر گزارشات اسکنرها، ديد محدود همراه ب00ا تش00خیصانسانیروی آسیب پذيري ی نرم افزارهای اساسی مثل سیستمها در همهاشتباه زياد، به همراه خواهد داشت. آسیب پذيري

ها نصب بسته نرم افزاری اص00الحها وجود دارند. گاهی اوقات تنها راه حل اساسی مقابله با آنعامل ه00ايی مث00لشده آن محصول است و در فاصله زمانی کشف تا ارائ00ه بس00ته ن00رم اف00زاری ب00ا روش

-ه00ا، میهای دسترسی توسط ناظران سیستماستفاده از ديوار آتش و يا نظارت مستقیم بر کنترل های نظارت مستقیم ب00رتوان جلوی سوء استفاده از سیستم را گرفت. الزم به ذکر است که روش

ها، هم از نظر مالی و هم از نظر نیروی انسانی بسیار هزينه بر هستند.سیستم

ی مورد نيازمفاهيم اوليه- 1-2

- متن کاوی1-2-1

بلکه کمبود دانش00یمشکلی که دنیای امروز با آن رو به رو است، کمبود يا نبود اطالعات نیست-ها کلمه در کتابخان00هی وب، میلیونها صفحه میلیون.است که از اين اطالعات میتوان حاصل کرد

های ديجیتال و هزاران صفحه اطالع00ات در ه00ر ش00رکت، تنه00ا بخش00ی از اين من00ابع اطالع00اتی توان به طور مشخص منبعی از دانش را در اين بین معرفی ک00رد. دانش حاص00لیهستند. اما نمی

آي00د. ه00دف داده ک00اویاست که از نتیجه گیری و فکر و تحلیل بر روی اطالع00ات ب00ه دس00ت می-ه00ا میها و استخراج دانش از میان آنهای موجود در پايگاه دادهمشخص کردن روابط میان داده

ه00ای داده ک00اوی و کس00بهای موجود ساخت يافته باشند اس00تفاده از روشباشد. زمانی که داده ش00ود وها ساده است. اما امروزه بخش زيادی از اطالعات به صورت متن نگه00داری میدانش از آن

هايی غیر ساخت يافته هستند. يک فرد ب00رای دري00افت دانش از اطالع00ات ي00ک متن،ها دادهمتن بايستی ابتدا آنرا درک کند، تا بفهمد چه معانی و مفاهیمی در آن موجود است و چ00ه ارتب00اطی میان مفاهیم وجود دارد. با اين حال عصر تکنولوژی به دنبال خودکارسازی است، حتی اگ00ر اين

درک معنی متن باشد ) "کار "11 .) هايی که ب00ه ن00وعی ب00ه دنب00ال کس00ب دانش از متن هس00تند را ش00املمتن کاوی تمام فعالیت

های يادگیری ماشین، بازي00ابی اطالع00ات هوش00مند،های متنی توسط روشمی گردد. تحلیل داده

90

مراح00ل1-1های متن کاوی قرار می گیرند. تصوير پردازش زبان طبیعی، همگی در دسته فعالیت ه00ايی ب00رایده00د. اولین گ00ام در متن ک00اوی اس00تفاده از روشمتع00ارف متن ک00اوی را نش00ان می

ای از کلمات و عبارات زبان طبیعی تشکیل شدهها است. متن از مجموعهساختارمند نمودن متن هاکنند و سپس آنهای متن کاوی ابتدا کلمات و عبارات، را از متن استخراج میاست. عموماً روش

دهند، برای مثال برخی کلمات مث0ل ح0روف اض0افه و ض0ماير ح0ذف، ورا مورد پردازش قرار می ه00ایه00ا ب00ه روششوند. سپس مشخص00ات اس00تخراج ش00ده از متنیابی میکلمات باقی مانده ريشه

گ00ر ظ00اهرتوان ب00ه مق00داردهی دودويی )بی00انها میشوند، از میان اين روشمختلفی مقداردهی می (.در اين12اش00اره ک00رد )TF-IDFشدن/ نشدن کلمه در متن است(، فراوانی کلمه در متن، وزن

استفاده شده است، که در قسمت بعد درباره اين روش توضیحTF-IDFدهی تحقیق از روش وزن ه00ا س00اخته و ازداده خواهد شد. با استفاده از مقادير به دست آمده بردارهای ويژگی ب00رای داده

شوند. پس از آنهای آموزش و تست کالس بندی کننده انتخاب میها، دادهی دادهبین مجموعه ه0ای آم00وزش،شود. کالس بن0دی کنن0ده ب0ا اس0تفاده از دادهيک روش کالس بندی انتخاب میشود. های تست ارزيابی میآموزش داده و با استفاده از داده

مراحل متعارف متن کاوی.: 1- 1تصوير

1 معکوس فراوانی سند–دهی فراوانی واژه روش وزن- 1-2-1-1

به طور کلی اهمیت يک کلمه در مجموعه اسناد با دو شاخص مشخص می شود: يکی فراوانی

1 Term Frequency – Inverse Document Frequency (TF-IDF)91

منابع و ماخذ1. The Three Tenents of Cyber Security, U.S. Air Force Software Protection

Initiative. http://www.spi.dod.mil/tenets.htm. (Last visited 2011-07-10).2. ISO/IEC, Information technology- Security techniques-Information security

risk management, ISO/IEC FIDIS 27005:2008.3. Internet Engineering Task Force RFC 2828 Internet Security Glossary4. CNSS Instruction No.4009, dated 26 April 2010.5. Risk Management Glossary Vulnerability, (Last visited 2011-08-23) http://www.enisa.europa.eu/act/rm/cr/risk-management-inventory/glossary#G52 .6. Technical Standard Risk Taxonomy ISBN 1-931624-77-1, Document Number:

C081 Published by the Open Group, January 2009.7. An Introduction to Factor Analysis of Information Risk (FAIR), Risk

Management Insight LLC, November 2006. URL: www.riskmanagementinsight.com.

8. Vacca, J.R., 2009. Computer and Information Security Handbook, Morgan Kaufmann Pubblications Elsevier Inc p. 393, ISBN 978-0-12-374354-1.

9. Krsul, I., 1997, Computer Vulnerability Analysis: Thesis Proposal, The COAST Laboratory Department of Computer Sciences, Purdue University.

10. The Web Application Security Consortium Project, Web Application Security Statistics (Last visited 2011-08-23),

http://projects.webappsec.org/w/page/13246989/Web-Application-Security-Statistics.

11. Han, J., AND Kamber, M., 2001. Data Mining: Concepts and Techniques. Morgan Kaufman.

12. Witten, I.H., AND Frank, E., 2000. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann, San Francisco.

13. Kohonen T. Self-organizing maps. Berlin, Germany: SpringerVerlag; 1995. 14. Ultsch, A., and Morchen F., 2005. ESOM-Maps: tools for clustering,

visualization, and classification with Emergent SOM. Technical Report 46, CS Department, Philipps-University Marburg, Germany.

15. Duan KB, Rajapakse JC, Wang H, Azuaje F, 2005. Multiple SVM-RFE for gene selection in cancer classification with expression data. IEEE Trans Nanobioscience 4: 228–234. URL http://view.ncbi.nlm.nih.gov/pubmed/1622 0686.

16. Frei, S., Schatzmann, D., Plattner B., AND Trammel., B., 2009. Modeling the Security Ecosystem — The Dynamics of (In)Security. In Proc. of the Workshop on the Economics of Information Security (WEIS).

17. Arora, A., Krishnan, R., Telang, R., AND Yang, Y. 2010. An Empirical Analysis of Software Vendors’ Patch Release Behavior: Impact of Vulnerability Disclosure. Information Systems Research Vol. 21, No. 1,115–132.

18. Schryen, G., 2009. A Comprehensive and Comparative Analysis of the Patching Behavior of Open Source and Closed Source Software Vendors. Fifth

93

http://view.ncbi.nlm.nih.gov/pubmed/1622%E2%80%8B0686

http://view.ncbi.nlm.nih.gov/pubmed/1622%E2%80%8B0686

http://projects.webappsec.org/w/page/13246989/Web-Application-Security-Statistics#APPENDIX2ADDITIONALVULNERABILITYCLASSIFICATION

http://projects.webappsec.org/w/page/13246989/Web-Application-Security-Statistics#APPENDIX2ADDITIONALVULNERABILITYCLASSIFICATION

http://www.riskmanagementinsight.com/

http://www.enisa.europa.eu/act/rm/cr/risk-management-inventory/glossary#G52

http://www.enisa.europa.eu/act/rm/cr/risk-management-inventory/glossary#G52

http://www.spi.dod.mil/tenets.htm

International Conference on IT Security Incident Management and IT Forensics, 153-168.

19. Joh, H.C., AND Malaiya, YK., 2009. Seasonal variation in the vulnerability discovery process. Proc. International Conference on Software Testing Verification and Validation, 191-200.

20. United States Computer Emergency Readiness Team (US-CERT). US-CERT Vulnerability Note Field Descriptions, (last visited 2011-07-10). http://www.kb.cert.org/vuls/html/fieldhelp.

21. SANS Institute. SANS Critical Vulnerability Analysis Archive. (last visited 2011-07-10). http://www.sans.org/newsletters/cva/.

22. Microsoft Corporation. Microsoft Security Response Center Security Bulletin Severity Rating System. (last visited 2011-07-10). http://www.microsoft.com/technet/security/bulletin/rating.mspx.

23. Forum of Incident Response and Security Teams (FIRST). Common Vulnerabilities Scoring System (CVSS). http://www.first.org/cvss/ (last visited 2011-07-10).

24. Mell P., Scarfone K., and Romanosky S., 2007. The Common Vulnerability Scoring System (CVSS) and Its Applicability to Federal Agency Systems. NIST Interagency Report 7435.

25. Mell, P., Scarfone, K., Romanosky, S., 2006. Common Vulnerability Scoring System. IEEE Security and Privacy 4(6). 85-89.

26. Gallon, L., 2010, On the impact of environmental metrics on CVSS scores, IEEE International Conference on Privacy, Security, Risk and Trust, 987-992.

27. Fruhwirth, C., and Mannisto, T., 2009, Improving CVSS-based vulnerability prioritization and response with context information, Third International Symposium on Empricial Software Engineering and Measurement, 535-544.

28. Gallon, L., 2011, Vulnerability discrimination using CVSS framework, New Technologies, Mobility and Security (NTMS).

29. Joh, H.C. and Malaiya, Y.K., A framework for software security risk evaluation using the vulnerability lifecycle and CVSS metrics, 430-434.

30. Bishop M. A taxonomy of UNIX system and network vulnerabilities. Technical Report CSE-9510. Davis: Department of Computer Science, University of California; 1995.

31. Krsul IV. Software vulnerability analysis. Available from: http://www.krsul.org/ivan/articles/main.pdf; May 1998.

32. Venter HS, Eloff JHP. Harmonising vulnerability categories. South African Computer Journal 2002;29. ISSN: 1015-7999:24–31. Computer Society of South Africa.

33. Kujawski P. Why networks must be secured. Cisco Systems, Inc.;2003.34. Microsoft Commerce Server 2002. The STRIDE threat model. Available

from: http://msdn2.microsoft.com/en-us/library/ms954176.aspx; (last visited 2011-07-10).

35. SAINT Corporation. Available from: http://www.saintcorporation.com/; (Last visited 2011-07-10).

36. SFProtect. Available from: http://www.winnetmag.com/Article/ArticleID/8401/8401.html; (Last visited

2011-07-10).37. MOREnet. Available from:

94

http://www.winnetmag.com/Article/ArticleID/8401/8401.html

http://www.saintcorporation.com/

http://msdn2.microsoft.com/en-us/library/ms954176.aspx

http://www.krsul.org/ivan/articles/main.pdf

http://www.first.org/cvss/

http://www.microsoft.com/technet/security/bulletin/rating.mspx

http://www.kb.cert.org/vuls/html/fieldhelp

http://www.more.net/services/rva/categories.html; (last visited 2011-07-10).38. Venter H. S., Eloff J. H. P., and Li Y. L., Standardising vulnerability

categories, Computers & Security In Press, Corrected Proof.39. Huang, S., Tang, H., Zhang, M., AND Tian, J., 2010. Text Clustering on

National Vulnerability Database. Computer Engineering and Applications (ICCEA).

40. Bozorgi, M., Saul, L.K., Savage, S., AND Voelker., G.M., 2010. Beyond Heuristics: Learning to Classify Vulnerabilities and Predict Exploits. KDD’10.

41. Shin, Y., 2008. Exploring complexity metrics as indicators of software vulnerability. In Proc. of the Int. Doctoral Symp. On Empirical Soft. Eng. (IDoESE'08).

42. Shin, Y., AND Williams, L., 2008. An empirical model to predict security vulnerabilities using code complexity metrics. Proc. International symposium on Empirical Software Engineering and Measurement, Kaiserslautern, Germany, pp. 315-317.

43. Neuhaus, S., Zimmermann, T., Holler, C., AND Zeller, A., 2007. Predicting vulnerable software components. In Proc. of the ACM conference on Computer and communications security.

44. OSVDB. The Open Source Vulnerability Database. http://osvdb.org/ (last visited 2011-07-10).

45. CVE Editorial Board. Common Vulnerabilities and Exposures: The Standard for Information Security Vulnerability Names. http://cve.mitre.org/ (last visited 2011-07-10).

46. The Word Vector Tool, http://wvtool.sf.net (last visited 2011-07-10).47. StatistiXL PCA tool, http://www.statistixl.com/. 48. LIBLINEAR –A Library for Large Linear Classification.

http://www.csie.ntu.edu.tw/~cjlin/liblinear/ (last visited 2011-07-10).49. Random Jungle, http://www.randomjungle.org (last visited 2011-07-10).50. Personal Communication with Mehran Bozorgi via Email (Feb 9, 2011).51. Personal Communication with Brian Martin via Email (Feb 13, 2011).52. Databionics ESOM Tool, http://databionic-esom.sourceforge.net/ (last visited

2011-07-10).53. Sordo, M., and Zeng, Q., 2005. On sample size and classification accuracy: A performance comparison. LNCS, 3745:193-201.

95

http://databionic-esom.sourceforge.net/

http://www.statistixl.com/

http://cve.mitre.org/

http://osvdb.org/

http://www.more.net/services/rva/categories.html

Abstract

Exploit Prediction and Vulnerability Clustering Using Text Mining

BYAtefeh Khazaei Ghoujdi

Software vulnerabilities can lead to monetary and information losses. Due to limited human and financial resources prioritization of vulnerabilities is a crucial task. Prior to this work, many researchers have ranked vulnerabilities based on expert’s knowledge and statistics. But the variable nature of vulnerabilities sometime makes it impossible to provide a metric to rank it.Vulnerability reports are recorded in different database continuously. Textual information on vulnerabilities has not been fully utilized using automated tools. The research explores the fact that information hidden in these texts can be used to build predictive models. Text mining can be an appropriate tool to provide knowledge for administrative decisions.So far, there has been only one research that had used text mining for exploit prediction. The research has been presented at KDD2010, titled “Beyond Heuristics: Learning to Classify Vulnerabilities and Predict Exploits”. This paper provided answers to the following questions using text mining: Whether vulnerability will be exploited or not? When the existing vulnerability may be exploited? The paper in comparison with CVSS (which is a famous vulnerability metric) reaches good results. Our work provides highly accurate answers to the above and following questions:

If a system has been exploited, when this exploitation has begun? (Accuracy between 84-94.5%)If a system is vulnerable, when revised patch will be released by vendors? (Accuracy between 68- 91%)

Various researchers and institutions have concerned themselves with the categorization of vulnerabilities. OSVDB has several categorizations for vulnerabilities, but none of them is based on the vulnerability descriptions. In this study vulnerabilities clustered by their description and the following vulnerability categories identified: buffer overflow, denial of service, data manipulation, remote controlling, misconfiguration, password cracking, unauthorized access to information, and unauthorized access to service. Human expertise is required to manually assign all the vulnerabilities to specific harmonized vulnerability categories and it is a tedious work. With these vulnerability categories, it is possible to develop an application that automates the process of vulnerability assessment.In this research, two well-known vulnerability databases (CVE and OSVDB) plus date information on vulnerabilities provided by Stefan Frei have been used. For exploit prediction, SVM and Random Forest, and for vulnerability clustering, ESOM have been used.

IN THE NAME OF GOD

EXPLOIT PREDICTION AND VULNERABILITY CLUSTERING USING TEXT MINING

ByATEFEH KHAZAEI GHOUJDI

THESISSUBMITTED TO THE SCHOOL OF GRADUATE STUDIES IN

PARTIAL FULFILLMENT OF THE REQUIREMENTS FOR THE DEGREE OF MASTER OF SCIENCE (M. Sc.)

INCOMPUTER ENGINEERING (SOFTWARE)

SHIRAZ UNIVERSITYSHIRAZ

ISLAMIC REPUBLIC OF IRAN

EVALUATED AND APPROVED BY THE THESIS COMMITTEE AS: EXCELLENT

………………………….

………………………….

…………………………

September 2011

ShirazUniversity

Faculty of Engineering

M.S. Thesis in Software Engineering

EXPLOIT PREDICTION AND VULNERABILITY CLUSTERING

USING TEXT MINING

ByATEFEH KHAZAEI GHOUJDI

Supervised byDr. A. Sami

September 2011

فصل اول - download-thesis.com · web viewnew technologies, mobility and security (ntms). 29....

Documents