![Page 1: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/1.jpg)
HadoopDB یک معماری ترکیبی :
DBMS و MapReduceاز
ارائه نهایی درس پایگاه داده پیشرفته
استاد درس: دکتر مسعود رهگذر
ارائه دهنده: علیرضا انگبینی
![Page 2: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/2.jpg)
منبع اصلی A. Abouzeid, A. Silberschatz, and A. Rasin, "Hadoopdb: An
architectural hybrid of mapreduce and dbms technologies for
analytical workloads," VLDB'09, 2009, pp. 1084--1095.
![Page 3: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/3.jpg)
فهرست
مقدمه
MapReduce
Parallel Databases
معماریHadoopDB
نتایج اجرا
نتیجه گیری
![Page 4: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/4.jpg)
مقدمه
انفجار حجم داده ها
اتوماسیون در فرایندهای کسب وکار◦
افزایش تجهیزات دیجیتال◦
eBay 6.5 PB مثال-◦
Yahoo 10+ PB
افزایش نیاز به تحلیل داده های خام برای
کاربردهای مختلف
![Page 5: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/5.jpg)
مقدمه مسئله: چگونگی انجام عملیات محاسباتی و تحلیلی بر روی حجم
عظیمی از داده ها که بین هزاران گره توزیع شده اند.
رویکردها
◦MapReduce
◦Parallel Databases
هدف تحقیق: طراحی معماری سیستمی که از بهترین ویژگیهای
دو رویکرد استفاده کند:
استفاده از مکانیزم های پایگاه داده های موازی برای کارایی و بهره وری◦
برای مقیاس MapReduceبهره گیری از ویژگیهای سیستم های مبتنی بر ◦
پذیری، تحمل خطا و انعطاف پذیری
![Page 6: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/6.jpg)
MapReduce
یک مدل برنامه نویسی برای حل مسائل محاسباتی در
مقیاس وسیع و به صورت توزیعی
توسط گوگل2003ارائه شده در سال
پیاده سازی شده به زبان های مختلف
:شامل دوتابع اصلی
( و تولید مجوعه ای از key,value: پردازش یک زوج )Mapتابع ◦
زوج های میانی
یکسانkey های میانی با value: ادغام تمام Reduceتابع ◦
![Page 7: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/7.jpg)
MapReduce )ادامه(
مثال: یافتن تعداد تکرار یک کلمه در یک متن )صفحه
وب(
تابعMap:
◦Keyآدرس صفحه وب :
◦Valueمحتویات صفحه :
خروجی: لیستی از زوج مرتب ها )تعداد رخداد,کلمه(◦
![Page 8: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/8.jpg)
MapReduce )ادامه(
تابعReduce:
جمع مقادیر زوج ها با کلید مشترک◦
:خروجی نهایی
![Page 9: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/9.jpg)
Parallel و MapReduceمقایسه Databases
Parallel Databases MapReduce
کارایی باال بر روی •
structured data
عدم تحمل خطا•
هاqueryاجرای مجدد •
الزام به صبر برای کند ترین •
گره
نبود نمونه های متن باز•
مقیاس پذیری باال•
زمانبندی هنگام اجرا•
رایگان و متن باز•
structuredکارایی پایین برای •
data
schemaبدون در نظر گرفتن •
![Page 10: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/10.jpg)
Parallel و MapReduceمقایسه Databases
کارایی باال مقیاس پذیری
MapReduce
Parallel Databases
هدفHadoopDB
![Page 11: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/11.jpg)
HadoopDB
:ایده اصلی
به عنوان الیه ارتباطی و MapReduceاستفاده از ◦
(Hadoopهماهنگ کننده فعالیت ها بین چندین گره )
عادی استفاده می کنند DBMSگره ها از یک ◦
(PostgreSQl)
![Page 12: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/12.jpg)
HadoopDBمعماری
![Page 13: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/13.jpg)
HadoopDBمعماری
![Page 14: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/14.jpg)
نتایج اجرا
از نظر
(Performanceکارایی )◦
(Scalabilityمقیاس پذیری )◦
مقایسه HadoopDB:با
◦MapReduce (Hadoop)
◦Parallel Databases (Vertica , DBMS-X)
اجرا بر روی بستر آمازونEC2 گره100 و 50، 10 با
![Page 15: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/15.jpg)
کارایی
Select Task
◦Full table scan
◦Random data بدون :index
SELECT * FROM Data WHERE field LIKE ‘%XYZ%’
![Page 16: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/16.jpg)
)ادامه(کارایی
Join Task
SELECT sourceIP, AVG)pageRank(, SUM)adRevenue(FROM rankings, uservisitsWHERE pageURL=destURLAND visitDate BETWEEN 2000-1-15 AND 2000-1-22GROUP BY sourceIPORDER BY SUM)adRevenue( DESC LIMIT 1;
![Page 17: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/17.jpg)
مقیاس پذیری
گره10اجرا بر روی
برای تحمل خطا: از بین بردن یک گره در وسط آزمایش
برای ناهمگنی: کاهش سرعت یک گره در کل مدت
آزمایش
![Page 18: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/18.jpg)
نتیجه گیری
ترکیبی از معماریDBMS و MapReduce
مقیاس پذیری باالتر نسبت بهparallel databases
توانایی تحمل خطا مانندHadoop
کارایی در حدparallel databases
هزینه: رایگان و متن باز
![Page 19: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/19.jpg)
منابع [1] A. Abouzeid, A. Silberschatz, and A. Rasin, "Hadoopdb: An
architectural hybrid of mapreduce and dbms technologies for
analytical workloads," VLDB'09, 2009, pp. 1084--1095.
[2] J. Dean and S. Ghemawat, "MapReduce: Simplified data
processing on large clusters," OSDI, 2004.
[3] K. Heafield, "Introduction To Hadoop," Google Inc, 2008.
![Page 20: HadoopDB : یک معماری ترکیبی از MapReduce و DBMS](https://reader033.vdocuments.pub/reader033/viewer/2022061616/568138d3550346895da08d54/html5/thumbnails/20.jpg)
پایان
با تشکر