شاخص گذاری rdf گزارش سمینار کارشناسی ارشد

32
اری ص گذ خ ا شRDF ذ ی ارش س ا ن ش ار کار ن ی م س ارش ز گ ری ی ب ع مه ط ا ف ی ن ن’ کاها س ح م ر, کی ما: د ن هد را ا, ن ش ا ر ی2 ی ا6 پ1391

Upload: fedora

Post on 25-Jan-2016

90 views

Category:

Documents


11 download

DESCRIPTION

شاخص گذاری RDF گزارش سمینار کارشناسی ارشد. فاطمه عبیری استاد راهنما: دکتر محسن کاهانی پاییز 1391. فهرست مطالب. مقدمه شاخص گذاری RDF شمای شاخص گذاری مبتنی بر ساختار سه/چهارتایی RDF شمای شاخص گذاری مبتنی بر ساختار گرافی RDF سیستم های ذخیره سازی شاخص های RDF نتیجه گیری - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

RDFشاخص گذاری

گزارش سمینار کارشناسی ارشد

فاطمه عبیریاستاد راهنما: دکتر محسن کاهانی

1391پاییز

Page 2: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

فهرست مطالب

مقدمه•RDFشاخص گذاری •

RDFشمای شاخص گذاری مبتنی بر ساختار سه/چهارتایی •

RDFشمای شاخص گذاری مبتنی بر ساختار گرافی •

RDFسیستم های ذخیره سازی شاخص های •

نتیجه گیری•جداول ارزیابی •

2

Page 3: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

مقدمه

حجم روزافزون منابع اطالعاتی و نیاز به مدیریت آنها جهت •بازیابی سریع

بازیابی اطالعات•

شاخص گذاری•منابع به دسترسیبه نحوی که بتوان امکان سازماندهی داده ها •

را با سرعت باال برای کاربران فراهم آورد.اطالعاتی

3

Page 4: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

فرایند بازیابی اطالعات در وب

4

Page 5: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

RDFشاخص گذاری

RDFمدل داده •نمایش گراف داده ها در قالب عناصر سه/چهارتایی••(Subject,Predicate,Objet,Concept)

چالش ها•نوع پرس جوی مورد پشتیبانی روی گراف های داده•

پرس جوی مبتنی بر مسیر، مبتنی بر ستاره ای)موجودیت(و...–

قدرت الحاق عناصر جهت استخراج روابط بین آنها•هزینه به روزرسانی •مقیاس پذیری پردازشی •اندازه شاخص •روش دسترسی به شاخص ها از حافظه اصلی) مستقیم، درخت •

Btree)... ،و...•

5

Page 6: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

6

RDFجنبه های شاخص گذاری

Page 7: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

انواع شمای شاخص گذاری

RDFشماهای مبتنی بر ساختار گرافی •ایجاد شاخص در دو مرحله:–

-تحلیل گراف جهت استخراج روابط بین نودها1(s,p,o,c-ذخیره سازی به صورت گرافی یا بر اساس نودهای گراف )2

پشتیبانی از پرس جوهای مبتنی بر گراف با هزینه الحاق پایین–مقیاس پذیری پردازشی پایین در پرس جو های پیچیده–

RDFشماهای مبتنی بر ساختار سه/چهارتایی •(s,p,o,c)ذخیره سازی بر اساس عناصر سه/چهار تایی–پشتیبانی از پرس و جوهای مبتنی بر گراف با الحاق زیاد روی جداول–مقیاس پذیری پردازشی باال با افزایش داده ها و پرس جوهای پیچیده–

7

Page 8: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

8

RDFجنبه های شاخص گذاری

Page 9: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

های مشترکpredicate شمای بخش بندی مبتنی بر [wil06]

ها بر اساس Subjectاستفاده از الگوریتمی جهت گروه بندی • صفات مشترک آنها

بازیابی یک موجودیت با هزینه پایین •

جدول ویژگی

Property Table Index Schema 9

Page 10: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

[Tha12]شمای بخش بندی مبتنی بر ساختار

(E2)مانند گروه بندی سه گانه ها با ساختار مشترک•ذخیره داده ها هم گروه در کنار هم• ایجاد یک گراف از شاخص •

p1

p2

p2

p3

p3

s1p1

n1

n2

a1

a2

b1

b2

s2

E3

Structure Oriented Partitioning Index Schema

E2

E4

E5

10

Page 11: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

...[Tha12]شمای بخش بندی مبتنی بر ساختار

تطبیق ساختار پرس جو با گراف شاخص•بازیابی داده های مرتبط با ساختار پرس جو • )عدم بازیابی داده های نامربوط(I/Oکاهش هزینه •

predicate subject object

authorOf p1 a1

authorOf p3 a2

workat p1 i1

workat p3 i2

age p1 29

age p3 29

یک گراف شاخص

1

2

Structure Oriented Partitioning Index Schema 11

Page 12: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

12

RDFجنبه های شاخص گذاری

Page 13: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

[Neu10]شمای شاخص گذاری یکپارچه

ذخیره سه گانه ها در یک جدول با سه/چهار •ستون

subject predicate object context

S1 P1 O1 C1

S2 P2 O2 C2

S3 P3 O3 C2

(S1,P1,O1,C1)

Monotonic Index Schema 13

Page 14: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

. .شمای شاخص گذاری یکپارچه.

پوشش الگوهای دسترسی متفاوت با استفاده از شاخص چند •گانه

الگوی دسترسی به سه گانه ها 16شش شاخص برای پوشش •[Har05]

Monotonic Index Schema

پوشش الگوهای دسترسی به چهارگانه ها

14

Page 15: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

بخش بندی عمودی برشمای مبتنیpredicate [Aba07]بر اساس

Predicateجدول بخش بندی مبتنی بر

Vertical Partitioning Index Schema 15

Page 16: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

[Del10]شمای مبتنی بر برچسب گذاری گره

، واحد اصلی اطالعات مورد جستجو موجودیت•گراف ستاره ای، ساده ترین فرم یک گره موجودیت•

مفهوم موجودیت

Node Labeled Index Schema 16

Page 17: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

...[Del10]شمای مبتنی بر برچسب گذاری گره

پرچسب گذاری نودهای درخت •برای هر گرهمورد نظر نگهداری مسیر از ریشه تا گره •

درخت برچسب گذاری

S

P

C

O

(S,P,O,C)

Node Labeled Index Schema 17

Page 18: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

...[Del10]شمای مبتنی بر برچسب گذاری گره

Term Pointer

Term x(subject)

Term n(object)

Term m(predicate)

Entity file

Object file

Predicate file

Block of file

Node Labeled Index Schema 18

Page 19: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

19

RDFجنبه های شاخص گذاری

Page 20: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

پایگاه داده های بومی

از ابتداRDFساخت پایگاه داده ای مخصوص شاخص های •انتخاب ساختمان داده و الگوریتم مناسب همان داده به جای •

پشتیبانی از روشهای مختلف کم شدن سربار سیستم–بهینه سازی سیستم داخلی ساده تر–

خود انطباقی سیستم نسبت به تغییرات محیط بیشتر•

•RDF3x، Jena TDB، HexaStore، Sindice، SWSE...و

20

Page 21: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

NoSQLپایگاه داده های

•SQLرا به عنوان زبان دسترسی اولیه خود پشتیبانی نمی کند اند معموال توزیع شده• مقیاس پذیری جداول از نظر افقی و عمودی•کد باز••ACID)نیستند)سازگاری پایین قربانی عملکرد باال الحاق های متفاوت با پایگاه داده های رابطه ای •عدم تحمیل شمای ثابتی•

MongDBپایگاه داده اسناد همچون •

Hbaseهمچون پایگاه داده ستونهای خانواده )جدولی(•AllegroGraph پایگاه داده ای از گراف همچون •

و...•

•Jena_Hbase 21

Page 22: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

پایگاه داده های رابطه ای

استفاده از مزیت های چندین ساله این نوع ذخیره سازی•SQL به SPARQLنیاز به الیه ی تبدیل •

ارائه شماهای ثابت )وجود ستونهای ثابت (•

NoSQl مقیاس پذیری کمتر نسبت به پایگاه های–

•jena، Sesame، Jena SDB... و

22

Page 23: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد
Page 24: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد
Page 25: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

(Triplesمنبع داده) مقایسه شماسیستم

ذخیره سازیسال

سیستم های مدیریت و بازیابی

14GB 

sesame2-jena2

yars2Vp

یکپارچه بومی 2009 RDF3x]Neu10][Neu11[

6GB ملیارد10با خود

RDF3xSesame2

(pocs)مبتنی بر نود بومی 2010 Sindice/siren

]Del10[

1MBمبتنی شماهای

بربخش بندی و یکپارچه

ترکیبی NoSql 2012 Jena_Habse]Kha12[

RDF3x میلیون12sesame

مبتنی بر ساختار

2012 بومی Structure index[Tha12]

میلیون13 RDF3x وHexaStorیکپارچه )مبتنی بر

ستون(رابطه ای 2010 CoDB

]wan10[

میلیون 61 بخش بندی مبتنی بر

predicateبخش بندی مبتنی

بر همه عناصررابطه ای 2008

HexsaStore[Wei08]

میلیون375  با خود یکپارچه بومی 2008jenaTDB

[owe08]

Page 26: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

نتیجه گیری

وابسته به شما و سیستم ذخیره سازی شاخصRDFعملکرد شاخص گذاری •شماهای مبتنی بر ساختارسه/چهارگانه•

مقیاس پذیری پردازشی باال–الحاق های زیاد در پاسخگویی به پرس جو ها

به کارگیری سیستم با عملکرد باال در پردازش پرس جو و الحاق داده ها•تقویت پردازش پرس جو ها همچون شاخص گذاری الحاق ها جهت دسترسی سریع به مسیر •

های پر تکرارحمایت از پرس وجوهای خاص مثل موجودیت و ...•

شماهای مبتنی بر گر اف •کاهش الحاق ها در پاسخگویی به پرس جو ها–

مقیاس پذیری پردازشی پایینطراحی الگوریتم های قدرتمند جهت تحلیل گراف و پرس جو•

باال بودن اندازه شاخص و در نتیجه هزینه به روز رسانی باال در هر دو نوع •شما

سیستم های ذخیره سازی شاخص از نوع بومی، رابطه ای مبتنی بر ستون و •NoSQL.مناسب تر و رایج تر و مقیاس پذیر ترند

Page 27: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

منابع

• [Agg10] C. Aggarwal, H. Wang. “Graph Indexing,” in Managing and Mining Graph Data, 1nd ed., vol. 40, Ed. New York: Springer, 2010, pp. 161-178.

• [Del10] R. Delbru. “Searching Web Data: an Entity Retrieval Model.” Ph. D. thesis ,National University of Ireland, Ireland, 2010.

• [Hog11]A. Hogan, A. Harth, u. Umbrich, S. Kinsella, A. Polleres, S. Decker, “Searching and Browsing Linked Data with SWSE: the Semantic Web Search Engine. ” , The International Journal on Web Semantics: Science, Services and Agents on the World Wide Web, Elsevier Science, vol. 9, pp. 365-401, Des. 2011.

• [Neu10]T. Neumann and G. Weikum. “The rdf-3x engine for scalable management of rdf data. ” The International Journal on Very Large Data Bases, vol. 19, pp. 91-113, Feb. 2010.

• [ Tha12]T. Tran, G. Ladwig, S. Rudolph, “RDF Data Data Partitioning and Query processing Using Structure Indexes, IEEE Trans. Knowledge and Data Engineering, 2012, to be published.

• [Wei08] C. Weiss, P. Karras, and A. Bernstein. “Hexastore: sextuple indexing for semantic web data management.” The International Journal on Very Large Data Bases, vol. 1, pp. 1008– 1019, 2008

27

Page 28: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

…منابع• [Aba07] D. J. Abadi, A. Marcus, S. Madden, and K. J. Hollenbach, “Scalable

semantic web data management using vertical partitioning,” in proc. Very Large Data Bases , 2007, pp. 1-12.

• [Har05]A. Harth and S. Decker, “Optimized index structures for querying rdf from the web, " in Proc. of the Third Latin American Web Congress, 2005, pp. 71-81.

• [Mat05]A. Matono, T. Amagasa, M. Yos hikawa, and S. Uemura. “path-based relational RDF database,” in Proc. of the 16th Australasian database conference, 2005 ,pp. 95-103.

•  [Owe08] A. Owens, A. Seab orne, N. Gibb ons, and M. Schraefel, “Clustered TDB: A clustered triple store for Jena,” Univ. Southampton, Tec. Rep ,2008

• [Udr07] O. Udrea, A. Pugliese, and V. Subrahmanian,"Grin: a graph based rdf index", AAI Conference of Artifical Inteligent , vol. 22, no. 2, 2007.

• [Ber01] T. Berners-Lee, J. Hendler, O. Lassila, “The Semantic Web,” Scientific American, May 2001, pp. 35-34

• [Bro03] J. Broekstra, A. Kampman, F. Harmelen. Sesame: An architecture for storing and querying RDF data and schema information. Spinning the Semantic Web, 2003.

28

Page 29: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

…منابع• [Del10] R. Delbru. “Searching Web Data: an Entity Retrieval Model.” Ph. D. thesis

,National University of Ireland, Ireland, 2010.

• [Har05] A. Harth and S. Decker, “Optimized index structures for querying rdf from the web, " in Proc. of the Third Latin American Web Congress, 2005, pp. 71-81.

• [Har07] A. Harth, J. Umbrich, A. Hogan, and S. Decker. “YARS2: A Federated pository for Searching and Querying Graph Structured Data,” in Proc. of the 6th international The semantic web and 2nd Asian conference on Asian semantic web conference,2007, pp. 211-224.

• [Mat05] A. Matono, T. Amagasa, M. Yos hikawa, and S. Uemura. “path-based relational RDF database,” in Proc. of the 16th Australasian database conference, 2005 ,pp. 95-103.

• [Mch97] J. McHugh, S. Abiteboul, R. Goldman, D. Quass, J. Wid. “Lore: A Database Management System for Semi-structured Data.” ACM SIGMOD Record,vol. 26, pp. 54 – 66, 1997.

• [Mel01] S.Melink, S, Raghavan, B. Yang, H. Garcia-Molina. ” Building a distributed full-text index for the web. ” ACM Transactions on internet Technology, vol. 19, pp. 217-241, jul. 2001.

29

Page 30: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

…منابع• [Nar09] A. Narang, V. Agarwal, M. Kedia, V.K. Garg. "Highly scalable algorithm

for distributed real-time text indexing," in Proc. of HiPC IEEE , 2009, pp.332-341.

•  [Neu11] T. Neumann, A. Gubichev. “Path Query Processing on Very Large RDF Graphs,” in Proc. WebDB, 2011, pp. 1-6.

• [Sun10] J. Sun, Q. Jin. “Scalable RDF Store Based on HBase and MapReduce,” in Proc. of Advanced Computer Theory and Engineering( ICACTE ), 2010, pp. 633-636.

• [Wan10] X. Wang, S. Wang, P. Du, Z. Feng. “Storing and Indexing RDF Data in a Column-Oriented DBMS,” in Proc. of Database Technology and Applications (DBTA), 2010, pp. 1-4.

• [Min08] E. Minack,L. Sauermann,G. Grimnes,C. Fluit, J. Broekstra, “The Sesame uceneSail: RDF Queries with Full-text Search,” Tech. Rep. Nepomuc, 2008.

• [Wil03] K. Wilkinson, C. Sayers, H. A. Kuno, and D. Reynolds. “Efficient RDF Storage and Retrieval in Jena2,” in Proc. Semantic Web Data Bases, 2003, pp. 131-150.

• [Kha12] V. Khadilkar, M. Kantarcioglu, B. Thuraisingham, “Jena-HBase: A Distributed, Scalable and E cient RDF Triple Store,” Univ. Texas, Thech. Rep, ffi2012. 30

Page 31: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

…منابع• [Wil06] K. Wilkinson, "Jena property table implementation", International

workshop on Scalable Semantic Web Knowledge Base Systems (SSWS) at the International Semantic Web Conference(ISWC), 2006.

• [Yan04] X. Yan, P. Yu, and J. Han. “Graph indexing: A frequent structurebased approach,” in Proc. of the the ACM SIGMOD international conference on Management of data , 2004, pp. 335-346.

31

Page 32: شاخص گذاری RDF  گزارش سمینار کارشناسی ارشد

تشکراز توجه شما

32