شاخص گذاری rdf گزارش سمینار کارشناسی ارشد

Post on 25-Jan-2016

90 Views

Category:

Documents

11 Downloads

Preview:

Click to see full reader

DESCRIPTION

شاخص گذاری RDF گزارش سمینار کارشناسی ارشد. فاطمه عبیری استاد راهنما: دکتر محسن کاهانی پاییز 1391. فهرست مطالب. مقدمه شاخص گذاری RDF شمای شاخص گذاری مبتنی بر ساختار سه/چهارتایی RDF شمای شاخص گذاری مبتنی بر ساختار گرافی RDF سیستم های ذخیره سازی شاخص های RDF نتیجه گیری - PowerPoint PPT Presentation

TRANSCRIPT

RDFشاخص گذاری

گزارش سمینار کارشناسی ارشد

فاطمه عبیریاستاد راهنما: دکتر محسن کاهانی

1391پاییز

فهرست مطالب

مقدمه•RDFشاخص گذاری •

RDFشمای شاخص گذاری مبتنی بر ساختار سه/چهارتایی •

RDFشمای شاخص گذاری مبتنی بر ساختار گرافی •

RDFسیستم های ذخیره سازی شاخص های •

نتیجه گیری•جداول ارزیابی •

2

مقدمه

حجم روزافزون منابع اطالعاتی و نیاز به مدیریت آنها جهت •بازیابی سریع

بازیابی اطالعات•

شاخص گذاری•منابع به دسترسیبه نحوی که بتوان امکان سازماندهی داده ها •

را با سرعت باال برای کاربران فراهم آورد.اطالعاتی

3

فرایند بازیابی اطالعات در وب

4

RDFشاخص گذاری

RDFمدل داده •نمایش گراف داده ها در قالب عناصر سه/چهارتایی••(Subject,Predicate,Objet,Concept)

چالش ها•نوع پرس جوی مورد پشتیبانی روی گراف های داده•

پرس جوی مبتنی بر مسیر، مبتنی بر ستاره ای)موجودیت(و...–

قدرت الحاق عناصر جهت استخراج روابط بین آنها•هزینه به روزرسانی •مقیاس پذیری پردازشی •اندازه شاخص •روش دسترسی به شاخص ها از حافظه اصلی) مستقیم، درخت •

Btree)... ،و...•

5

6

RDFجنبه های شاخص گذاری

انواع شمای شاخص گذاری

RDFشماهای مبتنی بر ساختار گرافی •ایجاد شاخص در دو مرحله:–

-تحلیل گراف جهت استخراج روابط بین نودها1(s,p,o,c-ذخیره سازی به صورت گرافی یا بر اساس نودهای گراف )2

پشتیبانی از پرس جوهای مبتنی بر گراف با هزینه الحاق پایین–مقیاس پذیری پردازشی پایین در پرس جو های پیچیده–

RDFشماهای مبتنی بر ساختار سه/چهارتایی •(s,p,o,c)ذخیره سازی بر اساس عناصر سه/چهار تایی–پشتیبانی از پرس و جوهای مبتنی بر گراف با الحاق زیاد روی جداول–مقیاس پذیری پردازشی باال با افزایش داده ها و پرس جوهای پیچیده–

7

8

RDFجنبه های شاخص گذاری

های مشترکpredicate شمای بخش بندی مبتنی بر [wil06]

ها بر اساس Subjectاستفاده از الگوریتمی جهت گروه بندی • صفات مشترک آنها

بازیابی یک موجودیت با هزینه پایین •

جدول ویژگی

Property Table Index Schema 9

[Tha12]شمای بخش بندی مبتنی بر ساختار

(E2)مانند گروه بندی سه گانه ها با ساختار مشترک•ذخیره داده ها هم گروه در کنار هم• ایجاد یک گراف از شاخص •

p1

p2

p2

p3

p3

s1p1

n1

n2

a1

a2

b1

b2

s2

E3

Structure Oriented Partitioning Index Schema

E2

E4

E5

10

...[Tha12]شمای بخش بندی مبتنی بر ساختار

تطبیق ساختار پرس جو با گراف شاخص•بازیابی داده های مرتبط با ساختار پرس جو • )عدم بازیابی داده های نامربوط(I/Oکاهش هزینه •

predicate subject object

authorOf p1 a1

authorOf p3 a2

workat p1 i1

workat p3 i2

age p1 29

age p3 29

یک گراف شاخص

1

2

Structure Oriented Partitioning Index Schema 11

12

RDFجنبه های شاخص گذاری

[Neu10]شمای شاخص گذاری یکپارچه

ذخیره سه گانه ها در یک جدول با سه/چهار •ستون

subject predicate object context

S1 P1 O1 C1

S2 P2 O2 C2

S3 P3 O3 C2

(S1,P1,O1,C1)

Monotonic Index Schema 13

. .شمای شاخص گذاری یکپارچه.

پوشش الگوهای دسترسی متفاوت با استفاده از شاخص چند •گانه

الگوی دسترسی به سه گانه ها 16شش شاخص برای پوشش •[Har05]

Monotonic Index Schema

پوشش الگوهای دسترسی به چهارگانه ها

14

بخش بندی عمودی برشمای مبتنیpredicate [Aba07]بر اساس

Predicateجدول بخش بندی مبتنی بر

Vertical Partitioning Index Schema 15

[Del10]شمای مبتنی بر برچسب گذاری گره

، واحد اصلی اطالعات مورد جستجو موجودیت•گراف ستاره ای، ساده ترین فرم یک گره موجودیت•

مفهوم موجودیت

Node Labeled Index Schema 16

...[Del10]شمای مبتنی بر برچسب گذاری گره

پرچسب گذاری نودهای درخت •برای هر گرهمورد نظر نگهداری مسیر از ریشه تا گره •

درخت برچسب گذاری

S

P

C

O

(S,P,O,C)

Node Labeled Index Schema 17

...[Del10]شمای مبتنی بر برچسب گذاری گره

Term Pointer

Term x(subject)

Term n(object)

Term m(predicate)

Entity file

Object file

Predicate file

Block of file

Node Labeled Index Schema 18

19

RDFجنبه های شاخص گذاری

پایگاه داده های بومی

از ابتداRDFساخت پایگاه داده ای مخصوص شاخص های •انتخاب ساختمان داده و الگوریتم مناسب همان داده به جای •

پشتیبانی از روشهای مختلف کم شدن سربار سیستم–بهینه سازی سیستم داخلی ساده تر–

خود انطباقی سیستم نسبت به تغییرات محیط بیشتر•

•RDF3x، Jena TDB، HexaStore، Sindice، SWSE...و

20

NoSQLپایگاه داده های

•SQLرا به عنوان زبان دسترسی اولیه خود پشتیبانی نمی کند اند معموال توزیع شده• مقیاس پذیری جداول از نظر افقی و عمودی•کد باز••ACID)نیستند)سازگاری پایین قربانی عملکرد باال الحاق های متفاوت با پایگاه داده های رابطه ای •عدم تحمیل شمای ثابتی•

MongDBپایگاه داده اسناد همچون •

Hbaseهمچون پایگاه داده ستونهای خانواده )جدولی(•AllegroGraph پایگاه داده ای از گراف همچون •

و...•

•Jena_Hbase 21

پایگاه داده های رابطه ای

استفاده از مزیت های چندین ساله این نوع ذخیره سازی•SQL به SPARQLنیاز به الیه ی تبدیل •

ارائه شماهای ثابت )وجود ستونهای ثابت (•

NoSQl مقیاس پذیری کمتر نسبت به پایگاه های–

•jena، Sesame، Jena SDB... و

22

(Triplesمنبع داده) مقایسه شماسیستم

ذخیره سازیسال

سیستم های مدیریت و بازیابی

14GB 

sesame2-jena2

yars2Vp

یکپارچه بومی 2009 RDF3x]Neu10][Neu11[

6GB ملیارد10با خود

RDF3xSesame2

(pocs)مبتنی بر نود بومی 2010 Sindice/siren

]Del10[

1MBمبتنی شماهای

بربخش بندی و یکپارچه

ترکیبی NoSql 2012 Jena_Habse]Kha12[

RDF3x میلیون12sesame

مبتنی بر ساختار

2012 بومی Structure index[Tha12]

میلیون13 RDF3x وHexaStorیکپارچه )مبتنی بر

ستون(رابطه ای 2010 CoDB

]wan10[

میلیون 61 بخش بندی مبتنی بر

predicateبخش بندی مبتنی

بر همه عناصررابطه ای 2008

HexsaStore[Wei08]

میلیون375  با خود یکپارچه بومی 2008jenaTDB

[owe08]

نتیجه گیری

وابسته به شما و سیستم ذخیره سازی شاخصRDFعملکرد شاخص گذاری •شماهای مبتنی بر ساختارسه/چهارگانه•

مقیاس پذیری پردازشی باال–الحاق های زیاد در پاسخگویی به پرس جو ها

به کارگیری سیستم با عملکرد باال در پردازش پرس جو و الحاق داده ها•تقویت پردازش پرس جو ها همچون شاخص گذاری الحاق ها جهت دسترسی سریع به مسیر •

های پر تکرارحمایت از پرس وجوهای خاص مثل موجودیت و ...•

شماهای مبتنی بر گر اف •کاهش الحاق ها در پاسخگویی به پرس جو ها–

مقیاس پذیری پردازشی پایینطراحی الگوریتم های قدرتمند جهت تحلیل گراف و پرس جو•

باال بودن اندازه شاخص و در نتیجه هزینه به روز رسانی باال در هر دو نوع •شما

سیستم های ذخیره سازی شاخص از نوع بومی، رابطه ای مبتنی بر ستون و •NoSQL.مناسب تر و رایج تر و مقیاس پذیر ترند

منابع

• [Agg10] C. Aggarwal, H. Wang. “Graph Indexing,” in Managing and Mining Graph Data, 1nd ed., vol. 40, Ed. New York: Springer, 2010, pp. 161-178.

• [Del10] R. Delbru. “Searching Web Data: an Entity Retrieval Model.” Ph. D. thesis ,National University of Ireland, Ireland, 2010.

• [Hog11]A. Hogan, A. Harth, u. Umbrich, S. Kinsella, A. Polleres, S. Decker, “Searching and Browsing Linked Data with SWSE: the Semantic Web Search Engine. ” , The International Journal on Web Semantics: Science, Services and Agents on the World Wide Web, Elsevier Science, vol. 9, pp. 365-401, Des. 2011.

• [Neu10]T. Neumann and G. Weikum. “The rdf-3x engine for scalable management of rdf data. ” The International Journal on Very Large Data Bases, vol. 19, pp. 91-113, Feb. 2010.

• [ Tha12]T. Tran, G. Ladwig, S. Rudolph, “RDF Data Data Partitioning and Query processing Using Structure Indexes, IEEE Trans. Knowledge and Data Engineering, 2012, to be published.

• [Wei08] C. Weiss, P. Karras, and A. Bernstein. “Hexastore: sextuple indexing for semantic web data management.” The International Journal on Very Large Data Bases, vol. 1, pp. 1008– 1019, 2008

27

…منابع• [Aba07] D. J. Abadi, A. Marcus, S. Madden, and K. J. Hollenbach, “Scalable

semantic web data management using vertical partitioning,” in proc. Very Large Data Bases , 2007, pp. 1-12.

• [Har05]A. Harth and S. Decker, “Optimized index structures for querying rdf from the web, " in Proc. of the Third Latin American Web Congress, 2005, pp. 71-81.

• [Mat05]A. Matono, T. Amagasa, M. Yos hikawa, and S. Uemura. “path-based relational RDF database,” in Proc. of the 16th Australasian database conference, 2005 ,pp. 95-103.

•  [Owe08] A. Owens, A. Seab orne, N. Gibb ons, and M. Schraefel, “Clustered TDB: A clustered triple store for Jena,” Univ. Southampton, Tec. Rep ,2008

• [Udr07] O. Udrea, A. Pugliese, and V. Subrahmanian,"Grin: a graph based rdf index", AAI Conference of Artifical Inteligent , vol. 22, no. 2, 2007.

• [Ber01] T. Berners-Lee, J. Hendler, O. Lassila, “The Semantic Web,” Scientific American, May 2001, pp. 35-34

• [Bro03] J. Broekstra, A. Kampman, F. Harmelen. Sesame: An architecture for storing and querying RDF data and schema information. Spinning the Semantic Web, 2003.

28

…منابع• [Del10] R. Delbru. “Searching Web Data: an Entity Retrieval Model.” Ph. D. thesis

,National University of Ireland, Ireland, 2010.

• [Har05] A. Harth and S. Decker, “Optimized index structures for querying rdf from the web, " in Proc. of the Third Latin American Web Congress, 2005, pp. 71-81.

• [Har07] A. Harth, J. Umbrich, A. Hogan, and S. Decker. “YARS2: A Federated pository for Searching and Querying Graph Structured Data,” in Proc. of the 6th international The semantic web and 2nd Asian conference on Asian semantic web conference,2007, pp. 211-224.

• [Mat05] A. Matono, T. Amagasa, M. Yos hikawa, and S. Uemura. “path-based relational RDF database,” in Proc. of the 16th Australasian database conference, 2005 ,pp. 95-103.

• [Mch97] J. McHugh, S. Abiteboul, R. Goldman, D. Quass, J. Wid. “Lore: A Database Management System for Semi-structured Data.” ACM SIGMOD Record,vol. 26, pp. 54 – 66, 1997.

• [Mel01] S.Melink, S, Raghavan, B. Yang, H. Garcia-Molina. ” Building a distributed full-text index for the web. ” ACM Transactions on internet Technology, vol. 19, pp. 217-241, jul. 2001.

29

…منابع• [Nar09] A. Narang, V. Agarwal, M. Kedia, V.K. Garg. "Highly scalable algorithm

for distributed real-time text indexing," in Proc. of HiPC IEEE , 2009, pp.332-341.

•  [Neu11] T. Neumann, A. Gubichev. “Path Query Processing on Very Large RDF Graphs,” in Proc. WebDB, 2011, pp. 1-6.

• [Sun10] J. Sun, Q. Jin. “Scalable RDF Store Based on HBase and MapReduce,” in Proc. of Advanced Computer Theory and Engineering( ICACTE ), 2010, pp. 633-636.

• [Wan10] X. Wang, S. Wang, P. Du, Z. Feng. “Storing and Indexing RDF Data in a Column-Oriented DBMS,” in Proc. of Database Technology and Applications (DBTA), 2010, pp. 1-4.

• [Min08] E. Minack,L. Sauermann,G. Grimnes,C. Fluit, J. Broekstra, “The Sesame uceneSail: RDF Queries with Full-text Search,” Tech. Rep. Nepomuc, 2008.

• [Wil03] K. Wilkinson, C. Sayers, H. A. Kuno, and D. Reynolds. “Efficient RDF Storage and Retrieval in Jena2,” in Proc. Semantic Web Data Bases, 2003, pp. 131-150.

• [Kha12] V. Khadilkar, M. Kantarcioglu, B. Thuraisingham, “Jena-HBase: A Distributed, Scalable and E cient RDF Triple Store,” Univ. Texas, Thech. Rep, ffi2012. 30

…منابع• [Wil06] K. Wilkinson, "Jena property table implementation", International

workshop on Scalable Semantic Web Knowledge Base Systems (SSWS) at the International Semantic Web Conference(ISWC), 2006.

• [Yan04] X. Yan, P. Yu, and J. Han. “Graph indexing: A frequent structurebased approach,” in Proc. of the the ACM SIGMOD international conference on Management of data , 2004, pp. 335-346.

31

تشکراز توجه شما

32

top related