تشخيص رکوردهای تکراری با استفاده از آناليز معنايي...

تشخيص رکوردهای تکراری با استفاده از آناليز معنايي داده های

عملياتی

نام دانشجو: علی عبدلی آقای دکتر اساتيد داور: آقای دکتر مينايي،

ميبدیاستاد راهنما: آقای دکتر عبداله زاده

1

2

فهرست

مقدمه بررسی کارهای گذشته

بررسی مشکالت و

ارائه راه حل

پيشنهادی

آزمايشات و نتايج

نتيجه گيری و

کارهای آينده

3

مقدمه کارهای گذشته

روش پيشنهادی آزمايشات نتيجه گيری

مقدمه

رکوردهای تکراری عبارتن$د از بازنمايي های متفاوت از ي$ک موجوديت درجهان واقع.

با يکس$$ان موجوديت های يافت$$ن تکراری، رکوردهای شناس$$ايي بازنمايي های متفاوت است.


روش پيشنهادی آزمايشات مقدمهنتيجه گيری

محمد رضا عبدلی دانشجوی کارشناسی

ارشد

تهران – خيابان پاسداران – خيابان

3نيستان دوم- پ

مهندسی کامپيوتر

محمد عبدلی دانشجو تهران خ پاسداران – باالتر از ميدان احتشاميه- پالک

3

مهندسی کامپيوتر - هوش مصنوعی

4



کاربردهای يافتن رکوردهای تکراری

تشخيص رکوردهای تکراری در کاربردهای زير مطرحاست

يکپارچه سازی داده هاSimilarity Query

پاکسازی داده ها

مقدمه

5



يکپارچه سازی داده ها اطالعات مربوط به موجوديت ها در منابع داده ای متفاوت

ذخيره شده اند. الزم است اطالعات مربوط به يک موجوديت از منابع

اطالعاتی مختلف گردآوری شود.

مقدمه

پايگاه داده حقوق و دستمزد

پايگاه داده رفاه کارکنان

پايگاه داده دانشگاه

6



SIMILARITY QUERY ب$ا درخواست پايگاه های داده امکان تط$بيق داده ه$ا در گروه$ی از

کاربر وجود ندارد.به عنوان مثال در يک موتور جستجو

.يافتن متون مربوط به درخواست کاربريافتن موجوديت با شباهت بيشتر

مقدمه

صاايران حافظه 100

حداکثر گرم200

شرکت توليد کننده

حافظه وزن رنگ ابعاد

صاايران 100 190 مشکی 10*20صاايران 100 210 سبز 15*15

LG 50 200 آبی 10*10صاايران 100 20 مشکی 10*10

7



پاکسازی داده ها اطالعات با کيفيت پايين سبب کاهش کارايي سازمان ها و

تصميمات اشتباهاطالعات با کيفيت پايين عبارتند از

اطالعات تکراری غلط های اماليي و با نمايش اشتباه

وجود داده های تکراری باعثگزارشات اشتباه و در نتيجه تصميمات اشتباه

فرستادن چندين ايميل يکسان برای يک مشتریهزينه نگهداری داده های اضافی برروی رسانه

مقدمه

8



پيش پردازش

تبديل داده ها به رکورداستخراج ويژگی از صفحات وب، تصاوير، فيلم ها

رکوردها برای آنکه قابل مقايسه شوند، بايد استانداردسازی، پارسيا تبديل به داده های جديد شوند.

علی عبدلی

مهر 1360

... دانشگاه

اميرکبير

علی عبدلی

1360/7

... دانشگاه پلی تکنيک

مقدمه

9



روش ها و رويکردها در يافتن داده های تکراری در تشخيص داده های تکراری، داده ها به شکل زير مدل

می شوند ساختارمقدار

روش ها با توجه به اين که شباهت ميان ساختار و يامقدار و يا هر دو را در نظر بگيرند، به دسته ها مختلف

تقسيم می شوند.

کارهای گذشته

10


روش پيشنهادی آزمايشات روش ها و رويکردها در يافتن داده های نتيجه گيری

تکراری...روش های تشخيص داده های تکراری

روش های برپايه مقدار

مقايسه فيلد

برپايه توکن

برپايه کاراکتر

تجميعی

برپايه فرمول های جبری

هوشمند

برپايه ساختار

روش های برپايه گراف

روش های برپايه مسير

روش های ترکيبی

برپايه استخراج اطالعات

شمند روش های ه̂و

روش های برپايه درخت



11


روش پيشنهادی آزمايشات کارهای گذشتهنتيجه گيری

روش های برپايه ساختار و ترکيبیروش های برپايه ساختار و ترکيبی

داده ها دارای ساختار هستند

روش های تشخيص داده های تکراری

روش های برپايه مقدار برپايه ساختار

روش های برپايه گراف


روش های ترکيبی

برپايه استخراج اطالعات

روش های هوشمند

روش های برپايه درخت


کشور

نام

ايران

جغرافیپايتختهتران

کشور همسايهترکيه

مذهبشيعه

کشور

نام

ايران

جغرافی

پايتختتهران

ديناسالم




در اين روش ها، شباهت با توجه به مقدارداده ها مقايسه می شود و شباهت های

ساختاری در نظر گرفته نمی شود. در مقايسه رکوردها از روش های برپايه مقدار

استفاده می شود زيرا:.رکوردها دارای ساختار يکسانی هستند در مرحله پيش پرداز$ش فيلدهای قابل مقايسه

استخراج شده است.12





برپايه کاراکت

ر

تجميعی


هوشمند

برپايه ساختار روش های ترکيبی


13



روش های مقايسه فيلد

فيلدها ميان شباه$$ت روش ه$$ا اي$$ن در اندازه گيری می شود.

تابع شباهت، تابعی است که شباهت ميان دوفيل$د را اندازه گيری کرده و ب$ه صورت عددی

بين صفر و يک بيان می کند.






ر

تجميعی


هوشمند


محمد علی

محمد

F(x,y)=0.7

14



…روش های مقايسه فيلدروش ها مقايسه فيلد به دو دسته تقسيم می شوند

برپايه کاراکترشباهت بر اساس کاراکترها

برپايه توکن در صورت تغييرات در سطح کلمات تشکيل دهنده فيلد، روش های برپايه

کاراکتر دارای کارايي مناسب نيستند.






ر

تجميعی


هوشمند




برپايه کاراکتر

شنبه

دوشنبه

F(x,y)=0.7

تهران، خيابان حافظ، دانشگاه اميرکبير

دانشگاه اميرکبير، ايران، تهران، خيابان حافظ

F(x,y)=0.8

15



روش های تجميعی

رکورد کل شباه$$ت ميزان تجم$يع$$ی روش های در اندازه گيری می شود.

اين روش ها به دو دسته زير دسته بندی می شوندروش های برپايه فرمول های جبریروش های هوشمند






ر

تجميعی


هوشمند



محمد علی عبدلی

1/80 رنگ مو مشکی

...

علی عبدلی

180 رنگ مو سياه

...

16



روش های ب$رپايه فرمول های جبری

جبری فرمول های برپاي$$ه روش های در رويکردهای متفاوتی وجود دارد

جمع وزن دار شباهت فيلدهاتبديل کل رکورد به يک فيلد...

مشکل تعيين حدود آستانه 90بهترين کارايي در حدود%






ر

تجميعی


هوشمند



17




استفاده از الگوريتم های يادگيری ماشينآموزش با استفاده از دادهاستفاده از مدل برای داده های تستیمزايا

کمترين دخالت انسانباالترين کارايي






ر

تجميعی


هوشمند


18



مراحل روش های هوشمندتشکيل بردار ويژگی با استفاده از مقايسه فيلد به فيلد

1فيلد 2فيلد … nفيلد

1فيلد 2فيلد … nفيلد

شباهت 1

شباهت 2

شباهت n...

يکسانيا

غيريکسان




مراحل روش های هوشمند...

19

فرد خبره

مجموعه 1داده


مقايسه دوبه دو تعدادی از رکوردها و برچسب زنی

استفاده از تابع شباهت و تشکيل بردار ويژگی

استفاده از يک مدل برای يادگيری داده های

برچسب دار

استفاده از مدل آموزش ديده برای برچسب گذاری

ساير رکوردها

20



روش های هوشمند...Andrew McCallum

ارائه مدل های بيزين و شبکه های بيزی و مدل های احتمالیارائه مجموعه داده های مرجع

Ahmed Elmagarmid ارائهsurveyاز تمامی روش ها و رويکردهای موجود

Vassilios Verykiosاستفاده از روش های استخراج قوانين به صورت اتوماتيک

Sunita Sarawagi استفاده از روش های يادگيری فعال

Debabrata Deyتشخيص رکوردهای تکراری به صورت برخط

Huimin Zhaoترکيب دسته بندی کننده های مختلف


21



مزايا و معايب روش های موجودکاربرد معايب مزايا

اندازه گيری ميان شباهت

فيلدها

توانايي 1 عدم -شباهت يافت$$ن گروه سطح در

کلماتنظر 2 در -

تنها گرفت$$$ن شباهت های

رشته ای

اندازه گيری شباهت های حرفی

برپايه کاراکتر مقايسه فيلد

اندازه گيری ميان شباهت

فيلدها

گرفتن نظ$ر در شباهت های تنها

رشته ای

شباهت اندازه گيری ميان گروه کلمات


وجود عدم توسط قواني$$ن

افراد خبره برای شناسايي رکوردهای

تکراری

1 -برچسب گذاری آماده سازی و

داده های آموزشی

به 2 وابس$تگی -در شباهت تاب$ع بردار ساخت

ويژگی

- شناس$ايي تکرارها 1داده تعدادی توسط

آموزشیدخالت 2 کمتري$ن -

فرايند در انس$$ان شناسايي


تجم^^^يعی

امکان جمع آوری

داده آموزشی وجود ندارد

کارايي پايين بدون دخالت انسان برپايه فرمول های

جبری


22



: در نظر نداشتن شباهت معنايي 1مشکل روش های مقايسه فيلد تنها می توانند شباهت رشته ای و

يا شباهت های تلفظی ميان فيلدها را تعيين کنند. در بسياری از موارد فيلدها دارای شباهت رشته ای

نيستند ولی دارای ارتباط با يکديگر می باشند.کتاب

کتابچه

اتومبيل

خودرو

روش پيشنهادی

23



…ارتباط معنايي

دو رکورد زير به يک موجوديت در جهان واقع اشاره می کنندولی فيلدها دارای هيچ شباهت رشته ای نيستند.

نام شکل رنگ اندازهآلوی جنگلی گرد قرمز کوچکآلوی سياه دايره ای آلبالويي ريز


24



گراف معنايي گراف ابزاری برای نشان دادن ارتباط ميان مفاهيم

موجود در کلماتاستفاده از گراف معنايي برای بازنمايي و آناليز لغوی.هر نود نشاندهنده يک مفهوم است.مفاهيم مرتبط با يک يال به يکديگر متصل می شوند


25



گراف معنايي...موجوديت

جاندار شي

انسان حيوان

خودرو

فرمان چرخ دنده

...

.. .


26



شباهت معنايي روش های متفاوتی برای تعيين شباهت معنايي ميان

مفاهيم وجود داردتعداد گره های کوتاهترين مسيرجمع يا ضرب وزن دار يال های کوتاهترين مسيربزرگترين فاصله تا پدر مشترک


27



ارائه تابع شباهت معنايي استفاده از تابع شباهت معنايي به تنهايي نمي تواند

نشاندهنده ارتباط ميان فيلدها باشد..فيلدها ممکن است دارای خطاهای رشته ای باشند.بعضی از فيلدها مثل فيلد نام، دارای هيچ مفهومی نيست

استفاده از شباهت رشته ای و معنايي),(),(),( yxSimilarityyxSimilarityyxSimilarity stringsemantic



روش پيشنهادی آزمايشات روش پيشنهادینتيجه گيری

ارائ$ه تابع شباهت معنايي...

1مفهوم

2مفهوم

3مفهوم 4مفهوم 5مفهوم

2828




استفاده از تابع شباهت و

تشکيل بردار ويژگی

استفاده از يک مدل برای يادگيری داده های برچسب دار

استفاده از مدل آموزش ديده برای

برچسب گذاری ساير رکوردها

1فيلد 2فيلد ...nفيلد

شباهت شباهت 12

شباهت n

...

يکسانيا

غيريکسان

1فيلد 2فيلد ...nفيلد

28

29



: استفاده از تاب$ع شباهت مناسب2مشکل توابع شباهت متفاوت برای مجموعه داده های متفاوت:به عنوان مثال

داده هاي سيستم بازشناسی گفتار دارای شباهت های تلفظیهستند.

صفحات وب دارای خطاهای اماليي هستند.داده هاي


اعتياد

احتياط

تاهل

تعحل

30



: استفاده از ت$ابع شباهت مناسب...2مشکل لزوم استفاده از چندين تابع شباهت به صورت همزمان

به عنوان مثال ترکيب شباهت معنايي و رشته ایبردار ويژگی با استفاده از اين توابع ايجاد می شود

تاثير برروی کارايي الگوريتم های هوشمند


31



ارائ$ه روشی برای تعيين تابع شباهت

تابع شباهتی حاصل از ترکيب توابع شباهت کانديد

m

iii simwSimilarity

1

*

Similarity

sim n

از 1فيلد 1رکورد


sim 1

sim 2

…

w1

w2

wn


32



ارائه روشی برای تعيين تابع شباهت....وزن ها نشاندهنده اهميت هر يک از توابع شباهت هستند وزن های باالتر نشاندهنده اهميت بيشتر تابع شباهت

متناظر شده است. در روش های هوشمند، خروجی توابع شباهت برای هر

فيلد برای ساخت بردار شباهت استفاده می شود.

sim n



sim 1

sim 2

…

w1

w2

wn


33



ارائه روشی برای تعيين تابع شباهت...

1فيلد

nفيلد

1فيلد

nفيلد

sim n

sim 1

sim 2…

w1

w2

wn

sim n

sim 1

sim 2…

w1

w2

wn

برچسب مساوی و يا

نامساوی

1شباهت فيلد

...

nشباهت فيلد


34



تخمين وزن ها وزن ها بايد به گونه ای تعيين شود که کارايي الگوريتم های

هوشمند بيشينه شود.

محاسبه کارايي الگوريتم برای زير مجموعه ای

از داده های آموزشی

...

w1

w2

wn

کارايي الگوريتم

F(w1 , … , wn )


35



تخمين وزن ها ...

وزن ها بايد به شکلی تعيين شوند کهF(w1 , … , wn )

بيشينه شود. برای اين کار اين تابع را توسط يکی از الگوريتم های

تکاملی مثل الگوريتم ژنتيک استفاده می شود.


36



الگوريتم تعيين توابع شباهت تخمين وزن ها1مرحله :



انتخاب زير مجموعه ای از

داده ها و مجموعه ای از

توابع شباهت و وزن های اوليه

تشکيل بردار شباهت با استفاده از

وزن ها

استفاده از يک مدل يادگير و اندازه گيری

کارايي

بهينه سازی توسط

الگوريتم های تکاملی

تخمين وزن های مناسب و حذف توابع شباهت

نامناسب

37



1فيلد

nفيلد

الگوريتم تعيين توابع شباهت...مجموعه

1داده مجموعه

2داده


استفاده از تابع شباهت و

تشکيل بردار ويژگی

استفاده از يک مدل برای يادگيری داده های برچسب دار

1فيلد

nفيلد sim n

sim 1

sim 2…

w1

w2

wn

sim n

sim 1

sim 2…

w1

w2

wn

برچسب مساوی

و يا نامساوی

شباهت 1فيلد

...

شباهت nفيلد

استفاده از وزن ها2مرحله :

38



معيارهای ارزيابی :دقت

:يادآوری

F-measure :

datalabeledmethodofnumberdatalabeledtrueofnumberecision____

____Pr

datatruealldatalabeledtrueofnumbercall

______Re

callecisioncallecisionmeasureF

RePrRe*Pr

آزمايشات

39



داده های آزمايشداده رستوران

.در اکثر مقاالت به عنوان داده مرجع استفاده می شود اطالعات مربوط به رستوران ها که از$ دو و$ب سايت تهيه شده

است. اطالعات مربوط به تعدادی از اين رستوران ها در هر دو وب

سايت وجود دارد..فيلدها دارای معنی هستند

نوع و شهرنوع رستوران شهر آدرس نامCalifornian Los Angeles Horn Av.

114Spago

Californian w.Holly wood Sunset Blv Spago (Los angeles)

آزمايشات

40



داده های آزمايش... Cora:

توسطAndrew McCallum ايجاد شده و از جمله داده هایمرجع

.اطالعات مربوط به مقاالت در پايگاه داده های متفاوت است ،شامل: نام نويسنده، جلد، عنوان، موسسه، محل برگزاری

آدرس، ناشر، سال، تعداد صفحات، ويرايشگر، يادداشت، ماه.

آزمايشات

41



شرايط آزمايشات:توابع شباهت رشته ای مورد استفاده

Jaro :.تعداد کاراکترهای مشترک و تعداد جابه جايي ها برای تساوی دو رکورد را ان$دازه می گيرد

Soundex:.شباهت های تلفظی ميان رشته ها را اندازه می گيرد کاراکترهای با تلفظ مشابه را به کد تبدي$ل می شود، کدها به صورت رشته ای با يکديگر

مقايسه می شوند.Levenshtein:

.تعداد کاراکترهايي که بايد حذف، درج يا تغيير کنند تا دو رشته به يکديگر تبديل شوندQ-grams:

تعداد سری کاراکترهای مشترک

.اين توابع از جمله توابع مرجع در يافتن شباهت رشته ای هستند

آزمايشات

42



شرايط آزمايشات ..:برای دسته بندی از مدل های زير استفاده شده است

Naïve BayesBayes NetJ48RBFMulti Layer PerceptronVoted PerceptronADTree

دسته بندی کننده های فوق دارای باالترين کارايی در مقاالت هستند

آزمايشات

43


روش پيشنهادی آزمايشات : استفاده از تابع شباهت معنايي بر 1آزمايش نتيجه گيری

روی داده رستوران

Bayes

Net

Naïve B

ayes

MultiLay

er Pe

rceptro

nRBF

VotedPe

rceptro

n J48

ADTree

0.6

0.7

0.800000000000001

0.900000000000001

1Soundex New Method

f-m

easu

reآزمايشات

Bayes Net Naïve Bayes MultiLayer Perceptron

RBF VotedPerceptron J48 ADTree0.6000000000000010.6500000000000010.7000000000000010.7500000000000010.8000000000000010.8500000000000010.9000000000000010.950000000000001

1

Jaro New Method

F-measure

44


روش پيشنهادی آزمايشات نتيجه گيری : استفاده از تابع شباهت معنايي بر 1آزمايش

روی داده رستوران...آزمايشات

Bayes

Net

Naïve B

ayes

MultiLay

er Perc

eptro

nRBF

VotedP

ercep

tron J48

ADTree0.600000000000001

0.650000000000001

0.700000000000001

0.750000000000001

0.800000000000001

0.850000000000001

0.900000000000001

0.950000000000001

1

Q-gram New Method

f-measure

45



: کاهش تعداد داده های آموزشی2آزماي$ش 200 به 700کاهش تعداد داده های آزمايشی از

Jaro

Jaro + se

mantic

Leven

shtein

Leven

shtein+sem

antic

Soundex

Soundex + Sem

antic

Q-Gram

Q-Gram

+ Seman

tic0.82

0.84

0.86

0.88

0.9

0.92

0.94

0.96

0.98

f-measure

آزمايشات

46



: تعيين توابع شباهت مناسب3آزمايش دسته بندی کننده ها تمام$ی کاراي$ي ميانگي$ن

داده برروی شباهت تواب$ع از ي$ک ه$ر برای رستوران

وزن های محاسبه شده توسط

الگوريتم ژنتيک

تابع شباهت

0 Jaro0.5 Levenshtein0 Soundex

0.5 Q-gram0 Semantic

آزمايشات

Jaro Levenshtein Soundex Q-Grams همه تو$ابع ش$ب$ا$هت$ با$ وزن$ ها$ی$ يکس$ا$ن$

همه تو$ابع ش$ب$ا$هت$ با$ GA وزن$ ها$ی$

0.88

0.9

0.92

0.94

0.96

0.98

1

F-measure

47



: تعيين توابع شباهت مناسب3آزمايش ميانگي$ن کاراي$ي تمام$ی دس$ته بندی کننده ها برای ه$ر ي$ک از تواب$ع شباهت برروی داده

Cora

Jaro

Leven

shtein

Sound

ex

Q-Gram

s

ن$ های$ و$ز$

ت$ باشباه

ابع$ ه$ تو

هم...

ن$ ها و$ز$

ت$ باشباه

ابع$ ه$ تو

.هم..

0.84

0.86

0.88

0.9

0.92

0.94

0.96

0.98

1

F-measure

وزن های محاسبه

شده توسط الگوريتم

ژنتيک

تابع شباهت

0 Jaro0.9 Levenshtei

n0.1 Soundex0 Q-gram0 Semantic

آزمايشات

48



خالصه و نتيجه گيریدر بسياری از کاربردها يافتن رکوردهای تکراری مطرح است

يکپارچه سازی داده پااليش داده Similarity Query

تابع شباهتی ارائه شد که شباهت معنايي ميان مفاهيم را اندازه گيریمی کند.

.شباهت معنايي با استفاده از آناليز لغوی فيلدها اندازه گيری می شود.برای بازنمايي و آناليز معنايي، از گراف معنايي استفاده می شودتابع شباهت جديد برروی داده های مرجع آزمايش شد

.استفاده از تابع شباهت جديد سبب افزايش کارايي دسته بندی کننده ها می شود.تابع شباهت نسبت به کاهش تعداد داده های آزمايشی پايدارتر است

نتيجه گيری

49



خالصه و نتيجه گيری ... يافتن مشکالت از يک$ی مناس$ب شباه$ت تاب$ع تعيي$ن

رکوردهای تکراری است روش$ی ارائ$ه ش$د ک$ه ميزان اهمي$ت ه$ر ي$ک از تواب$ع شباه$ت با

توجه به مجموعه داده های متفاوت ر$ا محاسبه می کند. روش ارائ$ه شده برروی مجموع$ه داده های اس$تاندارد آزمايش

.شدآزمايشات نشان می دهد با تعيين تابع شباهت مناسب

محاسبات کمتر کارايي باالتر

نتيجه گيری

50



کارهای آيندهاستفاده از تابع شباهت معنايي در ساير روش ها

تاثير استفاده از تابع شباهت معنايي را می توان در سايرروش ها مثل روش های برپايه فاصله و يا خوشه بندی کننده ها

بررسی کرد.تعيين توابع شباهت مناسب برای هر يک از صفات

می توان اهميت توابع شباهت را برای هر يک از صفات درنظر گرفت و وزن ها با توجه به صفات تخمين زده شوند.

نتيجه گيری

51

[1] A. K. Elmagarmid and P. G. Ipeirotis, "Duplicate Record Detection: A Survey," IEEE transaction on knowledge and data engineering, vol. 19, pp. 1-16, 2007.

[2] Q. kan and Y. Yang, "An Integrated Approach for Detecting Approximate Duplicate Records," in Second Asia-Pacific Conference on Computational Intelligence and Industrial Applications, 2009, pp. 381-384.

[3] D. Jurafsky and J. H. Martin, An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 2009.[4] P. Moreda and B. Navarro, "Corpus-based semantic role approach in information retrieval," Data & Knowledge Engineering, vol. 61, pp. 467-483, 2007.[5] Y. Li and Z. A. Bandar, "An Approach for Measuring Semantic Similarity between Words Using Multiple Information Sources," IEEE transaction on

knowledge and data engineering, vol. 15, pp. 871-882, 2003.[6] A. Budanitsky and G. Hirst, "Evaluating WordNet-based Measures of Lexical Semantic Relatedness," Computational linguistics, vol. 32, pp. 13-47, 2006.[7] C. F. Dorneles and R. Gonçalves, "Approximate data instance matching: a survey," Knowl Inf Syst, vol. 27, pp. 1-21, 2011.[8] E. Durham and Y. Xue, "Quantifying the correctness, computational complexity and security of privacy-preserving string comparators for record

linkage," Information Fusion, 2011,In press.[9] M. Bilenko and R. J. Mooney, "Adaptive Duplicate Detection Using Learnable String Similarity Measures," in Proceedings of the Ninth ACM SIGKDD

International Conference on Knowledge Discovery and Data Mining, 2003, pp. 39-48.[10] C. F. Dorneles and M. F. Nunes, "A strategy for allowing meaningful and comparable scores in approximate matching," Information Systems, vol. 34, p.

673, 2009.[11] V. Levenshtein, "Binary Codes Capable of Correcting Deletions, Insertions and Reversals," Doklady Akademii Nauk SSSR, vol. 163, pp. 845-848, 1965.[12] G. Navarro and E. Chávez, "A metric index for approximate string matching," Theoretical Computer Science, vol. 352, pp. 266-279, 2006.[13] N. Koudas and S. Sarwagi, "Record Linkage: Similarity Measures and Algorithms," in ACM SIGMOD international conference on Management of data,

USA, 2006, pp. 802-803.[14] J. Wang and G. Li, "Entity matching: how similar is similar," in Proceedings of the VLDB Endowment, 2011, pp. 622-633.[15] R. d. Silva, et al., "Measuring quality of similarity functions in approximate data matching," Journal of Informetrics, vol. 1, pp. 2353-2356, 2007.[16] J. B. d. Santos and C. A. Heuser, "Automatic threshold estimation for data matching applications," Information Sciences, vol. 181, pp. 2699-2686, 2011.[17] S. Martínez and A. Valls, "An ontology-based record linkage method for textual microdata," in Proceedings of the 14th International Conference of the

Catalan Association for Artificial Intelligence, 2011, pp. 130-139.[18] H. Köpcke and A. Thor, "Evaluation of entity resolution approaches on real-world match problems," in Proceedings of the VLDB Endowment 2010.[19] K. Goiser and P. Christen, "Towards automated record linkage," in Proceedings of the fifth Australasian conference on Data mining and analystics,

Australia 2006, pp. 23-31.[20] Y. Liang, "A comparative experiment on record match algorithms: naïve Bayesian versus distance," in Proceedings of the 45th annual southeast

regional conference, USA, 2007, pp. 539-540.

مراجع

52

[21] G. Beskales, "ProbClean: A Probabilistic Duplicate Detection System," in IEEE ICDE Conference, Canada, 2010, pp. 1193-1196.[22] A. Culotta and A. McCallum, "Joint Deduplication of Multiple Record Types in Relational Data," in Proceedings of the 14th ACM international conference on

Information and knowledge management Germany, 2005, pp. 257-258.[23] W. E. Winkler, "Methods for evaluating and creating data quality," Information Systems, vol. 29, pp. 531-550, 2004.[24] D. Dey, "Entity matching in heterogeneous databases: A logistic regression approach," Decision Support Systems, vol. 44, pp. 740-747, 2008.[25] V. S. Verykios and G. V. Moustakides, "A Bayesian decision model for cost optimal record matching," The International Journal on Very Large Data Bases,

vol. 12, pp. 28-40, 2003.[26] V. S. Verykios and G. V. Moustakides, "A generalized cost optimal decision model for record matching," in Proceedings of the 2004 international workshop

on Information quality in information systems USA, 2004, pp. 20-26.[27] M. Cochinvala, "Efficient data reconciliation," Information Sciences, vol. 137, pp. 1-15, 2001.[28] X. Dong and A. Halevy, "Reference reconciliation in complex information spaces," in ACM SIGMOD international conference on Management of data, USA,

2005, pp. 69-85.[29] A. Arasu and M. Götz, "On Active Learning of Record Matching Packages," in SIGMOD 10, 2010, pp. 783-794.[30] J. d. Freitas and G. L. Pappa, "Active Learning Genetic Programming for Record Deduplication," in Evolutionary Computation (CEC) IEEE Congress on Digital

Object Identifier, Barcelona, 2010, pp. 1-8.[31] J. G. Conrad and C. Dozier, "Public record aggregation using semi-supervised entity resolution," in Proceedings of the 13th International Conference on

Artificial Intelligence and Law USA, 2011, pp. 10-15.[32] S. Sarawagi, "Interactive Deduplication Using Active Learning," in Proc. Eighth ACM SIGKDD Int’l Conf. Knowledge Discovery and Data Mining, 2003, pp.

269-287.[33] W. Fan and X. Jia, "Reasoning about record matching rules," VLDB Endowment, vol. 2, 2009.[34] W. L. Low and M. L. Lee, "A knowledge-based approach for duplicate elimination in data cleaning," Information Systems, vol. 26, p. 606, 2001.[35] O. Hassanzadeh and F. Chiang, "Framework for Evaluating Clustering Algorithms in Duplicate Detection," in PVLDB, 2009, pp. 1282-1293.[36] P. Ravikumar and W. W. Cohen, "A hierarchical graphical model for record linkage," in Proceedings of the 20th conference on Uncertainty in artificial

intelligence, USA, 2004, pp. 454-461.[37] Q. Hua, et al., "An Optimal Feature Selection Method for Approximately Duplicate Records Detecting," in Information Management and Engineering (ICIME),

2010, pp. 446-450.[38] P. Christen, "A two-step classification approach to unsupervised record linkage " in Proceedings of the sixth Australasian conference on Data mining and

analytics, Australia, 2007, pp. 111-119.[39] G. A. Wang and H. Atabakhsh, "A hierarchical Naïve Bayes model for approximate identity matching," Decision Support Systems, vol. 51, pp. 413-423, 2011.[40] M. Rehman and V. Esichaikul, "Duplicate Record Detection for Database Cleansing," in Second International Conference on Machine Vision, Dubai, 2009, pp.

333-338.

مراجع

53

[41] H. GuoJun and H. Ping, "An Approach for Detecting Approximately Duplicate Data Warehouse Records," in International Conference on Computer Application and System Modeling, Taiyuan 2010, pp. 679-682.

[42] D. R. Wilson, "Beyond Probabilistic Record Linkage: Using Neural Networks and Complex Features to Improve Genealogical Record Linkage," in Proceedings of International Joint Conference on Neural Networks, San Jose, California, USA, 2011, pp. 9-14.

[43] M. Ektefa and F. Sidi, "A Comparative Study in Classification Techniques for Unsupervised Record Linkage Model," Journal of Computer Science, vol. 6, pp. 341-347, 2011.

[44] G. d. Carvalho, "A Genetic Programming Approach to Record Deduplication," IEEE transaction on knowledge and data engineering, vol. 24, pp. 399 – 412, 2010.[45] M. G. Carvalho and A. H. F. Laender, "Replica identification using genetic programming," in Proceedings of the 2008 ACM Symposium on Applied Computing, Brazil

2008, pp. 1801-1806.[46] D. Dey and V. S. Mookerjee, "Efficient Techniques for Online Record Linkage," IEEE transaction on knowledge and data engineering, vol. 23, pp. 373-387, 2011.[47] H.-s. Kim and D. Lee, "Parallel linkage," in Proceedings of the sixteenth ACM conference on Conference on information and knowledge management USA, 2007, pp.

283-292.[48] S. E. Whang and H. G. Molina, "Entity resolution with evolving rules," VLDB Endowment, vol. 3, pp. 219-232, 2010.[49] M. Bilenko and S. Basu, "Adaptive Product Normalization: Using Online Learning for Record Linkage in Comparison Shopping," in Proceedings of the Fifth IEEE

International Conference on Data Mining, USA, 2005, pp. 8-13.[50] S. Yan and D. Lee, "Adaptive Sorted Neighborhood Methods for Effcient Record Linkage," in Proceedings of the 7th ACM/IEEE-CS joint conference on Digital

Libraries, Canada, 2007, pp. 185-194.[51] P. Christen, "Automatic record linkage using seeded nearest neighbour and support vector machine classification," in ACM SIGKDD’08, Las Vegas, 2008, pp. 151-

159.[52] G. V. Moustakides and V. S. Verykios, "Optimal Stopping: A Record-Linkage Approach," Journal of Data and Information Quality, vol. 1, pp. 1-34, 2009.[53] H. Köpcke and E. Rahm, "Frameworks for entity matching: A comparison," Data & Knowledge Engineering, vol. 69, pp. 197-210, 2010.[54] H. Zhao and S. Ramb, "Entity matching across heterogeneous data sources: An approach based on constrained cascade generalization," Data & Knowledge

Engineering, vol. 66, pp. 368-381, 2008.[55] H. Zhaoa and S. Ram, "Entity identification for heterogeneous database integration—a multiple classifier system approach and empirical evaluation," Information

Systems, vol. 30, pp. 119-132, 2005.[56] I. Bhattacharya and L. Getoor, "Iterative Record Linkage for Cleaning and Integration," in Proceedings of the Ninth ACM SIGMOD Workshop on Research Issues in

Data Mining and Knowledge Discovery, USA, 2004, pp. 11-18.[57] D. Buttler, "A short survey of document structure similarity algorithms," in Proceedings of the international conference on internet computing, USA, 2004, pp. 3-9.[58] S. Milano, "Structure aware xml object identification," presented at the Proceedings of the first Int’l VLDB workshop on clean databases, Korea, 2006.[59] B. Marshall and H. Chen, "Matching knowledge elements in concept maps using a similarity flooding algorithm," Decision Support Systems, vol. 42, p. 1290, 2006.[60] Y. J and C. WK, "Integrating element and term semantics for similarity-based xml document clustering," in IEEE/WIC/ACM international conference on web

intelligence (WI), USA, 2005, pp. 222-228.

مراجع

54

[61] V. S. Verykios and A. K. Elmagarmid, "Automating the approximate record-matching process," Information Sciences, vol. 126, p. 92, 2000.[62] P. Paskalev and A. Antonov, "Increasing the performance of an application for duplication detection," in Proceedings of the 2007 international

conference on Computer Systems and Technologies, USA, 2007, pp. 1-8.[63] S. Lee and J. Lee, "Scalable entity matching computation with materialization," in Proceedings of the 20th ACM international conference on

Information and knowledge management 2011, pp. 2353-2356.[64] P. Christen, "A Survey of Indexing Techniques for Scalable Record Linkage and Deduplication," IEEE transaction on knowledge and data

engineering, vol. PP, pp. 1-1, 2011.[65] J. Gómez-Bao and J.-L. Larriba-Pey, "Record linkage performance for large data sets," in Proceedings of the ACM first international workshop on

Privacy and anonymity for very large databases, New York, 2009, pp. 9-16.[66] A. Al-Lawati and D. Lee, "Blocking Aware Private Record Linkage," in Proceedings of the 2nd international workshop on Information quality in

information systems USA, 2005, pp. 59-68.[67] U. Draisbach, "A Generalization of Blocking and Windowing Algorithms for Duplicate Detection," in IEEE transaction on knowledge and data

engineering, 2011, pp. 18-24.[68] G. Papadakis and E. Ioannou, "Efficient entity resolution for large heterogeneous information spaces," in Proceedings of the fourth ACM

international conference on Web search and data mining USA, 2011.[69] T. D. Vries and H. Ke, "Robust Record Linkage Blocking Using Suffix Arrays and Bloom Filters," ACM Transactions on Knowledge Discovery from

Data, vol. 5, 2011.[70] S. E. Whang and D. Menestrina, "Entity resolution with iterative blocking," in Proceedings of the 2009 ACM SIGMOD International Conference on

Management of Data, 2009, pp. 219-232.

مراجع

با تشکر از توجه

شما

تشخيص رکوردهای تکراری با استفاده از آناليز معنايي...

Documents