تشخيص رکوردهای تکراری با استفاده از آناليز معنايي...
DESCRIPTION
تشخيص رکوردهای تکراری با استفاده از آناليز معنايي دادههای عملياتی. نام دانشجو: علی عبدلی اساتيد داور: آقای دکتر مينايي، آقای دکتر ميبدی استاد راهنما: آقای دکتر عبدالهزاده. فهرست. مقدمه. مقدمه. رکوردهای تکراری عبارتند از بازنماييهای متفاوت از يک موجوديت در جهان واقع. - PowerPoint PPT PresentationTRANSCRIPT
تشخيص رکوردهای تکراری با استفاده از آناليز معنايي داده های
عملياتی
نام دانشجو: علی عبدلی آقای دکتر اساتيد داور: آقای دکتر مينايي،
ميبدیاستاد راهنما: آقای دکتر عبداله زاده
1
2
فهرست
مقدمه بررسی کارهای گذشته
بررسی مشکالت و
ارائه راه حل
پيشنهادی
آزمايشات و نتايج
نتيجه گيری و
کارهای آينده
3
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
مقدمه
رکوردهای تکراری عبارتن$د از بازنمايي های متفاوت از ي$ک موجوديت درجهان واقع.
با يکس$$ان موجوديت های يافت$$ن تکراری، رکوردهای شناس$$ايي بازنمايي های متفاوت است.
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات مقدمهنتيجه گيری
محمد رضا عبدلی دانشجوی کارشناسی
ارشد
تهران – خيابان پاسداران – خيابان
3نيستان دوم- پ
مهندسی کامپيوتر
محمد عبدلی دانشجو تهران خ پاسداران – باالتر از ميدان احتشاميه- پالک
3
مهندسی کامپيوتر - هوش مصنوعی
4
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
کاربردهای يافتن رکوردهای تکراری
تشخيص رکوردهای تکراری در کاربردهای زير مطرحاست
يکپارچه سازی داده هاSimilarity Query
پاکسازی داده ها
مقدمه
5
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
يکپارچه سازی داده ها اطالعات مربوط به موجوديت ها در منابع داده ای متفاوت
ذخيره شده اند. الزم است اطالعات مربوط به يک موجوديت از منابع
اطالعاتی مختلف گردآوری شود.
مقدمه
پايگاه داده حقوق و دستمزد
پايگاه داده رفاه کارکنان
پايگاه داده دانشگاه
6
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
SIMILARITY QUERY ب$ا درخواست پايگاه های داده امکان تط$بيق داده ه$ا در گروه$ی از
کاربر وجود ندارد.به عنوان مثال در يک موتور جستجو
.يافتن متون مربوط به درخواست کاربريافتن موجوديت با شباهت بيشتر
مقدمه
صاايران حافظه 100
حداکثر گرم200
شرکت توليد کننده
حافظه وزن رنگ ابعاد
صاايران 100 190 مشکی 10*20صاايران 100 210 سبز 15*15
LG 50 200 آبی 10*10صاايران 100 20 مشکی 10*10
7
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
پاکسازی داده ها اطالعات با کيفيت پايين سبب کاهش کارايي سازمان ها و
تصميمات اشتباهاطالعات با کيفيت پايين عبارتند از
اطالعات تکراری غلط های اماليي و با نمايش اشتباه
وجود داده های تکراری باعثگزارشات اشتباه و در نتيجه تصميمات اشتباه
فرستادن چندين ايميل يکسان برای يک مشتریهزينه نگهداری داده های اضافی برروی رسانه
مقدمه
8
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
پيش پردازش
تبديل داده ها به رکورداستخراج ويژگی از صفحات وب، تصاوير، فيلم ها
رکوردها برای آنکه قابل مقايسه شوند، بايد استانداردسازی، پارسيا تبديل به داده های جديد شوند.
علی عبدلی
مهر 1360
... دانشگاه
اميرکبير
علی عبدلی
1360/7
... دانشگاه پلی تکنيک
مقدمه
9
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
روش ها و رويکردها در يافتن داده های تکراری در تشخيص داده های تکراری، داده ها به شکل زير مدل
می شوند ساختارمقدار
روش ها با توجه به اين که شباهت ميان ساختار و يامقدار و يا هر دو را در نظر بگيرند، به دسته ها مختلف
تقسيم می شوند.
کارهای گذشته
10
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات روش ها و رويکردها در يافتن داده های نتيجه گيری
تکراری...روش های تشخيص داده های تکراری
روش های برپايه مقدار
مقايسه فيلد
برپايه توکن
برپايه کاراکتر
تجميعی
برپايه فرمول های جبری
هوشمند
برپايه ساختار
روش های برپايه گراف
روش های برپايه مسير
روش های ترکيبی
برپايه استخراج اطالعات
شمند روش های ه̂و
روش های برپايه درخت
روش های برپايه مسير
کارهای گذشته
11
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات کارهای گذشتهنتيجه گيری
روش های برپايه ساختار و ترکيبیروش های برپايه ساختار و ترکيبی
داده ها دارای ساختار هستند
روش های تشخيص داده های تکراری
روش های برپايه مقدار برپايه ساختار
روش های برپايه گراف
روش های برپايه مسير
روش های ترکيبی
برپايه استخراج اطالعات
روش های هوشمند
روش های برپايه درخت
روش های برپايه مسير
کشور
نام
ايران
جغرافیپايتختهتران
کشور همسايهترکيه
مذهبشيعه
کشور
نام
ايران
جغرافی
پايتختتهران
ديناسالم
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
روش های برپايه مقدار
در اين روش ها، شباهت با توجه به مقدارداده ها مقايسه می شود و شباهت های
ساختاری در نظر گرفته نمی شود. در مقايسه رکوردها از روش های برپايه مقدار
استفاده می شود زيرا:.رکوردها دارای ساختار يکسانی هستند در مرحله پيش پرداز$ش فيلدهای قابل مقايسه
استخراج شده است.12
روش های تشخيص داده های تکراری
روش های برپايه مقدار
مقايسه فيلد
برپايه توکن
برپايه کاراکت
ر
تجميعی
برپايه فرمول های جبری
هوشمند
برپايه ساختار روش های ترکيبی
کارهای گذشته
13
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات کارهای گذشتهنتيجه گيری
روش های مقايسه فيلد
فيلدها ميان شباه$$ت روش ه$$ا اي$$ن در اندازه گيری می شود.
تابع شباهت، تابعی است که شباهت ميان دوفيل$د را اندازه گيری کرده و ب$ه صورت عددی
بين صفر و يک بيان می کند.
روش های تشخيص داده های تکراری
روش های برپايه مقدار
مقايسه فيلد
برپايه توکن
برپايه کاراکت
ر
تجميعی
برپايه فرمول های جبری
هوشمند
برپايه ساختار روش های ترکيبی
محمد علی
محمد
F(x,y)=0.7
14
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات کارهای گذشتهنتيجه گيری
…روش های مقايسه فيلدروش ها مقايسه فيلد به دو دسته تقسيم می شوند
برپايه کاراکترشباهت بر اساس کاراکترها
برپايه توکن در صورت تغييرات در سطح کلمات تشکيل دهنده فيلد، روش های برپايه
کاراکتر دارای کارايي مناسب نيستند.
روش های تشخيص داده های تکراری
روش های برپايه مقدار
مقايسه فيلد
برپايه توکن
برپايه کاراکت
ر
تجميعی
برپايه فرمول های جبری
هوشمند
برپايه ساختار روش های ترکيبی
مقايسه فيلد
برپايه توکن
برپايه کاراکتر
شنبه
دوشنبه
F(x,y)=0.7
تهران، خيابان حافظ، دانشگاه اميرکبير
دانشگاه اميرکبير، ايران، تهران، خيابان حافظ
F(x,y)=0.8
15
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
روش های تجميعی
رکورد کل شباه$$ت ميزان تجم$يع$$ی روش های در اندازه گيری می شود.
اين روش ها به دو دسته زير دسته بندی می شوندروش های برپايه فرمول های جبریروش های هوشمند
روش های تشخيص داده های تکراری
روش های برپايه مقدار
مقايسه فيلد
برپايه توکن
برپايه کاراکت
ر
تجميعی
برپايه فرمول های جبری
هوشمند
برپايه ساختار روش های ترکيبی
کارهای گذشته
محمد علی عبدلی
1/80 رنگ مو مشکی
...
علی عبدلی
180 رنگ مو سياه
...
16
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
روش های ب$رپايه فرمول های جبری
جبری فرمول های برپاي$$ه روش های در رويکردهای متفاوتی وجود دارد
جمع وزن دار شباهت فيلدهاتبديل کل رکورد به يک فيلد...
مشکل تعيين حدود آستانه 90بهترين کارايي در حدود%
روش های تشخيص داده های تکراری
روش های برپايه مقدار
مقايسه فيلد
برپايه توکن
برپايه کاراکت
ر
تجميعی
برپايه فرمول های جبری
هوشمند
برپايه ساختار روش های ترکيبی
کارهای گذشته
17
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات کارهای گذشتهنتيجه گيری
روش های هوشمند
استفاده از الگوريتم های يادگيری ماشينآموزش با استفاده از دادهاستفاده از مدل برای داده های تستیمزايا
کمترين دخالت انسانباالترين کارايي
روش های تشخيص داده های تکراری
روش های برپايه مقدار
مقايسه فيلد
برپايه توکن
برپايه کاراکت
ر
تجميعی
برپايه فرمول های جبری
هوشمند
برپايه ساختار روش های ترکيبی
18
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
مراحل روش های هوشمندتشکيل بردار ويژگی با استفاده از مقايسه فيلد به فيلد
1فيلد 2فيلد … nفيلد
1فيلد 2فيلد … nفيلد
شباهت 1
شباهت 2
شباهت n...
يکسانيا
غيريکسان
کارهای گذشته
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات کارهای گذشتهنتيجه گيری
مراحل روش های هوشمند...
19
فرد خبره
مجموعه 1داده
مجموعه 2داده
مقايسه دوبه دو تعدادی از رکوردها و برچسب زنی
استفاده از تابع شباهت و تشکيل بردار ويژگی
استفاده از يک مدل برای يادگيری داده های
برچسب دار
استفاده از مدل آموزش ديده برای برچسب گذاری
ساير رکوردها
20
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
روش های هوشمند...Andrew McCallum
ارائه مدل های بيزين و شبکه های بيزی و مدل های احتمالیارائه مجموعه داده های مرجع
Ahmed Elmagarmid ارائهsurveyاز تمامی روش ها و رويکردهای موجود
Vassilios Verykiosاستفاده از روش های استخراج قوانين به صورت اتوماتيک
Sunita Sarawagi استفاده از روش های يادگيری فعال
Debabrata Deyتشخيص رکوردهای تکراری به صورت برخط
Huimin Zhaoترکيب دسته بندی کننده های مختلف
کارهای گذشته
21
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
مزايا و معايب روش های موجودکاربرد معايب مزايا
اندازه گيری ميان شباهت
فيلدها
توانايي 1 عدم -شباهت يافت$$ن گروه سطح در
کلماتنظر 2 در -
تنها گرفت$$$ن شباهت های
رشته ای
اندازه گيری شباهت های حرفی
برپايه کاراکتر مقايسه فيلد
اندازه گيری ميان شباهت
فيلدها
گرفتن نظ$ر در شباهت های تنها
رشته ای
شباهت اندازه گيری ميان گروه کلمات
برپايه توکن
وجود عدم توسط قواني$$ن
افراد خبره برای شناسايي رکوردهای
تکراری
1 -برچسب گذاری آماده سازی و
داده های آموزشی
به 2 وابس$تگی -در شباهت تاب$ع بردار ساخت
ويژگی
- شناس$ايي تکرارها 1داده تعدادی توسط
آموزشیدخالت 2 کمتري$ن -
فرايند در انس$$ان شناسايي
روش های هوشمند
تجم^^^يعی
امکان جمع آوری
داده آموزشی وجود ندارد
کارايي پايين بدون دخالت انسان برپايه فرمول های
جبری
کارهای گذشته
22
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
: در نظر نداشتن شباهت معنايي 1مشکل روش های مقايسه فيلد تنها می توانند شباهت رشته ای و
يا شباهت های تلفظی ميان فيلدها را تعيين کنند. در بسياری از موارد فيلدها دارای شباهت رشته ای
نيستند ولی دارای ارتباط با يکديگر می باشند.کتاب
کتابچه
اتومبيل
خودرو
روش پيشنهادی
23
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
…ارتباط معنايي
دو رکورد زير به يک موجوديت در جهان واقع اشاره می کنندولی فيلدها دارای هيچ شباهت رشته ای نيستند.
نام شکل رنگ اندازهآلوی جنگلی گرد قرمز کوچکآلوی سياه دايره ای آلبالويي ريز
روش پيشنهادی
24
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
گراف معنايي گراف ابزاری برای نشان دادن ارتباط ميان مفاهيم
موجود در کلماتاستفاده از گراف معنايي برای بازنمايي و آناليز لغوی.هر نود نشاندهنده يک مفهوم است.مفاهيم مرتبط با يک يال به يکديگر متصل می شوند
روش پيشنهادی
25
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
گراف معنايي...موجوديت
جاندار شي
انسان حيوان
خودرو
فرمان چرخ دنده
...
.. .
روش پيشنهادی
26
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
شباهت معنايي روش های متفاوتی برای تعيين شباهت معنايي ميان
مفاهيم وجود داردتعداد گره های کوتاهترين مسيرجمع يا ضرب وزن دار يال های کوتاهترين مسيربزرگترين فاصله تا پدر مشترک
روش پيشنهادی
27
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
ارائه تابع شباهت معنايي استفاده از تابع شباهت معنايي به تنهايي نمي تواند
نشاندهنده ارتباط ميان فيلدها باشد..فيلدها ممکن است دارای خطاهای رشته ای باشند.بعضی از فيلدها مثل فيلد نام، دارای هيچ مفهومی نيست
استفاده از شباهت رشته ای و معنايي),(),(),( yxSimilarityyxSimilarityyxSimilarity stringsemantic
روش پيشنهادی
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات روش پيشنهادینتيجه گيری
ارائ$ه تابع شباهت معنايي...
1مفهوم
2مفهوم
3مفهوم 4مفهوم 5مفهوم
2828
مجموعه 1داده
مجموعه 2داده
مقايسه دوبه دو تعدادی از رکوردها و برچسب زنی
استفاده از تابع شباهت و
تشکيل بردار ويژگی
استفاده از يک مدل برای يادگيری داده های برچسب دار
استفاده از مدل آموزش ديده برای
برچسب گذاری ساير رکوردها
1فيلد 2فيلد ...nفيلد
شباهت شباهت 12
شباهت n
...
يکسانيا
غيريکسان
1فيلد 2فيلد ...nفيلد
28
29
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
: استفاده از تاب$ع شباهت مناسب2مشکل توابع شباهت متفاوت برای مجموعه داده های متفاوت:به عنوان مثال
داده هاي سيستم بازشناسی گفتار دارای شباهت های تلفظیهستند.
صفحات وب دارای خطاهای اماليي هستند.داده هاي
روش پيشنهادی
اعتياد
احتياط
تاهل
تعحل
30
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
: استفاده از ت$ابع شباهت مناسب...2مشکل لزوم استفاده از چندين تابع شباهت به صورت همزمان
به عنوان مثال ترکيب شباهت معنايي و رشته ایبردار ويژگی با استفاده از اين توابع ايجاد می شود
تاثير برروی کارايي الگوريتم های هوشمند
روش پيشنهادی
31
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
ارائ$ه روشی برای تعيين تابع شباهت
تابع شباهتی حاصل از ترکيب توابع شباهت کانديد
m
iii simwSimilarity
1
*
Similarity
sim n
از 1فيلد 1رکورد
از 1فيلد 2رکورد
sim 1
sim 2
…
w1
w2
wn
روش پيشنهادی
32
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
ارائه روشی برای تعيين تابع شباهت....وزن ها نشاندهنده اهميت هر يک از توابع شباهت هستند وزن های باالتر نشاندهنده اهميت بيشتر تابع شباهت
متناظر شده است. در روش های هوشمند، خروجی توابع شباهت برای هر
فيلد برای ساخت بردار شباهت استفاده می شود.
sim n
از 1فيلد 1رکورد
از 1فيلد 2رکورد
sim 1
sim 2
…
w1
w2
wn
روش پيشنهادی
33
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
ارائه روشی برای تعيين تابع شباهت...
1فيلد
nفيلد
1فيلد
nفيلد
sim n
sim 1
sim 2…
w1
w2
wn
sim n
sim 1
sim 2…
w1
w2
wn
برچسب مساوی و يا
نامساوی
1شباهت فيلد
...
nشباهت فيلد
روش پيشنهادی
34
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
تخمين وزن ها وزن ها بايد به گونه ای تعيين شود که کارايي الگوريتم های
هوشمند بيشينه شود.
محاسبه کارايي الگوريتم برای زير مجموعه ای
از داده های آموزشی
...
w1
w2
wn
کارايي الگوريتم
F(w1 , … , wn )
روش پيشنهادی
35
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
تخمين وزن ها ...
وزن ها بايد به شکلی تعيين شوند کهF(w1 , … , wn )
بيشينه شود. برای اين کار اين تابع را توسط يکی از الگوريتم های
تکاملی مثل الگوريتم ژنتيک استفاده می شود.
روش پيشنهادی
36
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات روش پيشنهادینتيجه گيری
الگوريتم تعيين توابع شباهت تخمين وزن ها1مرحله :
مجموعه 1داده
مجموعه 2داده
انتخاب زير مجموعه ای از
داده ها و مجموعه ای از
توابع شباهت و وزن های اوليه
تشکيل بردار شباهت با استفاده از
وزن ها
استفاده از يک مدل يادگير و اندازه گيری
کارايي
بهينه سازی توسط
الگوريتم های تکاملی
تخمين وزن های مناسب و حذف توابع شباهت
نامناسب
37
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات روش پيشنهادینتيجه گيری
1فيلد
nفيلد
الگوريتم تعيين توابع شباهت...مجموعه
1داده مجموعه
2داده
مقايسه دوبه دو تعدادی از رکوردها و برچسب زنی
استفاده از تابع شباهت و
تشکيل بردار ويژگی
استفاده از يک مدل برای يادگيری داده های برچسب دار
1فيلد
nفيلد sim n
sim 1
sim 2…
w1
w2
wn
sim n
sim 1
sim 2…
w1
w2
wn
برچسب مساوی
و يا نامساوی
شباهت 1فيلد
...
شباهت nفيلد
استفاده از وزن ها2مرحله :
38
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
معيارهای ارزيابی :دقت
:يادآوری
F-measure :
datalabeledmethodofnumberdatalabeledtrueofnumberecision____
____Pr
datatruealldatalabeledtrueofnumbercall
______Re
callecisioncallecisionmeasureF
RePrRe*Pr
آزمايشات
39
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
داده های آزمايشداده رستوران
.در اکثر مقاالت به عنوان داده مرجع استفاده می شود اطالعات مربوط به رستوران ها که از$ دو و$ب سايت تهيه شده
است. اطالعات مربوط به تعدادی از اين رستوران ها در هر دو وب
سايت وجود دارد..فيلدها دارای معنی هستند
نوع و شهرنوع رستوران شهر آدرس نامCalifornian Los Angeles Horn Av.
114Spago
Californian w.Holly wood Sunset Blv Spago (Los angeles)
آزمايشات
40
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
داده های آزمايش... Cora:
توسطAndrew McCallum ايجاد شده و از جمله داده هایمرجع
.اطالعات مربوط به مقاالت در پايگاه داده های متفاوت است ،شامل: نام نويسنده، جلد، عنوان، موسسه، محل برگزاری
آدرس، ناشر، سال، تعداد صفحات، ويرايشگر، يادداشت، ماه.
آزمايشات
41
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
شرايط آزمايشات:توابع شباهت رشته ای مورد استفاده
Jaro :.تعداد کاراکترهای مشترک و تعداد جابه جايي ها برای تساوی دو رکورد را ان$دازه می گيرد
Soundex:.شباهت های تلفظی ميان رشته ها را اندازه می گيرد کاراکترهای با تلفظ مشابه را به کد تبدي$ل می شود، کدها به صورت رشته ای با يکديگر
مقايسه می شوند.Levenshtein:
.تعداد کاراکترهايي که بايد حذف، درج يا تغيير کنند تا دو رشته به يکديگر تبديل شوندQ-grams:
تعداد سری کاراکترهای مشترک
.اين توابع از جمله توابع مرجع در يافتن شباهت رشته ای هستند
آزمايشات
42
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
شرايط آزمايشات ..:برای دسته بندی از مدل های زير استفاده شده است
Naïve BayesBayes NetJ48RBFMulti Layer PerceptronVoted PerceptronADTree
دسته بندی کننده های فوق دارای باالترين کارايی در مقاالت هستند
آزمايشات
43
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات : استفاده از تابع شباهت معنايي بر 1آزمايش نتيجه گيری
روی داده رستوران
Bayes
Net
Naïve B
ayes
MultiLay
er Pe
rceptro
nRBF
VotedPe
rceptro
n J48
ADTree
0.6
0.7
0.800000000000001
0.900000000000001
1Soundex New Method
f-m
easu
reآزمايشات
Bayes Net Naïve Bayes MultiLayer Perceptron
RBF VotedPerceptron J48 ADTree0.6000000000000010.6500000000000010.7000000000000010.7500000000000010.8000000000000010.8500000000000010.9000000000000010.950000000000001
1
Jaro New Method
F-measure
44
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری : استفاده از تابع شباهت معنايي بر 1آزمايش
روی داده رستوران...آزمايشات
Bayes
Net
Naïve B
ayes
MultiLay
er Perc
eptro
nRBF
VotedP
ercep
tron J48
ADTree0.600000000000001
0.650000000000001
0.700000000000001
0.750000000000001
0.800000000000001
0.850000000000001
0.900000000000001
0.950000000000001
1
Q-gram New Method
f-measure
45
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
: کاهش تعداد داده های آموزشی2آزماي$ش 200 به 700کاهش تعداد داده های آزمايشی از
Jaro
Jaro + se
mantic
Leven
shtein
Leven
shtein+sem
antic
Soundex
Soundex + Sem
antic
Q-Gram
Q-Gram
+ Seman
tic0.82
0.84
0.86
0.88
0.9
0.92
0.94
0.96
0.98
f-measure
آزمايشات
46
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
: تعيين توابع شباهت مناسب3آزمايش دسته بندی کننده ها تمام$ی کاراي$ي ميانگي$ن
داده برروی شباهت تواب$ع از ي$ک ه$ر برای رستوران
وزن های محاسبه شده توسط
الگوريتم ژنتيک
تابع شباهت
0 Jaro0.5 Levenshtein0 Soundex
0.5 Q-gram0 Semantic
آزمايشات
Jaro Levenshtein Soundex Q-Grams همه تو$ابع ش$ب$ا$هت$ با$ وزن$ ها$ی$ يکس$ا$ن$
همه تو$ابع ش$ب$ا$هت$ با$ GA وزن$ ها$ی$
0.88
0.9
0.92
0.94
0.96
0.98
1
F-measure
47
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
: تعيين توابع شباهت مناسب3آزمايش ميانگي$ن کاراي$ي تمام$ی دس$ته بندی کننده ها برای ه$ر ي$ک از تواب$ع شباهت برروی داده
Cora
Jaro
Leven
shtein
Sound
ex
Q-Gram
s
ن$ های$ و$ز$
ت$ باشباه
ابع$ ه$ تو
هم...
ن$ ها و$ز$
ت$ باشباه
ابع$ ه$ تو
.هم..
0.84
0.86
0.88
0.9
0.92
0.94
0.96
0.98
1
F-measure
وزن های محاسبه
شده توسط الگوريتم
ژنتيک
تابع شباهت
0 Jaro0.9 Levenshtei
n0.1 Soundex0 Q-gram0 Semantic
آزمايشات
48
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
خالصه و نتيجه گيریدر بسياری از کاربردها يافتن رکوردهای تکراری مطرح است
يکپارچه سازی داده پااليش داده Similarity Query
تابع شباهتی ارائه شد که شباهت معنايي ميان مفاهيم را اندازه گيریمی کند.
.شباهت معنايي با استفاده از آناليز لغوی فيلدها اندازه گيری می شود.برای بازنمايي و آناليز معنايي، از گراف معنايي استفاده می شودتابع شباهت جديد برروی داده های مرجع آزمايش شد
.استفاده از تابع شباهت جديد سبب افزايش کارايي دسته بندی کننده ها می شود.تابع شباهت نسبت به کاهش تعداد داده های آزمايشی پايدارتر است
نتيجه گيری
49
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
خالصه و نتيجه گيری ... يافتن مشکالت از يک$ی مناس$ب شباه$ت تاب$ع تعيي$ن
رکوردهای تکراری است روش$ی ارائ$ه ش$د ک$ه ميزان اهمي$ت ه$ر ي$ک از تواب$ع شباه$ت با
توجه به مجموعه داده های متفاوت ر$ا محاسبه می کند. روش ارائ$ه شده برروی مجموع$ه داده های اس$تاندارد آزمايش
.شدآزمايشات نشان می دهد با تعيين تابع شباهت مناسب
محاسبات کمتر کارايي باالتر
نتيجه گيری
50
مقدمه کارهای گذشته
روش پيشنهادی آزمايشات نتيجه گيری
کارهای آيندهاستفاده از تابع شباهت معنايي در ساير روش ها
تاثير استفاده از تابع شباهت معنايي را می توان در سايرروش ها مثل روش های برپايه فاصله و يا خوشه بندی کننده ها
بررسی کرد.تعيين توابع شباهت مناسب برای هر يک از صفات
می توان اهميت توابع شباهت را برای هر يک از صفات درنظر گرفت و وزن ها با توجه به صفات تخمين زده شوند.
نتيجه گيری
51
[1] A. K. Elmagarmid and P. G. Ipeirotis, "Duplicate Record Detection: A Survey," IEEE transaction on knowledge and data engineering, vol. 19, pp. 1-16, 2007.
[2] Q. kan and Y. Yang, "An Integrated Approach for Detecting Approximate Duplicate Records," in Second Asia-Pacific Conference on Computational Intelligence and Industrial Applications, 2009, pp. 381-384.
[3] D. Jurafsky and J. H. Martin, An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 2009.[4] P. Moreda and B. Navarro, "Corpus-based semantic role approach in information retrieval," Data & Knowledge Engineering, vol. 61, pp. 467-483, 2007.[5] Y. Li and Z. A. Bandar, "An Approach for Measuring Semantic Similarity between Words Using Multiple Information Sources," IEEE transaction on
knowledge and data engineering, vol. 15, pp. 871-882, 2003.[6] A. Budanitsky and G. Hirst, "Evaluating WordNet-based Measures of Lexical Semantic Relatedness," Computational linguistics, vol. 32, pp. 13-47, 2006.[7] C. F. Dorneles and R. Gonçalves, "Approximate data instance matching: a survey," Knowl Inf Syst, vol. 27, pp. 1-21, 2011.[8] E. Durham and Y. Xue, "Quantifying the correctness, computational complexity and security of privacy-preserving string comparators for record
linkage," Information Fusion, 2011,In press.[9] M. Bilenko and R. J. Mooney, "Adaptive Duplicate Detection Using Learnable String Similarity Measures," in Proceedings of the Ninth ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining, 2003, pp. 39-48.[10] C. F. Dorneles and M. F. Nunes, "A strategy for allowing meaningful and comparable scores in approximate matching," Information Systems, vol. 34, p.
673, 2009.[11] V. Levenshtein, "Binary Codes Capable of Correcting Deletions, Insertions and Reversals," Doklady Akademii Nauk SSSR, vol. 163, pp. 845-848, 1965.[12] G. Navarro and E. Chávez, "A metric index for approximate string matching," Theoretical Computer Science, vol. 352, pp. 266-279, 2006.[13] N. Koudas and S. Sarwagi, "Record Linkage: Similarity Measures and Algorithms," in ACM SIGMOD international conference on Management of data,
USA, 2006, pp. 802-803.[14] J. Wang and G. Li, "Entity matching: how similar is similar," in Proceedings of the VLDB Endowment, 2011, pp. 622-633.[15] R. d. Silva, et al., "Measuring quality of similarity functions in approximate data matching," Journal of Informetrics, vol. 1, pp. 2353-2356, 2007.[16] J. B. d. Santos and C. A. Heuser, "Automatic threshold estimation for data matching applications," Information Sciences, vol. 181, pp. 2699-2686, 2011.[17] S. Martínez and A. Valls, "An ontology-based record linkage method for textual microdata," in Proceedings of the 14th International Conference of the
Catalan Association for Artificial Intelligence, 2011, pp. 130-139.[18] H. Köpcke and A. Thor, "Evaluation of entity resolution approaches on real-world match problems," in Proceedings of the VLDB Endowment 2010.[19] K. Goiser and P. Christen, "Towards automated record linkage," in Proceedings of the fifth Australasian conference on Data mining and analystics,
Australia 2006, pp. 23-31.[20] Y. Liang, "A comparative experiment on record match algorithms: naïve Bayesian versus distance," in Proceedings of the 45th annual southeast
regional conference, USA, 2007, pp. 539-540.
مراجع
52
[21] G. Beskales, "ProbClean: A Probabilistic Duplicate Detection System," in IEEE ICDE Conference, Canada, 2010, pp. 1193-1196.[22] A. Culotta and A. McCallum, "Joint Deduplication of Multiple Record Types in Relational Data," in Proceedings of the 14th ACM international conference on
Information and knowledge management Germany, 2005, pp. 257-258.[23] W. E. Winkler, "Methods for evaluating and creating data quality," Information Systems, vol. 29, pp. 531-550, 2004.[24] D. Dey, "Entity matching in heterogeneous databases: A logistic regression approach," Decision Support Systems, vol. 44, pp. 740-747, 2008.[25] V. S. Verykios and G. V. Moustakides, "A Bayesian decision model for cost optimal record matching," The International Journal on Very Large Data Bases,
vol. 12, pp. 28-40, 2003.[26] V. S. Verykios and G. V. Moustakides, "A generalized cost optimal decision model for record matching," in Proceedings of the 2004 international workshop
on Information quality in information systems USA, 2004, pp. 20-26.[27] M. Cochinvala, "Efficient data reconciliation," Information Sciences, vol. 137, pp. 1-15, 2001.[28] X. Dong and A. Halevy, "Reference reconciliation in complex information spaces," in ACM SIGMOD international conference on Management of data, USA,
2005, pp. 69-85.[29] A. Arasu and M. Götz, "On Active Learning of Record Matching Packages," in SIGMOD 10, 2010, pp. 783-794.[30] J. d. Freitas and G. L. Pappa, "Active Learning Genetic Programming for Record Deduplication," in Evolutionary Computation (CEC) IEEE Congress on Digital
Object Identifier, Barcelona, 2010, pp. 1-8.[31] J. G. Conrad and C. Dozier, "Public record aggregation using semi-supervised entity resolution," in Proceedings of the 13th International Conference on
Artificial Intelligence and Law USA, 2011, pp. 10-15.[32] S. Sarawagi, "Interactive Deduplication Using Active Learning," in Proc. Eighth ACM SIGKDD Int’l Conf. Knowledge Discovery and Data Mining, 2003, pp.
269-287.[33] W. Fan and X. Jia, "Reasoning about record matching rules," VLDB Endowment, vol. 2, 2009.[34] W. L. Low and M. L. Lee, "A knowledge-based approach for duplicate elimination in data cleaning," Information Systems, vol. 26, p. 606, 2001.[35] O. Hassanzadeh and F. Chiang, "Framework for Evaluating Clustering Algorithms in Duplicate Detection," in PVLDB, 2009, pp. 1282-1293.[36] P. Ravikumar and W. W. Cohen, "A hierarchical graphical model for record linkage," in Proceedings of the 20th conference on Uncertainty in artificial
intelligence, USA, 2004, pp. 454-461.[37] Q. Hua, et al., "An Optimal Feature Selection Method for Approximately Duplicate Records Detecting," in Information Management and Engineering (ICIME),
2010, pp. 446-450.[38] P. Christen, "A two-step classification approach to unsupervised record linkage " in Proceedings of the sixth Australasian conference on Data mining and
analytics, Australia, 2007, pp. 111-119.[39] G. A. Wang and H. Atabakhsh, "A hierarchical Naïve Bayes model for approximate identity matching," Decision Support Systems, vol. 51, pp. 413-423, 2011.[40] M. Rehman and V. Esichaikul, "Duplicate Record Detection for Database Cleansing," in Second International Conference on Machine Vision, Dubai, 2009, pp.
333-338.
مراجع
53
[41] H. GuoJun and H. Ping, "An Approach for Detecting Approximately Duplicate Data Warehouse Records," in International Conference on Computer Application and System Modeling, Taiyuan 2010, pp. 679-682.
[42] D. R. Wilson, "Beyond Probabilistic Record Linkage: Using Neural Networks and Complex Features to Improve Genealogical Record Linkage," in Proceedings of International Joint Conference on Neural Networks, San Jose, California, USA, 2011, pp. 9-14.
[43] M. Ektefa and F. Sidi, "A Comparative Study in Classification Techniques for Unsupervised Record Linkage Model," Journal of Computer Science, vol. 6, pp. 341-347, 2011.
[44] G. d. Carvalho, "A Genetic Programming Approach to Record Deduplication," IEEE transaction on knowledge and data engineering, vol. 24, pp. 399 – 412, 2010.[45] M. G. Carvalho and A. H. F. Laender, "Replica identification using genetic programming," in Proceedings of the 2008 ACM Symposium on Applied Computing, Brazil
2008, pp. 1801-1806.[46] D. Dey and V. S. Mookerjee, "Efficient Techniques for Online Record Linkage," IEEE transaction on knowledge and data engineering, vol. 23, pp. 373-387, 2011.[47] H.-s. Kim and D. Lee, "Parallel linkage," in Proceedings of the sixteenth ACM conference on Conference on information and knowledge management USA, 2007, pp.
283-292.[48] S. E. Whang and H. G. Molina, "Entity resolution with evolving rules," VLDB Endowment, vol. 3, pp. 219-232, 2010.[49] M. Bilenko and S. Basu, "Adaptive Product Normalization: Using Online Learning for Record Linkage in Comparison Shopping," in Proceedings of the Fifth IEEE
International Conference on Data Mining, USA, 2005, pp. 8-13.[50] S. Yan and D. Lee, "Adaptive Sorted Neighborhood Methods for Effcient Record Linkage," in Proceedings of the 7th ACM/IEEE-CS joint conference on Digital
Libraries, Canada, 2007, pp. 185-194.[51] P. Christen, "Automatic record linkage using seeded nearest neighbour and support vector machine classification," in ACM SIGKDD’08, Las Vegas, 2008, pp. 151-
159.[52] G. V. Moustakides and V. S. Verykios, "Optimal Stopping: A Record-Linkage Approach," Journal of Data and Information Quality, vol. 1, pp. 1-34, 2009.[53] H. Köpcke and E. Rahm, "Frameworks for entity matching: A comparison," Data & Knowledge Engineering, vol. 69, pp. 197-210, 2010.[54] H. Zhao and S. Ramb, "Entity matching across heterogeneous data sources: An approach based on constrained cascade generalization," Data & Knowledge
Engineering, vol. 66, pp. 368-381, 2008.[55] H. Zhaoa and S. Ram, "Entity identification for heterogeneous database integration—a multiple classifier system approach and empirical evaluation," Information
Systems, vol. 30, pp. 119-132, 2005.[56] I. Bhattacharya and L. Getoor, "Iterative Record Linkage for Cleaning and Integration," in Proceedings of the Ninth ACM SIGMOD Workshop on Research Issues in
Data Mining and Knowledge Discovery, USA, 2004, pp. 11-18.[57] D. Buttler, "A short survey of document structure similarity algorithms," in Proceedings of the international conference on internet computing, USA, 2004, pp. 3-9.[58] S. Milano, "Structure aware xml object identification," presented at the Proceedings of the first Int’l VLDB workshop on clean databases, Korea, 2006.[59] B. Marshall and H. Chen, "Matching knowledge elements in concept maps using a similarity flooding algorithm," Decision Support Systems, vol. 42, p. 1290, 2006.[60] Y. J and C. WK, "Integrating element and term semantics for similarity-based xml document clustering," in IEEE/WIC/ACM international conference on web
intelligence (WI), USA, 2005, pp. 222-228.
مراجع
54
[61] V. S. Verykios and A. K. Elmagarmid, "Automating the approximate record-matching process," Information Sciences, vol. 126, p. 92, 2000.[62] P. Paskalev and A. Antonov, "Increasing the performance of an application for duplication detection," in Proceedings of the 2007 international
conference on Computer Systems and Technologies, USA, 2007, pp. 1-8.[63] S. Lee and J. Lee, "Scalable entity matching computation with materialization," in Proceedings of the 20th ACM international conference on
Information and knowledge management 2011, pp. 2353-2356.[64] P. Christen, "A Survey of Indexing Techniques for Scalable Record Linkage and Deduplication," IEEE transaction on knowledge and data
engineering, vol. PP, pp. 1-1, 2011.[65] J. Gómez-Bao and J.-L. Larriba-Pey, "Record linkage performance for large data sets," in Proceedings of the ACM first international workshop on
Privacy and anonymity for very large databases, New York, 2009, pp. 9-16.[66] A. Al-Lawati and D. Lee, "Blocking Aware Private Record Linkage," in Proceedings of the 2nd international workshop on Information quality in
information systems USA, 2005, pp. 59-68.[67] U. Draisbach, "A Generalization of Blocking and Windowing Algorithms for Duplicate Detection," in IEEE transaction on knowledge and data
engineering, 2011, pp. 18-24.[68] G. Papadakis and E. Ioannou, "Efficient entity resolution for large heterogeneous information spaces," in Proceedings of the fourth ACM
international conference on Web search and data mining USA, 2011.[69] T. D. Vries and H. Ke, "Robust Record Linkage Blocking Using Suffix Arrays and Bloom Filters," ACM Transactions on Knowledge Discovery from
Data, vol. 5, 2011.[70] S. E. Whang and D. Menestrina, "Entity resolution with iterative blocking," in Proceedings of the 2009 ACM SIGMOD International Conference on
Management of Data, 2009, pp. 219-232.
مراجع
با تشکر از توجه
شما