(text mining) متن كاوي
DESCRIPTION
(text mining) متن كاوي. سارا مصباح بهار 88. فهرست مطالب. مقدمه مشكلات هدف متن كاوي كاربردهاي متن كاوي فرآيند متن كاوي يافتن روابط ( Rajman_97 ) روش TextMiner ( Karanikas_2000 ) روش DIScoTEX ( Kanya_07, Mooney_05 ) بهبود روش DIScoTEX ( Kanya_07, Mooney_05 ). - PowerPoint PPT PresentationTRANSCRIPT
(TEXT MINING) متنكاوي
مصباح سارا
88بهار
مطالب فهرستمقدمهمشكالت كاوي متن هدف كاوي متن كاربردهاي كاوي متن فرآيند( روابط (Rajman_97يافتن روشTextMiner (Karanikas_2000) روشDIScoTEX (Kanya_07, Mooney_05 ) روش DIScoTEX (Kanya_07, Mooney_05 )بهبود
بخش اين توضيحات براي منابع M. Rajman.
Text Mining, knowledge extraction from unstructured textual data. Proc. of EUROSTAT Conference, Francfort (Deutchland), may, 1997
Data mining Concepts and Techniques: jiawei Han and Micheline kamber
مقدمه پايگاه در اطالعات از اي مالحظه قابل بخش بودن موجود
متني هاي داده
تعريف يافته ساخت غير ي دادها از مفيد اطالعات mو مفهوم استخراج يافته ساخت غير متن در الگو جستجوي
:،خبري مقاالت .....paperمثال هاو ايميل ها، كتاب ها،
: غير متني هاي داده پايگاه در شده ذخيره اطالعات نوعساختيافته
:سند يك گرفتن نظر در مثال
).. ادامه ) مقدمه: كاوي متن براي شده پيشنهاد هاي تكنيك
مفهومي ساختارهاي كردن هاassociation ruleكاوش گيري تصميم هاي درخت قوانين استنتاج هاي روش اطالعات بازيابي ي ها تكنيك
مشكل از هستند 80بيش متن صورت به اطالعات درصد مشكل
بودن ساختيافته غير اطالعات از دانش دريافت شود مي حاصل اطالعات از كه دانشي كمبود كاوي داده در عاميت وجود عدم
:هستند اي رابطه هاي داده پايگاه فرم به اطالعات فرض اطالعات بازيابي
دانش نه و كاربر نياز به توجه با مستندات ترين مرتبط بازيابي :ها ايميل سابقه كردن ثبت مثال
از زيادي حجم براي سنتي اطالعات بازيابي هاي تكنيك بودن ناكارآمدساختيافته غير اطالعات
كم مربوط سندهاي بازيابي
غير يا يافته ساخت نيمه متن از دانش كردن كشفساختيافته
هدف متني هاي داده پايگاه كردن پردازش بودن، فرسا طاقت
دستي صورت به ساختيافته غير متن معني درك كردن اتوماتيك ،مختلف سندهاي مقايسه براي كارآمد ابزارهايي به نياز
الگوها يافتن بودن، مربوط اساس بر سندها كردن مرتبزياد حجم با ساختيافته غير هاي داده براي
كاوي متن براي مختلف هاي نامText miningText data miningKnowledge Discovery in Text
كاوي متن كاربردها بازيابي و جستجوClustering وclassification سازي خالصه روابط استخراجPOS(Part of Speech Tagging)
)... ادامه ) كاوي متن كاربردهاي اطالعات بازيابي و جستجو
متن از استفاده با اطالعات بازيابي و جستجو زمينه در جديد هاي روشكاوي
: كاربر نياز به توجه با متون ترين مرتبط بازيابي اطالعات بازيابي هدف بر machine learningو NLPمبتني بر مبتني هاي روش از استفاده با شده ساخته دانش پايگاه يك به نياز
NLP اسناد روي بر آماري هاي روش وClustering
كاربر نظر مورد اطالعات سريعتر يافتن به كمك اسناد مجموعه از كلي نگاه دادن مجموعه داشتن بدون اتوماتيك صورت به ها كالس trainingساختن
Classification مفاهيم از اي شده تعريف پيش از هاي كالس داشتن ها كالس از يكي به جديد سندهاي كردن نگاشت
)... ادامه ) كاوي متني كاربردهايPOS
طبيعي هاي زبان پردازش در مهمي نقش داشتن :سيستم GATEمثال
جمالت گذاري برچسب براي ابزاري ... متن يك در و اشخاص نام جغرافيايي، موقعيتهاي نام كردن پيدا
كاوي متن فرآيند اسناد پردازش پيش فاز
سند بر مبتني اسناد براي بهتري نمايش ي نحوه ساختيافته نيمه و مياني فرمت يك به اسناد تبديل هرentity است سند يك نهايتا نمايش اين در
مفهوم بر مبتني و سند در موجود معاني و مفاهيم سند، نمايش به بخشيدن بهبود
.... و ها آن ميان ارتباط سندها از شده استخراج مفاهيم با داشتن كار و سر
اسناد نمايش مياني هاي فرمت از دانش استخراج فاز..... : mو بندي طبقه بندي، گرو سند بر مبتني نمايش : و مفاهيم ميان روابط يافتن براي مفهوم بر مبتني نمايش
آنتولوژي اتوماتيك ساختن پردازش پيش گام عنوان به اطالعات استخراج از استفاده
روابط ) (RAJMAN_97يافتن: كلمات از اي مجموعه: شده ايندكس ميتندات از اي مجموعه رابطه با فرض
: كليدي كلمات از اي مجموعه : مستندات تمام Tدر tمجموعه[w :]براي پوششي wمجموعه
زوج هر ازاي است كه( W,w)به لغات از اي مجموعهشكل به و شود مي خوانده رابطه قانون يك و
شود مي داده نمايش
},...,,{ 21 wnwwA
},...,,{ 21 ntttT
).(At i
AW
)(AtW
AW WAw \
)(: wWR
).. ادامه ) روابط يافتن داريم فرض با
: گرفتن نظر در با رابطه، از پشتيباني Tميزان : گرفتن نظر در با رابطه، از اطمينان Tميزان
هدف
مقدار كه قوانين فتن ميزاني C(R,T)و S(R,T)يا از ها آنباشد بيشتر
)(: wWR
}{),( wWTR S
w
wWTR
),(C
منبع Haralampos Karanikas, et.al. An Approach to Text Mining using Information Extraction, 2000
TEXTMINERروش كردن و termاستخراج پيدا eventها براي سند هر هاي
ها ويژگي كردن عمل هر miningانجام شده استخراج هاي ويژگي روي
سند: سيستم هاي كامپوننت
Text Analysis Component : در شده ذخيره ساختيافته داده به سندها ساختيافته نيمه داده دادن تغيير
داده پايگاهData mining component
اول كامپوننت خروجي روي بر كاوي داده هاي تكنيك كردن اعمال روش اين اهداف
: در سندها كردن بندي طبقه موجود اطالعات همه كردن مديريتcategory مناسب هاي
Mine مفيد دانش كردن كشف براي داده كردن
TEXTMINERمعماري
)TEXTMINERروش اطالعات ( استخراج ( هاي داده پايگاه طبيعي زبان هاي متن كردن نگاشت
)... نمايش يك به هاو ايميل وب، صفحات مقاالت، متني،شده تعريف پيش از و ساختيافته
كه هايي قالب به طبيعي زبان هاي متن كردن نگاشتدهند مي نشان را متن كليدي اطالعات از منتخبي
انجام براي داده پايگاه در آنها ذخيره و اطالعات استخراج..... و سازي خالصه كاوش، جو، و پرس
) مالي ) دامنه مثالEvent مالي دامنه يك براي هاي نام به جدولي در اطالعات داري Event typeنگه
برايevent ، take-over هر براي شده توصيف صفت مختلفي تعداد دادن eventقرار :،تاريخ نوع company targeصفات ،take-over...و
...(TEXT MINERروش ادامه ) استخراج از بعد زير شكل به جدولي كردن هاeventپر
Event شده mاستخراج هاي كالسترينگ الگوريتم براي ورودي عنوان بmه زير جدول ساختن داده پايگاه در ركودها عنوان به سندmها گرفتن نmظر در گرفتن نظر ركورد term/eventدر صmفات عنوان به سند هر هاي
كالسترينگ الگوريتم براي ورودي داده
(TEXT MINERروش كالسترينگ ) الگوريتم حاصل داده پايگاه روي بر كالسترينگ الگوريتم اعمال اسناد از اي مجموعه از هايي زيرمجموعه ايجاد اسناد مجموعه در ساختار كشف گروه يك در دارند مشترك هاي ويژگي كه سندهايي دادن قرار ها داده از ديدكلي دادن مربوط اطالعات يافتن كردن، آسان در كالسترينگ از : taskاستفاده آناليز ديگر relevanceهاي ،
classification.................... و كالسترينگ الگوريتم انتخاب
و داده مجموعه نوع به taskوابسته ها كالسترينگ ترين معروف
Binary relational clustering مراتبي سلسله كالستريگ
).. ادامه ) كالسترينگ الگوريmتم فاصله بر مبتني كالسترينگ آناليز نبودن كاراConceptual clustering
نيستند عددي شباهت با اشيا از اي مجموعه تنها ها كالستر صفات توصيفات از اي مجموعه اشيا كالسترهاي توصيف براي توصيف زبان يك بندي رده كيفيت معيار يكهدف
كيفيت معيار كردن بيشينه كالسترها از عمومي توصيفات كردن تعيين
هاي داده براي كالسترينگ هاي روش از استفادهcategorical
).. ادامه ) كالسترينگ الگوريmتم بولين صفات با داده پايگاه در سندها نمايش
يك با صفت هر بودن event/termمتناظر شامل سند صفت term/eventاگر باشد trueمتناظر
است
از لينك )Rockالگوريتم frameforkاستفاده مفهوم ,RIوRC)Link(pi, pj) :بين مشترك هاي همسايه تعداد pjو piبيانگر
با سندهايي گرفتن قرار و كالسترينگ الگوريتم از استفادهمشابه ) كالستر( term/eventالگوهاي يك در ها
CLASSIFICATIONالگوريتم از آمده دست به توصيفات از بعد بندي رده اعمال
كالسترينگ
كالسترينگ از حاصل نتايج بيشتر معتبرسازي
شده كشف دانش از بهتر برداري بهره
گيري تصميم درخت الگوريتم مفاهيم از مراتبي سلسله بازيابي شده كشف توصيفات درستي كردن تست
منبع N. Kanya*, S. Geetha “INFORMATION EXTRACTION -A TEXT MININGAPPROACH”
2007 produced IEEE
“Text mining with Informatin Exteraction” Raymond J. Mooney and Un Yong Nahm 2005
DISCOTEX (DISCOVERY FORM TEXT EXTRACTION)
: كردن يكپارچه اطالعات استخراج (IEشده )learnسيستم
تر يافته ساخت داده به متن سندهاي تبديل داده از خاصي هاي بخش كردن جستجو
( استاندارد قوانين كردن استنتاج (KDDماجولMine ماجول از حاصل شده يافته ساخت داده پايگاه براي IEكردن
عالقه مورد روابط يافتن از كه اطالعاتي كردن بيني پيش و آمده دست به قوانين از استفاده
شوند مي استخراج جديد سندهاي از متدهاي applicationاستفاده و آماري machine learningهاي
DISCOTEX ) ادامه)
چارچوب از كلي بر mineديد مبتني متن IEكردن
سيستم يك :IEساختن متدهاي از كردن machine learninاستفاده اتوماتيك براي
هاي سيستم IEساخت ها داده استخراج سند، كمي تعداد كردن توصيف دستي صورت به
سيستم استنتاج آن، به IEاز آن اعمال و قبولي قابل دقت باسندها از بزرگي مجموعه
خطاست شامل اتوماتيك صورت به شده استخراج داده پايگاه
DISCOTEX ) ادامه) ”نويز داراي داده پايگاه از شده كشف دانش reliabityآيا
تميز داده پايگاه يك از شده كشف دانش از كمتر خيلي آن“ است؟ تر
هدفIE طبيعي زبان به متن يك در خاص داده كردن پيدا يك صورت به ها داده templateنمايش
Template دامنه براي شده job-posting پر
DISCOTEX ) ادامه) از كننده machine learningاستفاده استخراج ساختن براي
ها
سيستم دو از state-of-the-artاستفادهRAPIER(Robust Automated Production of Information
Exteraction Rules)BWI(Boosted Wrapper induction)
سيستم :IEخروجي از اي ها Slotمجموعه
اطالعات استخراج الگوهاي بردن كار به يافته ساخت و سرچ قابل داده پايگاه يك
DISCOTEX ) ادامه)
هاي تكنيك داده KDDاعمال پايگاه روي بر استانداردشده نتيجه
Training با شده توصيف سندهاي از اي مجموعه رويها قالب
برايslot ، platform پركننده :Wnidows XPداريمWin XP ، WinXP ، MS Win XP
كردن از termتبديل قبل مقدار يك به قوانين mineها كردنها داده از
با مترادف هاي واژه شامل ديكشنري يك از 111استفادهشي
از C4.5Rulesاستفاده ، RIPPER وAPRIORI برايها داده از قوانين كشف
DISCOTEX ) ادامه)APRIORI
كردن كاوش براي به association ruleالگوريتمي توجه با هاmin sup وmin confidence
RIPPER شدن درك سادگي به گيري تصميم درخت از بهتر در شدن سازي پياده سادگي prologبه نويز داراي هاي داده براي كارا الگوريتمي
مقادير بين روابط كردن قوانين Slotتوصيف فرم به هامثال
DISCOTEX ).. ادامه)قوانين داده mineنمونه پايگاه يك از resunes 600شده
خبري) گروه از USENETاز استفاده (BWIبا
قوانين با mineنمونه داده پايگاه يك از گروه ) job 600شدهاز( USENETخبري استفاده C4.5RULESو RAPIERبا
DISCOTEX) ارزيابي ) شده كشف دانش دقت گيري اندازه هاي پركننده كردن بيني پيش براي قوانيني كردن استنتاج
Slotها ارزيابي معيارهاي
Precision
Recall
F-measure
نتايج توسط نامربوط سندهاي كردن bag-of-wordحذف
Naïve-Bayes text categorizer پايگاه ساختن از قبلسيستم توسط IEداده
Precision برايclassifier: 98 درصد Recall برايclassifier
Train كردنRAPIER شده 60روي گذاري برچسب سندPrecision : درصد 91.9استخراج Recall : درصد 52.4استخراج
نهايي سيستم كلي معماري
ارزيmابي نتايج
IEبهبود قوانین از کردن بینی ÷ mineاستفاده یش برای شده
بیشتر های پرکننده استخراج رفته دست از اطالعات کردن بینی پیش
ارزیابی برای معیار IEدوPrecisionRecall
الگوریتم دادن کردن recallبهبود قربانی precisionبدون : مثال کردن استخراج نکردن کردن استخراج ,Slotبه mobileاضافه
area
....(IEبهبود ادامه)الگوریتم
( مترادفی یا آن وجود صورت در قالب به پرکننده کردن اضافه ) سند در mآن mاز
برای کد قوانین mineشبه کردن
....(IEبهبود ادامه) بهبود برای کد قوانین recallشبه از استفاده mineبا
شده
یافته بهبود روش ارزیابی تست مجموعه
Computer-science job posting 600 hand-labeled خبری گروه در شده آوری austinجمع
4000 نشده تفسیر سندنتایج
نتايج ميانگينf-measure تا 86.4بين درصد 88.1درصد افزايشrecall گذاري برچسب هاي نمونه افزايش با
نشده كاهشprecision افزايش recallباMatching filler عنوان baselineبه
منابع Haralampos Karanikas, et.al. An Approach to Text Mining using Information Extraction, 2000
N. Kanya*, S. Geetha “INFORMATION EXTRACTION -A TEXT MININGAPPROACH” 2007 produced IEEE
Raymond J. Mooney and Un Yong Nahm 2005 “Text mining with Informatin Exteraction”
M. Rajman. Text Mining, knowledge extraction from unstructured textual data. Proc. of EUROSTAT Conference, Francfort (Deutchland), may, 1997
Data mining Concepts and Techniques: jiawei Han and Micheline kamber