ابزارهای پردازش زبان طبیعی
TRANSCRIPT
به نام خدا
ابزارهای پردازش زبان طبیعیپنجمین کارگاه ساالنه آزمایشگاه فناوری وب
احسان عسگریان1392پاییز
رشد چشمگیر اسناد منتشر شده در وب•
آنهابندی، بازیابی و پردازش نیاز اساسی به نگهداری، دسته•
رایانهتوجه بیش از پیش به پردازش زبان طبیعی توسط •
- Natural Language Processing)زبان طبیعی پردازش • NLP ) از یکی.مصنوعی و دانش زبان شناسی استهوش زیرشاخه های با اهمیت در حوزه
:تعریف •انسانیعی کردن فرایند درک و برداشت مفاهیم بیان شده توسط یک زبان طبیماشینی –از رایانه به منظور پردازش زبان گفتاری و نوشتاریاستفاده –
مقدمه
2
کاربردهای نوشتاری•(Automatic summarization( )چکیده ای، گزیده ای)خالصه ساز خودکار متن –(Coreference resolution)تحلیل مرجع ضمایر – Natural language)تبدیل اطالعات پایگاه داده های به نوشتار قابل فهم انسان –
generation)(Information extraction)متن یک استخراج اطالعات با معنی از –(Machine translation)دیگر ترجمه یک متن به زبانی –(Word sense disambiguation)از بین بردن ابهام کلمات –(Sentiment Analysis)تحلیل حس –(Information retrieval)داده پایگاه در ذخیره سازی و بازیابی و جستجوی اطالعات ––...
NLPکاربردهای
3
(و یا تصویر)کاربردهای گفتاری •(Speech segmentation)تجزیه گفتار انسان به کلمات –(speech recognition)تبدیل گفتار به نوشتار –(text-to-speech)تبدیل نوشتار به گفتار –(Optical character recognition)تبدیل تصویر متن به نوشتار –(Question answering)رایانه پرسش و پاسخ انسان با سیستم های ––...
NLPکاربردهای
4
ه با یکی از اموری است ک( انسانی)زبان طبیعی و مکالمات زبان ها پردازش •رار به زندگی بشر مورد توجه بسیاری از دانشمندان قرایانه ای ورود فناوری .گرفته است
طراحی یک رویه پردازش بر روی متن با:ابزارهای پردازش زبان طبیعی •هدف مشخص و قابل استفاده در کاربردهای مختلف
!!! (پیش پردازش یا بخشی از پردازش) متن لزوم ابزارهای پردازش •کاهش حجم داده ها و سرعت بیشتر پردازش اطالعات متنی–سیستمگیر در دقت و صحت نتایج خروجی چشمبهبود –
لزوم ابزارهای پردازش متن
5
(Normalizer)ساز یکسانیا ساز نرمال•(Sentence splitter)جمالت دهنده تشخیص•(Tokenizer)لغات دهنده تشخیص •(Stemmer & Lemmatizer)یاب و بن واژه ساز ریشه•(Part of Speech Tagger-POS)اجزای واژگانی کالمگذار برچسب•(Parsing & Chunker)پاسر •- Semantic Role Labeling)معنایی کالم گذار برچسب• SRL)- Name Entity Recognition)تشخیص موجودیت های نامی • NER)(WordNet)شبکه واژگان ••...
برخی ابزارهای پردازش متن
6
.یتفاوت پردازش زبان فارسی از جهات مختلفی با پردازش زبان انگلیس•
هم اند، بعضی از حروف جدا ازدر زبان فارسی بعضی از حروف به هم چسبیده•-اصله یا نیماند، بعضی از کلمات با فشوند، بعضی از کلمات یکپارچهنوشته می
.شوندفاصله به دو یا چند بخش تقسیم می
ی"ها با نسخه عربی مانند در بعضی از نوشته"ک"و "ی"مانند حروفی •.نوشته می شوند"عربیک "یا "عربی
بعضی بعضی حروف مانند تشدید و تنوین در بعضی از موارد نوشته می شود و•.موارد نوشته نمی شود
.آمدن مشکالتی در مقایسه کلماتبوجود : نتیجه •
(Normalizer)ساز نرمال
7
ل متن با جایگزینی با معاد( کاراکترهای)سازی همه ی نویسه های یکسان•.استاندارد آن
لف آن و سازی نویسه ی نیم فاصله و فاصله در کاربردهای مختاصالح و یکسان•.نهای چسبامورد استفاده برای کشش نویسه« ـ»ی همچنین حذف نویسه
و"ها"های موجود در متن برای عالماتی نظیر فاصلهها و نیماصالح فاصله•ساز غیرچسبان در انتهای لغات و همچنین پیشوندها و پسوندهای فعل"ی"
و موارد مشابه جهت استفاده در فازهای "اید"، "ایم"، "ام"، "می"نظیر .بعدی
(Normalizer)ساز نرمال
8
“ :”، “?”، “؟”، “!”، “؛”، “.”تشخیص مرز جمالت با استفاده از عالمت های •
ی هزبان فارسی و در نظرگرفتن برخی لغات آغاز کنندبکارگیری گرامر •/ ...(.قیدهای خاص / حروف ربط)جمالت
از اهمیت تشخیص صحیح جمالت با توجه به پایه بودن جمله در بسیاری•.های زبانیپردازش
واردو سایر م... ، . ق.در نظر گرفتن مواردی نظیر حالت مخفف کلمات نظیر ه•
و OpenNLP،Stanford NLP،NLTK: های انگلیسی این ابزارنمونه•Freeling
(Sentence Splitter)جدا کننده جمالت
9
... و “ -”، “,”، “،”تشخیص لغات با استفاده از عالمت های فضای خالی، •
نظر گرفتن اصالحات اعمال شده در مورد پیشوندها و پسوندها در فاز در •.قبلیکتاب ها–می روم–دانش آموز––...
و Flex،JLex،JFLex،ANTLR،Ragel: های انگلیسی این ابزارنمونه•Quex
(Tokenizer)جداکننده کلمات
10
، "از"مثل . متناز ( بستگی به کاربرد)لغات بی ارزش از نظر معنایی حذف •.و غیره"که"،"به"، "و"
رار تکمعموالً در تمام متون لغاتی هستند که ( هاایست واژه)کلمات توقف •.لذا وجود آنها حاوی ارزشی برای شاخص شدن متن ندارد. زیادی دارند
:دلیل حذف کلمات توقف •بار محاسباتکاهش –افزایش سرعت–بهبود نتایج پردازش در اکثر موارد–
(Stop Word Remover)توقف کننده کلمات حذف
11
.ای آنهاای و پایهفرآیند تبدیل کلمات به فرم ریشه•
"دان"« ---"دانشگاه"-"دانشجو"-"آموزدانش"
.بدست آوردن ریشه کلمات با حذف پسوندها و پیشوندها•
ود، ششناسی استفاده میی کلمات که در زبانمنظور از ریشه، دقیقا ریشه•حاظ بلکه منظور از ریشه، یک نماینده برای کلماتی است که از ل. نیست
.گیرندمعنایی و نحوی در یک حوزه قرار می
(Stemmer)ریشه یاب
12
:یابیهای ریشهبندی الگوریتمدسته•ریخت شناسی و بر پایه قانون–استفاده از فرهنگ لغت–ترکیبیهای روش–
( :Lemmatizer)و بن واژه ساز ( Stemmer)تفاوت ریشه یاب •ی در عمل ریشه یابی ممکن است ریشـه کلمـه بی معنـی یـا معنـی متفـاوت–
فرشت: نسبت به اصل کلمه داشته باشد مثالً فرشتگان . ولی در بن واژه ساز معنی ریشه بدست آمده مهم است–
و ( Porter)الگـوریتم پـورتر : الگوریتم در زبـان انگلیسـیترین رایج•انگلیسیدر ( Krovetz)کراوتزالگوریتم
(Stemmer)ریشه یاب
13
ریشه یاب چند سطحی زبان فارسی تولید شده درآزمایشگاه فناوری وب دانشگاه فردوسی
14
-هـای سـخن، طبقـهدر دستور زبان، اجزای واژگانی کالم یا بخـش•ت از هایی زبانی از کلمات هستند که رفتار نحـوی یـک قسـمبندی
.دارندجمله را بیان می
یـانگر گذاری لغت در یک متن است کـه ایـن نشـانه، بفرآیند نشانه•.باشدوجه آن جزء از کالم می
یـد اسم، ضمیر، صفت، ق: های سخن در زبان فارسیبخشترین مهم•.و حرف اضافه
:های انگلیسی آننمونه•–Illinois Part Of Speech Tagger
–Stanford POS Tagger
(POS)گذار نقش اجزای کالم برچسب
15
برای زبان فارسی( Tagset)ای از یک مجموعه برچسب نمونه
(POS)گذار نقش اجزای کالم برچسب
16
شده گذار نقش اجزای کالم زبان فارسی تولیدبرچسبدر آزمایشگاه فناوری وب دانشگاه فردوسی
17
ف های اسمی، فعلی، حربندی اجزای هر جمله در قالب گروهتقسیم•... ای و اضافههاروابط بین گروه–ها در هر گروهامکان وجود زیرگروه–های سلسله مراتبیبندیتقسیم–
سازی ساختار نحوی یک جملـه بـر اسـا نمایان: تجزیهدرخت •برخی روابط گرامری موجود در آن به شـکلی سـاده و قابـل فهـم
.شناسی ندارندبرای کسانی که دانش عمیق زبان
(Parser)پارسر
18
Stanford Parser
19
o Online version for Arabic, English, Chinese. Java source code is downloadable.
• http://nlp.stanford.edu/software/lex-parser.shtml
Illinois Parser
20
o Online version.
• Java source code is downloadable.
• http://cogcomp.cs.illinois.edu/page/software_view/18
(Parser)پارسر
21
.ابزاری برای تشخیص نقش گرامری کلمه در جمله•
م، های معنایی جمالت نظیـر فاعـل، مفعـول مسـتقیاستخراج نقش•...مفعول غیرمستقیم، فعل و
.های زبانینقش اساسی در پردازش•
از (NLP)های دیگر پردازش زبـان طبیعـی بسیاری از حوزه: کاربرد•...قبیل ترجمه ماشینی، خطایاب و شباهت معنایی و
OpenNlP،Illinois SRL،Swirl: های انگلیسی این ابـزارنمونه•LTHSRLو
(SRL)زنی نقش معنایی کلمات برچسب
22
Illinois SRL
23
o Online version.
• Perl source code is downloadable.
• http://cogcomp.cs.illinois.edu/page/software_view/12
، امـاکن، افـرادابزاری برای تشخیص اسامی و نوع آنها اعم از اسامی •... .و عددیمقادیر ، تاریخ و زمان
:تشخیص های روش•نامهمراجعه به لغت–مراجعه به شبکه واژگان–واژهاز قواعد نحوی ساختکلمه و استفاده ی در نظر گرفتن ریشه–– ...
:نمونه های انگلیسی این ابزار•–Stanford NER
–Illinois NER
Named entity recognition
24
Illinois NER
25
o Online version.
• Java source code is downloadable.
• http://cogcomp.cs.illinois.edu/page/software_view/8
.تابزاری برای تعیین مرجع اسمی یک اسم یا یک ضمیر در جمال•
ابزاری است که مرجع ضمیر را که به صـورت اسـم در جملـه هـای •.قبلی آمده است، مشخص می کند
• “I bought a Canon S500 camera yesterday. It looked beautiful. I took a few photos last night. They were amazing”.
Illinois Coreference package:نمونه های انگلیسی این ابزار •
تحلیل مرجع ضمایر
26
Illinois Coreference Resolution
27
o Online version.
• Java source code is downloadable.
• http://cogcomp.cs.illinois.edu/page/software_view/21
به هم ای متشکل از هزاران مفهومی که بوسیله روابط معناییشبکه•.مرتبطند
باشـد ای انتزاعی از عناصـری مـیی مجموعهدهندههر مفهوم، نشان•.دهندهای مشترکشان، یک گروه را تشکیل میکه بر اسا مختصه
فت، های اسم، فعل، صدر شبکه واژگان، ابتدا لغات در یکی از دسته•هـای ها در گروهو قید قرار گرفته و سپس لغات هر یک از این دسته
.گیرندی خود قرار میخانوادههم
شبکه واژگان
28
-خانواده از یک یا چند لغت تشکیل میهای همهر یک از این گروه•-کننـد و لغـات تشـکیلشود، که یک مفهوم مشخص را عنوان مـی
اده توانند به جای یکـدیگر در یـک مـتن اسـتفدهنده این گروه می-مـیهـا مـرتبطشوند و توسط یکسری روابط معنایی با سایر گروه
.شوند
، اسـم)خانواده بر حسب نـوع گـروه های همروابط معنایی بین گروه•.متفاوت است( فعل، صفت و قید
ای یکـی بـر: در واقع شبکه واژگان دارای سـه پایگـاه داده می باشـد•.یوداسامی، یکی برای افعال و یکی نیز مشترکاً برای صفات و ق
شبکه واژگان
29
شبکه واژگان شامل مجموعه ی مترادف های کلمات می باشـد کـه از•.می شودیاد « Synsets»آن به عنوان
مفهوم و یـا یـک معنـی از گروهـی از کلمـات، را یک Synsetهر•.شامل می شود
•Synsetوم، ها روابط معنایی متفاوتی چون مترادف، متضاد ، ابرمفهـرا دربـر (Has-A)شـمول،(Part of)جزئیـت ،(IS-A)زیرمفهـوم .می گیرند
زد شبکه واژگان هم چنین تعاریف متنی از مفـاهیم را فـراهم می سـا•(Glossary)که شامل تعاریف و مثال ها می باشد.
شبکه واژگان
30
:های فارسی آناز نمونه•نتشبکه واژگان فار –نتفردو –
:های انگلیسی آناز نمونه•–Princeton Wordnet
–EuroWordnet
شبکه واژگان
31
http://wtlab.um.ac.irhttp://forum.wtlab.um.ac.ir/
http://wiki.wtlab.um.ac.ir/
دوسیزمینه های تحقیقاتی آزمایشگاه فناوری وب دانشگاه فر
32
• General (World Wide): ACL / ANLP / COLING / LREC / HLT
• General (USA): NAACL / CICLING
• General (Europe): EACL / RANLP / AMLaP
• General (Asia): ijc-NLP (formerly, NLPRS) / PACLIC / PACLING / JNLP / IALP
• Formal Grammar: FG / LFG / HPSG / TAG+
• Machine Learning: ICML / ECML / NIPS
• Statistical NLP: EMNLP / CoNLL / WVLC
• Information Retrieval: SIGIR / ECIR
• Computational Semantics: IWCS / ICoS
• Others: IWPT / WAS / MOL / SENSEVAL / FSMNLP
NLPکنفرانس های معتبر در زمینه
• NLP/CL– Computational Linguistics link
– Natural Language Engineering link
– Journal on Research on Language and Computation link
– Language Resources and Evaluation link (Formerly Computers and the Humanities)
– Research on Language and Computation link (More)
– Logic, Language and Information link
– Computer Speech and Language link
– Linguistic Issues in Language Technology link (LiLT)
– Journal of Interesting Negative Results in Natural Language Processing and Machine LearningCfP: Interesting Negative Results in Summarization link
– Terminology link
– Traitement Automatique des Langues link
– CfP: Special Issue on Scaling NLP link
– Texto! link
– Corpus Linguistics and Linguistic Theory link
– ICAME Journal link
NLPژورنال های معتبر در زمینه
• IR/IS
– Information Retrieval link
– D-Lib Magazine link
– Information Processing & Management link
– Journal of the American Society for Information Science and Technology link
– Information Science link
– Information Development link
– Information Design Journal + Document Design link
• Speech Processing
– International Journal of Speech Technology link
– Speech Communication link
– Journal of the Acoustical Society of America link
– IEEE Transactions on Signal Processing link
– IEEE Transactions on Audio, Speech & Language Processing linkCfP: Special Issue on New Approaches to Statistical Speech and Text Processing link
NLPژورنال های معتبر در زمینه
• Linguistics– Language@Internet link
– Lingua link
– Natural Language & Linguistic Theory link
– Natural Language Semantics link
– Cambridge Occassional Papers in Linguistics link
– System link
– Speculative Grammarian link
• Discourse/Pragmatics– Discourse Processes link
– Text & Talk link
– Multicultural Discourses link
– Journal of Pragmatics link
• Language and Identity
– Language in Society link
– Journal of Language, Identity, and Education link
– Language & Intercultural Communication link
NLPژورنال های معتبر در زمینه
ابا تشکر از توجه شم
37