ابزارهای پردازش زبان طبیعی

37
م خدا به ناعیان طبیی پردازش زبرها ابزاشگاه فناوری وبنه آزمایجمین کارگاه سا پنحسان عسگریان ایز پای1392

Upload: ehsan-asgarian

Post on 16-Jan-2017

142 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Page 1: ابزارهای پردازش زبان طبیعی

به نام خدا

ابزارهای پردازش زبان طبیعیپنجمین کارگاه ساالنه آزمایشگاه فناوری وب

احسان عسگریان1392پاییز

Page 2: ابزارهای پردازش زبان طبیعی

رشد چشمگیر اسناد منتشر شده در وب•

آنهابندی، بازیابی و پردازش نیاز اساسی به نگهداری، دسته•

رایانهتوجه بیش از پیش به پردازش زبان طبیعی توسط •

- Natural Language Processing)زبان طبیعی پردازش • NLP ) از یکی.مصنوعی و دانش زبان شناسی استهوش زیرشاخه های با اهمیت در حوزه

:تعریف •انسانیعی کردن فرایند درک و برداشت مفاهیم بیان شده توسط یک زبان طبیماشینی –از رایانه به منظور پردازش زبان گفتاری و نوشتاریاستفاده –

مقدمه

2

Page 3: ابزارهای پردازش زبان طبیعی

کاربردهای نوشتاری•(Automatic summarization( )چکیده ای، گزیده ای)خالصه ساز خودکار متن –(Coreference resolution)تحلیل مرجع ضمایر – Natural language)تبدیل اطالعات پایگاه داده های به نوشتار قابل فهم انسان –

generation)(Information extraction)متن یک استخراج اطالعات با معنی از –(Machine translation)دیگر ترجمه یک متن به زبانی –(Word sense disambiguation)از بین بردن ابهام کلمات –(Sentiment Analysis)تحلیل حس –(Information retrieval)داده پایگاه در ذخیره سازی و بازیابی و جستجوی اطالعات ––...

NLPکاربردهای

3

Page 4: ابزارهای پردازش زبان طبیعی

(و یا تصویر)کاربردهای گفتاری •(Speech segmentation)تجزیه گفتار انسان به کلمات –(speech recognition)تبدیل گفتار به نوشتار –(text-to-speech)تبدیل نوشتار به گفتار –(Optical character recognition)تبدیل تصویر متن به نوشتار –(Question answering)رایانه پرسش و پاسخ انسان با سیستم های ––...

NLPکاربردهای

4

Page 5: ابزارهای پردازش زبان طبیعی

ه با یکی از اموری است ک( انسانی)زبان طبیعی و مکالمات زبان ها پردازش •رار به زندگی بشر مورد توجه بسیاری از دانشمندان قرایانه ای ورود فناوری .گرفته است

طراحی یک رویه پردازش بر روی متن با:ابزارهای پردازش زبان طبیعی •هدف مشخص و قابل استفاده در کاربردهای مختلف

!!! (پیش پردازش یا بخشی از پردازش) متن لزوم ابزارهای پردازش •کاهش حجم داده ها و سرعت بیشتر پردازش اطالعات متنی–سیستمگیر در دقت و صحت نتایج خروجی چشمبهبود –

لزوم ابزارهای پردازش متن

5

Page 6: ابزارهای پردازش زبان طبیعی

(Normalizer)ساز یکسانیا ساز نرمال•(Sentence splitter)جمالت دهنده تشخیص•(Tokenizer)لغات دهنده تشخیص •(Stemmer & Lemmatizer)یاب و بن واژه ساز ریشه•(Part of Speech Tagger-POS)اجزای واژگانی کالمگذار برچسب•(Parsing & Chunker)پاسر •- Semantic Role Labeling)معنایی کالم گذار برچسب• SRL)- Name Entity Recognition)تشخیص موجودیت های نامی • NER)(WordNet)شبکه واژگان ••...

برخی ابزارهای پردازش متن

6

Page 7: ابزارهای پردازش زبان طبیعی

.یتفاوت پردازش زبان فارسی از جهات مختلفی با پردازش زبان انگلیس•

هم اند، بعضی از حروف جدا ازدر زبان فارسی بعضی از حروف به هم چسبیده•-اصله یا نیماند، بعضی از کلمات با فشوند، بعضی از کلمات یکپارچهنوشته می

.شوندفاصله به دو یا چند بخش تقسیم می

ی"ها با نسخه عربی مانند در بعضی از نوشته"ک"و "ی"مانند حروفی •.نوشته می شوند"عربیک "یا "عربی

بعضی بعضی حروف مانند تشدید و تنوین در بعضی از موارد نوشته می شود و•.موارد نوشته نمی شود

.آمدن مشکالتی در مقایسه کلماتبوجود : نتیجه •

(Normalizer)ساز نرمال

7

Page 8: ابزارهای پردازش زبان طبیعی

ل متن با جایگزینی با معاد( کاراکترهای)سازی همه ی نویسه های یکسان•.استاندارد آن

لف آن و سازی نویسه ی نیم فاصله و فاصله در کاربردهای مختاصالح و یکسان•.نهای چسبامورد استفاده برای کشش نویسه« ـ»ی همچنین حذف نویسه

و"ها"های موجود در متن برای عالماتی نظیر فاصلهها و نیماصالح فاصله•ساز غیرچسبان در انتهای لغات و همچنین پیشوندها و پسوندهای فعل"ی"

و موارد مشابه جهت استفاده در فازهای "اید"، "ایم"، "ام"، "می"نظیر .بعدی

(Normalizer)ساز نرمال

8

Page 9: ابزارهای پردازش زبان طبیعی

“ :”، “?”، “؟”، “!”، “؛”، “.”تشخیص مرز جمالت با استفاده از عالمت های •

ی هزبان فارسی و در نظرگرفتن برخی لغات آغاز کنندبکارگیری گرامر •/ ...(.قیدهای خاص / حروف ربط)جمالت

از اهمیت تشخیص صحیح جمالت با توجه به پایه بودن جمله در بسیاری•.های زبانیپردازش

واردو سایر م... ، . ق.در نظر گرفتن مواردی نظیر حالت مخفف کلمات نظیر ه•

و OpenNLP،Stanford NLP،NLTK: های انگلیسی این ابزارنمونه•Freeling

(Sentence Splitter)جدا کننده جمالت

9

Page 10: ابزارهای پردازش زبان طبیعی

... و “ -”، “,”، “،”تشخیص لغات با استفاده از عالمت های فضای خالی، •

نظر گرفتن اصالحات اعمال شده در مورد پیشوندها و پسوندها در فاز در •.قبلیکتاب ها–می روم–دانش آموز––...

و Flex،JLex،JFLex،ANTLR،Ragel: های انگلیسی این ابزارنمونه•Quex

(Tokenizer)جداکننده کلمات

10

Page 11: ابزارهای پردازش زبان طبیعی

، "از"مثل . متناز ( بستگی به کاربرد)لغات بی ارزش از نظر معنایی حذف •.و غیره"که"،"به"، "و"

رار تکمعموالً در تمام متون لغاتی هستند که ( هاایست واژه)کلمات توقف •.لذا وجود آنها حاوی ارزشی برای شاخص شدن متن ندارد. زیادی دارند

:دلیل حذف کلمات توقف •بار محاسباتکاهش –افزایش سرعت–بهبود نتایج پردازش در اکثر موارد–

(Stop Word Remover)توقف کننده کلمات حذف

11

Page 12: ابزارهای پردازش زبان طبیعی

.ای آنهاای و پایهفرآیند تبدیل کلمات به فرم ریشه•

"دان"« ---"دانشگاه"-"دانشجو"-"آموزدانش"

.بدست آوردن ریشه کلمات با حذف پسوندها و پیشوندها•

ود، ششناسی استفاده میی کلمات که در زبانمنظور از ریشه، دقیقا ریشه•حاظ بلکه منظور از ریشه، یک نماینده برای کلماتی است که از ل. نیست

.گیرندمعنایی و نحوی در یک حوزه قرار می

(Stemmer)ریشه یاب

12

Page 13: ابزارهای پردازش زبان طبیعی

:یابیهای ریشهبندی الگوریتمدسته•ریخت شناسی و بر پایه قانون–استفاده از فرهنگ لغت–ترکیبیهای روش–

( :Lemmatizer)و بن واژه ساز ( Stemmer)تفاوت ریشه یاب •ی در عمل ریشه یابی ممکن است ریشـه کلمـه بی معنـی یـا معنـی متفـاوت–

فرشت: نسبت به اصل کلمه داشته باشد مثالً فرشتگان . ولی در بن واژه ساز معنی ریشه بدست آمده مهم است–

و ( Porter)الگـوریتم پـورتر : الگوریتم در زبـان انگلیسـیترین رایج•انگلیسیدر ( Krovetz)کراوتزالگوریتم

(Stemmer)ریشه یاب

13

Page 14: ابزارهای پردازش زبان طبیعی

ریشه یاب چند سطحی زبان فارسی تولید شده درآزمایشگاه فناوری وب دانشگاه فردوسی

14

Page 15: ابزارهای پردازش زبان طبیعی

-هـای سـخن، طبقـهدر دستور زبان، اجزای واژگانی کالم یا بخـش•ت از هایی زبانی از کلمات هستند که رفتار نحـوی یـک قسـمبندی

.دارندجمله را بیان می

یـانگر گذاری لغت در یک متن است کـه ایـن نشـانه، بفرآیند نشانه•.باشدوجه آن جزء از کالم می

یـد اسم، ضمیر، صفت، ق: های سخن در زبان فارسیبخشترین مهم•.و حرف اضافه

:های انگلیسی آننمونه•–Illinois Part Of Speech Tagger

–Stanford POS Tagger

(POS)گذار نقش اجزای کالم برچسب

15

Page 16: ابزارهای پردازش زبان طبیعی

برای زبان فارسی( Tagset)ای از یک مجموعه برچسب نمونه

(POS)گذار نقش اجزای کالم برچسب

16

Page 17: ابزارهای پردازش زبان طبیعی

شده گذار نقش اجزای کالم زبان فارسی تولیدبرچسبدر آزمایشگاه فناوری وب دانشگاه فردوسی

17

Page 18: ابزارهای پردازش زبان طبیعی

ف های اسمی، فعلی، حربندی اجزای هر جمله در قالب گروهتقسیم•... ای و اضافههاروابط بین گروه–ها در هر گروهامکان وجود زیرگروه–های سلسله مراتبیبندیتقسیم–

سازی ساختار نحوی یک جملـه بـر اسـا نمایان: تجزیهدرخت •برخی روابط گرامری موجود در آن به شـکلی سـاده و قابـل فهـم

.شناسی ندارندبرای کسانی که دانش عمیق زبان

(Parser)پارسر

18

Page 19: ابزارهای پردازش زبان طبیعی

Stanford Parser

19

o Online version for Arabic, English, Chinese. Java source code is downloadable.

• http://nlp.stanford.edu/software/lex-parser.shtml

Page 20: ابزارهای پردازش زبان طبیعی

Illinois Parser

20

o Online version.

• Java source code is downloadable.

• http://cogcomp.cs.illinois.edu/page/software_view/18

Page 21: ابزارهای پردازش زبان طبیعی

(Parser)پارسر

21

Page 22: ابزارهای پردازش زبان طبیعی

.ابزاری برای تشخیص نقش گرامری کلمه در جمله•

م، های معنایی جمالت نظیـر فاعـل، مفعـول مسـتقیاستخراج نقش•...مفعول غیرمستقیم، فعل و

.های زبانینقش اساسی در پردازش•

از (NLP)های دیگر پردازش زبـان طبیعـی بسیاری از حوزه: کاربرد•...قبیل ترجمه ماشینی، خطایاب و شباهت معنایی و

OpenNlP،Illinois SRL،Swirl: های انگلیسی این ابـزارنمونه•LTHSRLو

(SRL)زنی نقش معنایی کلمات برچسب

22

Page 23: ابزارهای پردازش زبان طبیعی

Illinois SRL

23

o Online version.

• Perl source code is downloadable.

• http://cogcomp.cs.illinois.edu/page/software_view/12

Page 24: ابزارهای پردازش زبان طبیعی

، امـاکن، افـرادابزاری برای تشخیص اسامی و نوع آنها اعم از اسامی •... .و عددیمقادیر ، تاریخ و زمان

:تشخیص های روش•نامهمراجعه به لغت–مراجعه به شبکه واژگان–واژهاز قواعد نحوی ساختکلمه و استفاده ی در نظر گرفتن ریشه–– ...

:نمونه های انگلیسی این ابزار•–Stanford NER

–Illinois NER

Named entity recognition

24

Page 25: ابزارهای پردازش زبان طبیعی

Illinois NER

25

o Online version.

• Java source code is downloadable.

• http://cogcomp.cs.illinois.edu/page/software_view/8

Page 26: ابزارهای پردازش زبان طبیعی

.تابزاری برای تعیین مرجع اسمی یک اسم یا یک ضمیر در جمال•

ابزاری است که مرجع ضمیر را که به صـورت اسـم در جملـه هـای •.قبلی آمده است، مشخص می کند

• “I bought a Canon S500 camera yesterday. It looked beautiful. I took a few photos last night. They were amazing”.

Illinois Coreference package:نمونه های انگلیسی این ابزار •

تحلیل مرجع ضمایر

26

Page 27: ابزارهای پردازش زبان طبیعی

Illinois Coreference Resolution

27

o Online version.

• Java source code is downloadable.

• http://cogcomp.cs.illinois.edu/page/software_view/21

Page 28: ابزارهای پردازش زبان طبیعی

به هم ای متشکل از هزاران مفهومی که بوسیله روابط معناییشبکه•.مرتبطند

باشـد ای انتزاعی از عناصـری مـیی مجموعهدهندههر مفهوم، نشان•.دهندهای مشترکشان، یک گروه را تشکیل میکه بر اسا مختصه

فت، های اسم، فعل، صدر شبکه واژگان، ابتدا لغات در یکی از دسته•هـای ها در گروهو قید قرار گرفته و سپس لغات هر یک از این دسته

.گیرندی خود قرار میخانوادههم

شبکه واژگان

28

Page 29: ابزارهای پردازش زبان طبیعی

-خانواده از یک یا چند لغت تشکیل میهای همهر یک از این گروه•-کننـد و لغـات تشـکیلشود، که یک مفهوم مشخص را عنوان مـی

اده توانند به جای یکـدیگر در یـک مـتن اسـتفدهنده این گروه می-مـیهـا مـرتبطشوند و توسط یکسری روابط معنایی با سایر گروه

.شوند

، اسـم)خانواده بر حسب نـوع گـروه های همروابط معنایی بین گروه•.متفاوت است( فعل، صفت و قید

ای یکـی بـر: در واقع شبکه واژگان دارای سـه پایگـاه داده می باشـد•.یوداسامی، یکی برای افعال و یکی نیز مشترکاً برای صفات و ق

شبکه واژگان

29

Page 30: ابزارهای پردازش زبان طبیعی

شبکه واژگان شامل مجموعه ی مترادف های کلمات می باشـد کـه از•.می شودیاد « Synsets»آن به عنوان

مفهوم و یـا یـک معنـی از گروهـی از کلمـات، را یک Synsetهر•.شامل می شود

•Synsetوم، ها روابط معنایی متفاوتی چون مترادف، متضاد ، ابرمفهـرا دربـر (Has-A)شـمول،(Part of)جزئیـت ،(IS-A)زیرمفهـوم .می گیرند

زد شبکه واژگان هم چنین تعاریف متنی از مفـاهیم را فـراهم می سـا•(Glossary)که شامل تعاریف و مثال ها می باشد.

شبکه واژگان

30

Page 31: ابزارهای پردازش زبان طبیعی

:های فارسی آناز نمونه•نتشبکه واژگان فار –نتفردو –

:های انگلیسی آناز نمونه•–Princeton Wordnet

–EuroWordnet

شبکه واژگان

31

Page 32: ابزارهای پردازش زبان طبیعی

http://wtlab.um.ac.irhttp://forum.wtlab.um.ac.ir/

http://wiki.wtlab.um.ac.ir/

دوسیزمینه های تحقیقاتی آزمایشگاه فناوری وب دانشگاه فر

32

Page 33: ابزارهای پردازش زبان طبیعی

• General (World Wide): ACL / ANLP / COLING / LREC / HLT

• General (USA): NAACL / CICLING

• General (Europe): EACL / RANLP / AMLaP

• General (Asia): ijc-NLP (formerly, NLPRS) / PACLIC / PACLING / JNLP / IALP

• Formal Grammar: FG / LFG / HPSG / TAG+

• Machine Learning: ICML / ECML / NIPS

• Statistical NLP: EMNLP / CoNLL / WVLC

• Information Retrieval: SIGIR / ECIR

• Computational Semantics: IWCS / ICoS

• Others: IWPT / WAS / MOL / SENSEVAL / FSMNLP

NLPکنفرانس های معتبر در زمینه

Page 34: ابزارهای پردازش زبان طبیعی

• NLP/CL– Computational Linguistics link

– Natural Language Engineering link

– Journal on Research on Language and Computation link

– Language Resources and Evaluation link (Formerly Computers and the Humanities)

– Research on Language and Computation link (More)

– Logic, Language and Information link

– Computer Speech and Language link

– Linguistic Issues in Language Technology link (LiLT)

– Journal of Interesting Negative Results in Natural Language Processing and Machine LearningCfP: Interesting Negative Results in Summarization link

– Terminology link

– Traitement Automatique des Langues link

– CfP: Special Issue on Scaling NLP link

– Texto! link

– Corpus Linguistics and Linguistic Theory link

– ICAME Journal link

NLPژورنال های معتبر در زمینه

Page 35: ابزارهای پردازش زبان طبیعی

• IR/IS

– Information Retrieval link

– D-Lib Magazine link

– Information Processing & Management link

– Journal of the American Society for Information Science and Technology link

– Information Science link

– Information Development link

– Information Design Journal + Document Design link

• Speech Processing

– International Journal of Speech Technology link

– Speech Communication link

– Journal of the Acoustical Society of America link

– IEEE Transactions on Signal Processing link

– IEEE Transactions on Audio, Speech & Language Processing linkCfP: Special Issue on New Approaches to Statistical Speech and Text Processing link

NLPژورنال های معتبر در زمینه

Page 36: ابزارهای پردازش زبان طبیعی

• Linguistics– Language@Internet link

– Lingua link

– Natural Language & Linguistic Theory link

– Natural Language Semantics link

– Cambridge Occassional Papers in Linguistics link

– System link

– Speculative Grammarian link

• Discourse/Pragmatics– Discourse Processes link

– Text & Talk link

– Multicultural Discourses link

– Journal of Pragmatics link

• Language and Identity

– Language in Society link

– Journal of Language, Identity, and Education link

– Language & Intercultural Communication link

NLPژورنال های معتبر در زمینه

Page 37: ابزارهای پردازش زبان طبیعی

ابا تشکر از توجه شم

37