cfg,tag,fsg استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل...

29
CFG,TAG,FSG اد درس: ت س ا ای ق ا ر کت د اده له ر ل دا ت ع وسط: ت- ی ی ا ل رض ت ع ما س ا86131031 1 ت ع ن ص گاه1 ش ن دا ي ام ت ت ک ر ت ر دس ت ه م کده1 ش ن دا ي< ت م کا ت اور ن ف ر و ت و ی عاتF لا ط ا ي ع نK ب طN ان ب ر1 س دار ر< ت ه درس1 ور ر< ت

Post on 21-Dec-2015

241 views

Category:

Documents


7 download

TRANSCRIPT

Page 1: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

CFG,TAG,FSG

استاد درس: عبدالله زادهدکتر آقای

توسط:

86131031اسماعیل رضایی-

1

رير کبي اميدانشگاه صنعت اطالعاتيوتر و فناوري کامپيدانشکده مهندس

پروژه درس پردازش زبان طبيعی

Page 2: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

عناوینعناوین

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

معرفی متنگرامر ها

CFG TAGFSG

برای هر یک از گرامر هامعرفی•روش ساخت•مثال•

پارسر PCRATRمعرفی پارسر • برای PCPATRفراهم کردن ورودی های مورد نیاز •

پارس متن پارس متن و دریافت خروجی ها•

2

Page 3: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

متن متن

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

CloudsClouds make the sky interesting. They help provide

the beautiful sky. They warn us of approaching storms and forecast better weather ahead. Clouds bring the rain that farmers need it for their crops. clouds bring destruction and death. They cause tremendous amounts of damage with their hail and kill people caught in the funnel-shaped clouds we call tornadoes. All clouds are not alike or form at the same height above the earth’s surface. Some clouds are low and look like cotton balls, and others are very high and look like giant feathers.

3

Page 4: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

CFG) (گرامر مستقل از متن

Gاجزای گرامر مستقل از متن =(T,N,S,P)

ها Non Terminal- مجموعه ی 1N

ها Terminal- مجموعه 2S

(Production Rules)- مجموعه قواعد3P

4 – Start Symbol S0 = S 4زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

Page 5: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

برای زبان گرامرمستقل از متن دوالیهطبیعی

ها است ،به گرامر اضافه Terminalیک الیه که شامل گروه بندی نمایش داده می شود.Tمی شود که با

ها قرار می گیرد.Nonterminal ها و Terminalاین الیه بین

T = {Art, Noun,Adj,Prep,Verb,Pronoun}

5زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

Page 6: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

مجموعه قواعدR = { 1- S NP VP2- NP Art NP23- NP NP24- NP2 Noun5- NP2 Adj NP26- NP2 NP2 PP7- NP2 Pronoun8- PP Prep NP9- PP Prep NP PP10- VP Verb11- VP Verb VP12- VP Verb NP13- VP VP PP14- VP VP NP Adj }

6زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

Page 7: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

برای متن مورد نظرTتعریف مجموعه

T ={Art, Noun,Adj,Prep,Verb,Pronoun}

Art ={a,the,an}

Noun={clouds,sky,storms,weather,rain,farmer,crops,destruction

,death,damage,hail,people,tornado}

Verb ={make,help,provide,cause,bring,warn,need,cuase,kill,call}

Adj ={interesting,beautiful,better,approaching}

Prep ={in,by,of,over,for,with}

Pronoun={they,we,us}

7زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

Page 8: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

ساخت درخت برای چند جمله

8زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

Nounmakemake

Adj

S

NP VP

Verb NPNP2

CloudsClouds

Art NP2

thethe

skysky

Noun interestinginteresting

Page 9: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

ساخت درخت برای چند جمله

9زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

Pronounhelphelp

VP

S

NP VP

VerbNP

NP2

TheyThey

Art NP2provideprovide

skysky

thethe

beautifulbeautiful

Verb

Adj NP2

Noun

Page 10: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

TAG

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

معمولی TAGگرامر

ساخته شده Tree Bank از تعدادی TAGیک گرامر است.

درخت ها را ساخت.CFG می توان از TAGبرای ساخت

10

Page 11: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

TAG

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

Clouds make the sky interesting

R{ = S NP VP V makeVP V NP Adj Nclouds | skyNP N Adj interesting NP D N Dthe}

11

Page 12: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

برای یک جمله TAGمجموعه درخت ها برای

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

Clouds make the sky interesting

Clouds make the sky interesting

AdjNV DN

S

NP VPAdj

VP

V

NPNP

D N

NP

N

12

VP

Verb VP

Page 13: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

ساخت درخت پارس جمله با استفاده از قوانین ساخت درخت پارس جمله با استفاده از قوانین جایگزینی و درخت ها جایگزینی و درخت ها

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

S

NP VP

Adj

NPArt

Verb

N

13

CloudsClouds

makemakeNP

thethe skysky

interestinginteresting

Page 14: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

FSGFSG

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

FSG بر اساس CFG.ساخته می شود

درCFG امکان نمایش روابط گرامری مربوط به زبان طبیعی وجود ندارد.

در FSG روابط گرامری مربوط به زبان طبیعی در قالب به گرامر و کلمات اضافه می شود.AVساختار

اضافه شدن روابط گرامری برای درک معنا و چک برخیناهماهنگی های معنایی است)عدم تطابق فاعل و فعل از

نظر زمان، شخص و تعداد(.

14

Page 15: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

FSGFSG

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

برای یک متن برای یک متن FSGFSGمراحل ساخت یک مراحل ساخت یک

را می سازیمAV- برای تمام کلمات ساختار 1

- روابط گرامری مربوط به زبان طبیعی را که روی 2

ویژگی های اضافه شده به کلمات تعریف می شوند، به

اضافه می کنیم.CFGقواعد

15

Page 16: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

FSGFSG

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

Clouds make the sky interesting

Clouds =

Make =

16

Cat NPRoot CloudsNumber SGPerson 3

Cat VPRoot MakeNumber SGPerson 3

Page 17: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

FSGFSG

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

Clouds make the sky interesting

The = a =

interesting = Sky =

17

Cat DetRoot TheCase Identifying

Cat NPRoot Sky Number SgPerson 3

Cat AdjRoot interesting

Cat DetRoot aCase NonidentifyingNumber Sg

Page 18: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

FSGFSG

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

R{ = S VP NP

<VP number > = <NP number><VP person> = <NP person>

VP VP NP Adj <VP number > = <NP number><VP person> = <NP person>

NP NNP Det N

<Det Number>=<N Number>}

18

Page 19: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

پارسرپارسر

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

در این بخش از پروژه باید برای پارس کردن متن انتخاب شده برای پروژه، یک پارسر معرفی نموده و با استفاده از

آن متن را پارس کرده،در خت های پارس جمالت متن را با استفاده ازآن تولید نماییم.

می PCPATRپارسر استفاده شده در این بخش پروژه باشد که در ابتدا آن را معرفی نموده و پس از بیان نحوه کار آن اجزای مورد نیاز آن را که باید برای پارس نمودن

متن ساخته شوند معرفی می کنیم .

19

Page 20: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

PCPATRPCPATR

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

برای PATR-IIاین پارسر براساس فرمالیزم زبانی پیاده سازی کامپیوترهای شخصی طراحی شده است.

، MS-DOSاین ابزار برای سیستم عامل های Microsoft Windows ، Macintosh و Unix قابل

دسترسی است.

با دو خصوصیت زیر می chart parserاین پارسر، یک باشد:

( به همراه انجام یک bottom-up- پارس پایین به باال )1top- down filtering براساس طبقه بندی صورت گرفته برای کلمات.

-left-to- ترتیب پارس اجزای جمله چپ به راست )2right) است .

20

Page 21: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

PCPATRPCPATRاجزای مورد نیاز اجزای مورد نیاز

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

برای استفاده از این پارسر در پارس جمالت در هر زبانی باید چند فایل را با فرمت قابل قبول این پارسر تهیه نمود که در اینجا این فایل ها معرفی می کنیم و

در بخش توضیح پروژه انجام شده فرمت هر یک از فایل ها را شرح خواهیم داد.این فایل ها عبارتند از :

: grammar.txt- فایل 1این فایل شامل قواعد گرامر برای پارس کردن جمالت متن مورد نظر می باشد.

: lexicon.txt- فایل 2 استفاده کنیم، feature structure این فایل شامل کلمات متن و در صورتیکه از

شامل ویژگی کلمات نیز می باشد. : input.txt- فایل 3

این فایل دربردارنده متن یا جمالتی است که می خواهیم، آن را پارس کنیم . فایل دربردارنده ورودی هر نام دیگری می تواند داشته باشد.

:output.txt- فایل 4در زمان اجرای پارسر چنانچه این فایل موجود نباشد ایجاد شده. با اجرای پارسر

درخت های پارس تولید شده توسط پارسر در این فایل ذخیره می شوند.

21

Page 22: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

برای پارس یک متن برای پارس یک متن PCPATRPCPATRدستورات دستورات

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

برای اجرای پارسر در نظر گرفته شده روی متن دستورات زیر را بر روی فایل هایی که در اسالید قبل توضیح داده شده است اجرا نموده و خروجی

مطلوب را به دست می آوریم.

1 – load grammar grammar.txt در این مرحله از اجرا، گرامر در نظر گرفته شده برای متن مورد نظر را

دیگری که text هر فایل grammar.txt می کنیم . به جای loadبه پارسر شامل گرامر باشد می تواند قرار بگیرد.

2 -load lexicon lexicon.txt load به پارسر text در این مرحله از اجرا، کلمات متن را در قالب فایلی

دیگری که شامل لغات متن و text هر فایل lexicon.txtمی کنیم . به جای ویژگی های این لغات باشد می تواند قرار بگیرد.

3 – file parse input.txt output.txt با اجرای این دستور پارسر با توجه به داده های فایل گرامر و کلمات فایل

input.txt را پارس نموده و خروجی را در فایل output.txt.22 ذخیره می کند

Page 23: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

-context-contextپارس متن پروژه با استفاده از گرامر پارس متن پروژه با استفاده از گرامر freefree

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

روند انجام کار : :grammar.txt- ساخت فایل 1

PCPATRگرامر زبان انگلیسی برای جمالت متن را با فرمت قابل قبول پارسر در این فایل وارد می کنیم .

Rule S -> (NP) VP (SubCl)Rule S -> S_1 (RP) S_2Rule NP -> {(Det) (AdjP) N (PrepP)} / PRRule NP -> NP_1 CJ NP_2Rule NP -> {(Det) (AdjP) N_1 (PR) N_2 }Rule Det -> DT / PRRule VP -> VerbalP (NP / AdjP) (PrepP) (AdvP)Rule VP -> VerbalP VP_1Rule VerbalP -> VRule VerbalP -> AuxP VRule AuxP -> AUX (AuxP_1)Rule PrepP -> PP NPRule AdjP -> (AV) AJ (AdjP_1)Rule AdvP -> {AV / PrepP} (AdvP_1)Rule SubCl -> CJ S

23

Page 24: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

-context-contextپارس متن پروژه با استفاده از گرامر پارس متن پروژه با استفاده از گرامر freefree

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

:grammar.txtچند نکته پیرامون فرمت فایل

شروع می شوند. Rule تمام قواعد با کلمه • ها قرار می گیرند که non terminal ، -> سمت چپ عالمت •

گسترش داده می شوند. در مواردی که چند انتخاب برای یک سمبول وجود داشته “/”•

باشد از این کاراکتر استفاده می شود. به کار می روند. optional ”)(“ برای سمبول های • بودن گروهی از سمبول ها به کار optional”}{“ برای بین •

می رود. یک یا چند بار در طرف دوم non terminalدر مواردی که یک •

ظاهر می شود باید با استفاده از ”_“ باید شماره گذاری شوند. برای مثال :•

Rule NP -> NP_1 CJ NP_2Rule AuxP -> AUX (AuxP_1) 24

Page 25: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

-context-contextپارس متن پروژه با استفاده از گرامر پارس متن پروژه با استفاده از گرامر freefree

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

: lexicon.txt- ساخت فایل 2در این مرحله هر یک از کلمات متن با فرمت مورد قبول به این فایل اضافه می

شوند. برای مثال:\w Clouds\c N

\w make \c V

\w sky \c N

\w interesting\c AV

\w They\c PR

\w they\c PR

25

Page 26: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

-context-contextپارس متن پروژه با استفاده از گرامر پارس متن پروژه با استفاده از گرامر freefree

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

: lexicon.txtچند نکته پیرامون فرمت فایل

بین خصوصیات هر کلمه با کلمه دیگر یک خط فاصله باشد.“ برای بیان خصوصیات هر کلمه در ابتدای یک خط استفاده می شود که این \”•

خصوصیت با یک کاراکتر بیان می شود .

•”\w در ابتدای اولین خط از خصوصیات هر کلمه و بیان کننده “syntax آن کلمه می باشد و البته حساس به متن می باشد.

•”\c این خصوصیت بیان کننده “category یا طبقه کلمات می باشد. که در زبان ها عبارتند از : categoryانگلیسی این

•PN (pronoune) ، V (Verb)، DT(Determiner)، PP(Preposition)، N(Noune)، AV(Adverb)، AJ(Adjective)، CJ(Conjunction)، RP(Relative Pronoune).

26

Page 27: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

-context-contextپارس متن پروژه با استفاده از گرامر پارس متن پروژه با استفاده از گرامر freefree

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

که بر اساس متن مورد lexicon.txt و grammer.txtحال با توجه به فایل های نظر تهیه شده اند و با اجرای دستورات ذکر شده درچند اسالید قبل پارسر را بر

اجرا می کنیم . در نتیجه اجرای پارسر درخت های پارس input.txtروی فایل خواهیم داشت . output.txtبرای هر یک از جمالت متن را در فایل

برای مثال برای چند جمله نتایج اجرای پارسر را بیان می کنیم :Clouds make the sky interesting.

27

Page 28: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

-context-contextپارس متن پروژه با استفاده از گرامر پارس متن پروژه با استفاده از گرامر freefree

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

قابل توجه است که در برخی موارد چند در خت پارس برای یک جمله تولید شده است و این به دلیل وجود ابهام در گرامر می باشد که در بخش دیگر پروژه که

می باشد کم شدن تعداد این feature structureپارس متن با استفاده از گرامر درخت های پارس را مشاهده خواهیم کرد.

They warn us of approaching storms and forecast better weather ahead.

28

Page 29: CFG,TAG,FSG استاد درس : آقای دکتر عبدالله زاده توسط : اسماعیل رضایی - 86131031 1 دانشگاه صنعتي امير کبير دانشکده

زبا پردازش : ن درس : توسط زاده عبدالله احمد دکتر استاد رضایی طبیعی، اسماعیل

هوشمند های سیستم آزمایشگاه

تشکر با

29