المحاضرة 6 معالجة اللغات الطبيعية

11
1 الطبيعيةلغات ال معالجة(٦) محاضرة حاسب رابعة الحربى أحمد/ دكتور إحصائية بطريقة الكريم القرآنكلمات لتشكيل ال لمعرفة بعمله قمنا الذىلبرنامج ال خ ومن: الكريمةية لتشكيل ال لتحديدحصائية ا القيم توجدلتالى اجدول بال: " صرا عليھم أنعمت الذين ط" NDW State ﺻﺮﺍﻁ ﺍﻟﺬﻳﻦ ﺃﻧﻌﻤﺖ ﻋﻠﻴﻬﻢK 0 0 0 0 D 0 0 9.31×10 -09 3.44×10 -11 F 1.34×10 -03 1.50×10 -05 2.19×10 -08 0 S 0 0 0 5.85×10 -11 KK 0 0 0 0 DD 0 0 0 0 FF 0 0 0 0 N 0 0 0 0 DW ﺻﺮﺍﻁ ﺍﻟﺬﻳﻦ ﺃﻧﻌﻤﺖ ﻋﻠﻴﻬﻢ الجدول ال من سابق: كلمتى أن نجد" صراط" و" الذين" واحدة إحتمالية قيمةنھم مكل ل معTag لـ ل القيم بينما الفتحةTags أصفارخرى ا القيمة لھذهلمناظرة ا ھىتشكيل المة ع تكون ولذلك، الغير صفريةنھم م كلمةكل ل الفتحةتكون و، .

Upload: lua

Post on 27-Jul-2015

289 views

Category:

Documents


16 download

DESCRIPTION

محاضرات يقدمها الدكتور أحمد الحربي لطلاب قسم الحاسب الألي مقرر : معالجة اللغات الطبيعية

TRANSCRIPT

Page 1: المحاضرة 6 معالجة اللغات الطبيعية

1

معالجة اللغات الطبيعية رابعة حاسب محاضرة (٦)

دكتور/ أحمد الحربى

:ومن خالل البرنامج الذى قمنا بعمله لمعرفة التشكيل لكلمات القرآن الكريم بطريقة إحصائية

:بالجدول التالى توجد القيم اإلحصائية لتحديد التشكيل لآلية الكريمة

"ط الذين أنعمت عليھمصرا"

NDW State عليهم أنعمت الذين صراط

K 0 0 0 0 D 0 0 9.31×10-09 3.44×10-11 F 1.34×10-03 1.50×10-05 2.19×10-08 0 S 0 0 0 5.85×10-11

KK 0 0 0 0 DD 0 0 0 0 FF 0 0 0 0 N 0 0 0 0

DW َصراط الذين أنعمت عليهم

Tagمع لكل منھم قيمة إحتمالية واحدة" الذين"و " صراط"نجد أن كلمتى : سابقمن الجدول ال

الغير ، ولذلك تكون عالمة التشكيل ھى المناظرة لھذه القيمةاآلخرى أصفار Tagsالفتحة بينما القيم للـ

.، وتكون الفتحة لكل كلمة منھمصفرية

Page 2: المحاضرة 6 معالجة اللغات الطبيعية

ة والباقى

كون

ة حتمالي

ا د معھ

، لفتحة

ذلك ، ل

رى مع الفتحة

خرى مع السك

ة إح ھم قيم

فيوجد" ت

مشكلة بال

د التشكيل

ضمة واآلخر

الضمة واآلخ

نھ" لكل م

ة أنعمت"لم

ة ذه الكلم

ر تحدد ألكب

إحدھما مع الض

إحدھما مع ا

ى الشكل التالى

راط الذين

ا كل حة، أم

ك تكون ھ

ة األ القيم

فريتين، إ ص

ر صفريتين،

V علىنحصل

صر"لمات

لتان بالفتح

ذلك كيل، ل

حيث أن

ھا قمتين غير

عھا قمتين غير

Viterbi Al

جد أن الكل

متان مشكل

تحدد التشك

:عھا قميتن

.ون

يوجد معھ" ت

يوجد مع" يهم

gorithmق

نج: العلوى

ھاتان الكلم

مة األكبر ت

فيوجد مع

بالسكوشكلة

أنعمت" كلمة

علي "راً كلمة

تطبيقومع . ر

شكل امن ال

ك تكون ھ

ث أن القيم

"عليھم"ة

الكلمة مش

2

بينما

وأخير. صفار

والباقى أصفار

من

لذلك: واحدة

حيث: قميتن

بينما الكلمة

تكون ھذه

2

أص

و

و

ق

ب

ت

Page 3: المحاضرة 6 معالجة اللغات الطبيعية

3

Using the POS tagger

- We could use our statistical POS tagger to determine the most likely part-

of-speech for each word and give them to the parser.

- This approach would maximally reduce the amount of lexical ambiguity

that the parser needs to deal with. It would only receive one part-of-speech

per word.

- However, if the tagger makes any mistakes then the parser will be

doomed to fail!

- Remember that even though statistical taggers can get about 95%

accuracy, that still means that 1 in 20 words is mistagged.

Assigning Tags Probabilistically

- Instead of identifying only the best tag for each word, a better approach is

to assign a probability to each tag.

- We could use simple frequency counts to estimate context-independent

probabilities.

occurs wordtimes# tag with theoccure wordtimes#)|( =wordtagp

Page 4: المحاضرة 6 معالجة اللغات الطبيعية

4

- But these estimates are unreliable because they do not take context into

account.

- A better approach considers how likely a tag is for a word given the

specific sentence and words around it!

An Example

Consider the sentence: Outside pets are often hit by cars.

Assume “outside” has 4 possible tags: ADJ, NOUN, PREP, ADVERB.

Assume “pets” has 2 possible tags: VERB, NOUN.

If “outside” is a ADJ or PREP then “pets” has to be a NOUN.

If “outside” is a ADV or NOUN then “pets” may be a NOUN or

VERB.

Now we can sum the probabilities of all tag sequences that end with “pets”

as a NOUN and sum the probabilities of all tag sequences that end with

“pets” as a VERB. For this sentence, the chances that “pets” is a NOUN

should be much higher.

Page 5: المحاضرة 6 معالجة اللغات الطبيعية

5

Speech Recognition & Synthesis

حيث يتم التعرف على : التعرف على الكالم وتوليده ھى إحدى إھتمامات معالجة اللغات الطبيعية

، وھو ما يعرف بعملية اإلتصال بالحاسب عن طريق الصوت )نطقه(الكالم وكذلك عملية إصدار الكالم

ن كلمات وذلك عن طريق إعطاء األوامر والتعليمات وكذلك سماع مخرجات الحاسب التى تكون عبارة ع

وقد يكون ذلك فى قراءة الكلمات المختلفة فى القواميس، أو فى قراءة الكتب اإللكترونية أو .ينطقھا الحاسب

.أجزاء نصية مختارة وأشياء آخرى كثيرة

الفوائد المكتسبة من اإلتصال بالحاسب اآللى عن طريق المحادثة

:عن طريق المحادثة وھم كما يلى نذكر بعض الفوائد المكتسبة فى حالة التعامل مع الحاسب

.سھولة التعامل مع الحاسب وخاصة لألفراد الذين يعانون من أى إعاقة - ١

.سرعة وسھولة إدخال البيانات - ٢

.سرية المدخالت والمعلومات - ٣

.سرعة إستخراج التقارير والمعلومات - ٤

إستخدامات التعامل مع الحاسب عن طريق المحادثة

:لھامة لتعامل مع الحاسب عن طريق المحادثةافيما يلى بعض اإلستخدامات

وذلك فى الموضوعات المختلفة من ترجمة أو قراءة النصوص، زيادة قدرات الوسائط : التعليم - ١

.المتعددة فى التعليم والتريب

Page 6: المحاضرة 6 معالجة اللغات الطبيعية

6

.وذلك من خالل إصدار األوامر والتعليمات للمستخدمين: التنبيه - ٢

.فى تعامالت البنوك وصرف األموالوذلك من خالل إستخدام البصمة الصوتية : الصرافة - ٣

.وذلك من خالل التعرف على البصمة الصوتية فى التعامل مع الحاسب: األمن - ٤

.وذلك من خالل زيادة كفاءة األلعاب ومتعتھا: األلعاب - ٥

Phonemes

وھى التى تنتج عن قراءة الحروف والكلمات، حيث أن لكل حرف صوت معين : األصوات اللغوية

موضع الحرف فى الكلمات وكذلك فى حال وجوده قبل أو بعد حرف معين، وھذا يساعد ويختلف تبعا ل

لكلمات كاملة أو لمقطع لغوى أو لفظة لھا صوت فى تميز الكلمات المختلفة، حيث يكون الصوت اللغوى

:فمثال فى اللغة اإلنجليزية نجد أن المقاطع التالية يكون لھا أصوات لغوية محددة ومعروفة. معين

Led, th sh, ph, ation, … وھذا ما يعرف بأصوات اللغوية)Phonemes.(

فمثالً فى اللغة العربية نجد الكثير من التغيرات لألصوات اللغوية من تغير موضع الحرف أو تغير

:تشكيل الكلمة مثل

ميم الساكنة الحروف الساكنة والمتحركة والحروف المخففة والمغلظة وحاالت النون الساكنة والتنوين وال

.......و

Speech Recognition التعرف على الكالم

وھنا يقصد بإمكانية تعرف الحاسب اآللى على الكالم الذى ينطقه المستخدم سواء كان لحروف أو

لكلمات أو لعبارات دون معرفة المعانى وذلك من خالل ميكروفون حساس وبعد ذلك يحولھا لنص

Page 7: المحاضرة 6 معالجة اللغات الطبيعية

7

م بأى معالجة آخرى تلخيص أو ترجمة أو إستخراج المعلومات أو الحفظ مكتوب على الشاشة أو القيا

.على القرص وھكذا

:وعملية تعرف الحاسب على الكالم تتطلب تحقق العديد من األشياء مثل

.التحدث بصوت واضح وبسرعة متوسطة -

.ميكروفون حساس يحول الصوت إلى إشارة كھربية -

.محول إشارة كھربية إلى إشارة رقمية -

برنامج تشفير اإلشارة الصوتية الذى يقوم بتقطيع الصوت المدخل إلى كلمات ثم إلى مقاطع -

.وأصوات لغوية

مع العلم أنه يمكن اإلستغناء عن تسجيل الصوت، بل يتم . قاموس لتعرف على الكلمات ونقطھا -

.تخزين خصائص الصوت ومن خاللھا يمكن إستعادة الصوت مرة أخرى

والذى يقارن اإلشارات الصوتية بما ھو موجود فى القاموس ومن ثم يستخرج برنامج معالج الكالم -

.الكلمات النصية المقابلة لھا فى القاموس وبذلك يتم تكوين الجمل

Speech Synthesis توليد الكالم

إلى كلمات منطوقة من خالل صوت إصطناعى ) النصى(كالم المكتوب وتعرف ھذه العملية بتحويل ال

:لية تحتاج للكثير من األشياء مثلوھذه العم

قاموس الكالم -

Page 8: المحاضرة 6 معالجة اللغات الطبيعية

8

برنامج معالج الكالم -

.برنامج فك تشفير اإلشارة الصوتية -

.السماعة ومكبر الصوت -

.اإلستماع للصوت اإلصطناعى -

:يوجد طريقتين لتحويل النص إلى صوت وھما***

)Words(طريقة توليد الكلمات -

ات مقترنة مع نقطھا، وھذه الطريقة فيھا يتم نطق الكلمات ومن خالل ھذه الطريقة يتم تخزين الكلم

.بصوت واضح ولكنھا تحتاج لمساحة كبيرة للحفظ وإمكانية عالية لسرعة الوصول للكلمات

)Phonemes(طريقة توليد األصوات اللغوية -

ومن خالل ھذه الطريقة يتم تخزين اإلشارة الصوتية للصوت اللغوى إلى وحدات الكالم الصغرى

)Phonemes( وبعد ذلك يتم تجميع الكلمات من ھذه الوحدات الصغرى ومقارنة بالطريقة ،

المذكورة بأعلى ويكون نطق الكالم بصوت أقل وضوحاً، ولكن يتم التخزين فى حيز أقل بكثير من

.الطريقة اآلخرى

Probabilistic Grammars

A probabilistic context-free grammar (PCFG) has a probability associated

with each grammar rule.

Page 9: المحاضرة 6 معالجة اللغات الطبيعية

9

S NP VP .80 prep like 1.0 S VP .20 verb swat .20 NP noun .40 verb flies .40 NP noun PP .40 verb like .40 NP noun NP .20 noun swat .05 VP verb .30 noun flies .45 VP verb NP .30 noun ants .50 VP verb PP .20 VP verb NP PP .20 PP prep NP 1.0

Reminder: this data is fake; the lexical generation probabilities would normally be very small.

Definition

A probabilistic context-free grammar is a 4-tuple >< RNNW ,,, 1 where

W is the set of terminal symbols nWW ,...,1 ,

N is the set of non-terminal symbols mNN ,...,1 ,

N1 is the start symbol,

R is the set of grammar rules.

Each rule is of the form jiN ς→ where jς is a string of terminals and non

terminals.

Each rule has a probability )( jiNP ς→ which is the probability of

expanding iN using this rule as opposed to any of the other rules for iN .

Page 10: المحاضرة 6 معالجة اللغات الطبيعية

10

The probabilities for all rules that expand the same non-terminal must sum

to 1.

What is the probability of a sentence?

The probability of a sentence in a PCFG is the sum of the probabilities of all

possible parses for the sentence.

Informally, let nt ,1 range over all possible parse trees for words nw ,1

The last step is valid because the words are included in the parse tree.

What is the probability of a parse tree?

We say that N dominates constituents jit , if all of jit , are derived (directly or

indirectly) from N.

If a non-terminal jN dominates the words starting at k and ending at

l, then we write jlkN , .

Page 11: المحاضرة 6 معالجة اللغات الطبيعية

11

The probability of a parse tree is then the probability that all of its

constituents dominate their corresponding words. The start symbol

dominates all words in the sentence.