xa.yimg.comxa.yimg.com/.../1691873559/name/nn+91-92-final-ramez…  · web viewمدل کلمه...

49
ر ب ی ن مب ت غ ل ردن ک که دار لRNN ی ن ا ض ما ر ر ه ر[email protected] ان! ی ن ا ض م مد ر ح م[email protected] ده:! ی ک+ چ- اله روش ق م ن! ی ه ا5 .در ارائ د ی8 سب ه د ی س روی ار عی م ! دی ی کل مات کل ی که! ن ها ه وئ م ن مه ه J ن ی ف ا! ی ار ی- ش دارر+ به در د- دار شJ که ! دی ل ی کلJ مه کل ت- ش گر ب ط خ ت س ی د! ن اشا ی- س ل! ی م ح ترای ب م ت شیر ق ت ش م ی صن عJ که ی- س ی ار- ش ا ی ن! ی ت س ده ا- رح داده ش- ش ی سن د د ی سرای ب ! دی ی کل مات کل ردن ک که دار ل ود.- ش ی موری ر ض وعه م ح م ن! ی ا- ش ور مh له در ا ا ق م ! دی ی کل مات کلرای ب ردن ک که دار اد ل رh وی ا گ ل ا ق! یl ب ط ت رای ج ل ا! یl ب ف ن! یل ا ا- ی م وان ی ع ه ئ ی گ ی س یt نه در د- که دار ش ! دی ل ی کل مات کل ن! ی !ر ا یw ی ع ت. ت ی نRNN J م ن ور گ ل در اCTC TOKEN PASSING ی م ان- س ن د.ما وی- ش ی م ن اده ق ت س ا ه ده ئ- ک~ ش! دن ر ب~ ی! ک م ا ن د مان ه ر ه ئ تش ن ط وا ق ف هادی ن- شw یt ن م های ت شی رای ج م که ا! ت ه دWARPING-BASED که م ل ت شی لاوه ع تما ا ت س ا ه در8 ت ف ر گار ر ق ب ی که در ر صن ع که ی- س ی که در! ن را ج م ا! ت کب ی م لی ا یh اوه ما لا ع ت د- اش ی ی م ی ف خ م وف ک مدل مارر ب ی ن مب ! دی مدرن ی کل J مات کل دن- دار ش1

Upload: ngoduong

Post on 11-Feb-2018

228 views

Category:

Documents


5 download

TRANSCRIPT

RNNلکه دار کردن لغت مبنی بر

زهرا رمضانی

[email protected]

محمد رمضانیان

[email protected]

چکیده:

برگشت کلمه کلیدی لکه دار شده در پردازش بازیافتن همه نمونه هایی که کلمات کلیدی معین از روی سند هستند.در ارائه این مقاله روش لکه دار کردن کلمات کلیدی برای سند دستی شرح داده شده

است.این ناشی از شبکه عصبی مستقر سیستم برای تحمیل شناسایی دستخط می شود.

به عنوان مثال این قبیل اجرای تطبیق الگوی آزاد لکه دار کردن برای کلمات کلیدی مقاله در آموزش این CTC در الگوریتم RNNمجموعه ضروری نیست.تغییر این کلمات کلیدی لکه دار شده درپیوستگی

TOKEN PASSINGاستفاده نمی شوند.ما نشان می دهیم که اجرای سیستم های پیشنهادی فقط وابسته است اما بعالوه سیستم لکه دار شدن کلمات کلیدیWARPING-BASEDبه زمان دینامیک نزدیک شده به

مدرن مبنی بر مدل مارکوف مخفی می باشد بعالوه ما آنالیز می کنیم اجرایی که در شبکه عصبی که در زیر قرار گرفته در شناسایی دنبال کردن وظیفه بوسیله لکه دار کردن لغات در تولید رونوشت استفاده

می شود.ما نقطه خروجی را در مزایای لکه دار کردن کلمات کلیدی وقتی مقایسه می کنیم بازشناساییخطی متن مطابق با نمونه.

معرفی:

در شناسایی اتوماتیک دست نوشته های متنی مثل نامه ها کتاب خطی کتابهای دست نخورده در مرکز توجه تحقیقا قوی در چند دهه بوده است.با این حال،مشکل این است که به دور از حل شدن است.به

( که در آن سبک نوشتن از نویسندگان مختلف باید باآنHWRخصوص تشخیص دست خط نامحدود ) برخورد شدید مشکالت مواجه می شوند.ساخت متون دست نویس موجود برای جستجو و جستجو از

لیست یک مقدار عجیب شود.برای مثال یکی ممکن است عالقه مند به پیداکردن همه تکرار کلمه [ .به عنوان مثالی دیگر ،کتابخانه ها تعداد زیادی لغت در3"شکایت" در نامه فرستاده شده به یک شرکت]

انباره دارد از دست نوشته کتاب هایی که از اهمیت حیاتی برای حفظ میراث فرهنگی جهان است.ساخت کتاب های در دسترس برای جستجو و جستجو از لیست به محققان کمک می کند.تالش های

[. مربوط5[,]4برخی در حال حاضر پیش از قرار دادن لغت لکه دار شده برای داده های تاریخی است ] به یکی دیگر از نرم افزار تقسیم بندی تصاویر تاریخی است.کاربردهای دیگر در قطعه قطعه سازی

1

تصاویر در سندهای مهم در مناطق پرمعنی که می توانند گسترش دهند همراه با کلمات کلیدی داده شده .” لکه دار می شود در تصویرها تا به تشخیص شکل ها کمک کند و متناظر باFIG[،کلمه کلیدی “6در ]

انتشار می دهند به منظور دستیابی کتابهای دستYAHOOو GOOGLEآنها.درآخر ارزش ذکر شده در [ .در این زمینه،کلمه کلیدی لکه بینی می تواند یک ابزار ارزشمند7خطی از میان موتورهای جستجوگر]

برای کاربران حاضر در محتویات این کتاب است.

برای پیاده کردن کل متن یک سند دست نوشته برای جستجو تنها نا کار آمد نیست،تا آنجا که ممکن است نتیجه عملکرد نامرغوب پس از بدشمردن لغاتی که نمی تواند پیدا شود.بنابراین تکنیک مخصوص طراحی

برای فعالیت کلمات کلیدی لکه دار شده گسترش می یابد.بعد ما کار وابسته به این ناحیه را مرور میکنیم.

کار مرتب1.1

کلید واژه مرتبط بر1،1،1اساس لکه بینی

وظیفه تشخیص کلیدواژه به عنوان تشخیص یک کلمه یا یک عبارت را در یک تصویر ابتدا برای

[ و چند سال بعد از آن8متن های پرینت شده ] [ پیشنهاد9برای متن دست نوشته شده ]

شد.روش اول تصاویر تک کلمه در نظر گرفته شده و رویکردهای مشترک در تشخیص کاراکتر

( اتخاذ گردید. آنها از مقایسه کدOCRنوری ) پیکسل به گام و آزمون عکس )یا بخش های

(ZOIانتخاب شده که مناطق مورده عالقه ) نامیده می شود( ویا ارزیابی مقدار سراسری

بین دو مجموعه پیکسل استفاده میکنند.آثار قابل توجه در این حوزه عبارتند از: مقایسه

XOR ]10[ فاصله اقلیدسی ،]اسکات و11 ،] [، فاصله هاسدورف9فاصله النگت-هیگینز]

[، و مجموع فواصل اقلیدسی12اجزای متصل ]از نقاط کلیدی مربوطه )ویژگی های گوشه( ]

13.]

بیشتر پیچیدگی ها بررسی آینده پیکسل های [ به16[،]15[. در ]14سفید و سیاه هستند]

(GSC)چندین ویزگی "گرادیان، سازه و تحدب" [ رویه گرادیان17پرداخته شده است.در ]

pixel-wiseهمتای متفاوتی وجود بحث در موردتحول[18دارد.نویسندگان در ]

کسینوس کانکتور گسسته برای بدست آوردن یکی از ویژگی های بردار ،در حالی که استفاده

[ نمایش داده شده19از ویژگی های گابور در ] ویژگی های جامع کلمه در رابطه با است.

احتماالت مدل حاشیه نویسی دراین سیستم [ ارائه20اجازه می دهد یک نقطه دلخواه در ]

با این حال، مشکالت گزارش برای کلمات شود.کلیدی در مجموعه آموزش اتفاق می افتد.

شایع ترین رویکرد محلی برای نشان دادن یک کلمه به عنوان دنباله ای از ویژگی ها از طریق

مقایسه یک پنجره کشویی استخراج شده است. (DTWتوالی با استفاده از چنین تاب زمان پویا)

یکی از شایع ترین کلمه مورد استفاده در لکه [ است و هنوز به22[ ]21بینی است روش ]

طور گسترده ای مورد استفاده قرار می گیرد ] با مقایسه پیکسل به گام در ]DTWمقایسه [.4

2

لکهGSC[ و با توجه به مقایسه مبتنی بر 11 [. یک پیشنهاد برای23[ و]15 در ]DTWبینی با

استفاده از داده های ترتیبی در ارتباط با یک رویکرد جامع برای کلمه کلیدی لکه بینی در

[24سخنرانی حوزه شناخت است که در ] ساخته شده است، که در آن یک دنباله است به یک فضای بردار تبدیل شده و سپس با استفاده

از طبقه بندی ماشین آالت هسته.

. نقطه یابی کلمه کلیدی2.1.1براساس خط

همه رویکردهای پیشین نیازمند متنی در یک تصویر بودند تا بیش از رخ دادن نقطه یابی کلمه

کلیدی به کلمات منفرد تقسیم شود. سناریوی متفاوت در صورتی داده می شود که سند فقط

بنیانDTWبه خطوط تقسیم شود. یک سیستم که به صورت خودکار کاندیداهای کلمه کلیدی در

خط متن دست نویس را انتخاب می کند در ) ( شرح داده شده است. برای سیستم کلی25

که فقط بر تقسیم خودکار تکیه دارد، روشی در ( پیشنهاد شده است که احتمال تقسیم26)

صحیح را در نظر می گیرد.

استفاده از سیستم شناسایی خط متن برای نقطه یابی کلمه کلیدی از مشکل تقسیم سازی پرهیز می کند. تکنیک هایی براساس شناسایی

دست خط اخیرا نسبتا محبوب شده اند،مخصوصا با استفاده از مدل های مارکو پنهان )

HMM( )27( ،)28( ،)29( ،)30( در .)8،) HMMهای شبه دو بعدی بررسی شدند و ادواردز

های عمومیت داده شده ای راHMMو همکاران پیشنهاد کردند که بیشتر از یک نشر در هر حالت

پنهان شده مجاز است. انطباق نظات نشده

HMM( های کل کلمه برای نویسنده خاص در ( پیشنهاد شد و پرونین و رودریگر-سرانو32

برای تخمین حدHMMاستفاده از کرتل فیشر اطمینان خوب را مورد بحث قرار دادند.

(NNها بلکه شبکه های عصبی )HMMنه تنها مسیر خود را در نقطه یابی کلمه کلیدی با

حافظه کوتاه مدت به اصطالح بلند دو مسیری)BLSTM )NNمشابه سیستمی که در این مقاله ،

پیشنهاد می کنیم، پیدا کرده اند. کارذکر شده فقط با نقطه یابی کلمه کلیدی در گفتار سر و

کار دارد. به عالوه، یک گره در الیه خروجی شبکه عصبی یک کلمه کلیدی را نشان می دهد و

وقتی تحریک می شود که کلمه در داده های ورودی روی دهد. بنابراین، تعداد کلمات کلیدی که می تواند نقطه یابی شود محدود است، این کلمه باید از پیش شناخته شده باشد، و کلمات

کلیدی باید در مجموعه تعلیمی باشد.

. نقطه یابی کلمه کلیدی3.1.1براساس سند

برای کار روی صفحات کامال تقسیم نشده متن، یک سیستم می تواند یا شامل مرحله تقسیم

باشد یا رویکرد بدون تقسیم را در پیش گیرد. در (، کتاب کد اشکال به کار رفته است تا36)

نسخه فشرده هر سند را ایجاد کند. سپس جستجوی کلمه کلیدی با استفاده از لیست های کتاب کد شکل ذخیره شده انجام می شود. در

نهایت، رویکرد معمول به سوی نقطه یابی کلمه بدون تقسیم این است که کار را به عنوان

وظایف بازیابی تصویر برای شکل ورودی نشاندهنده تصویر کلمه در نظر بگیریم.

. همکاری2.13

در این مقاله، ما روش نقطه یابی کلمه کلیدی برای متن دست خط براساس شبکه های عصبی

BLSTMرا ارائه می دهیم. کاربرد این شبکه برای CTCعبور نشانه های در ارتباط با الگوریتم

( ارائه40ایجاد رونوشت متن دست خط در ) شد. در این مقاله، ما نسخه حدید الگوریتم عبور

را پیشنهاد می کنیم و آن را بهCTCنشانه وظایف مختلفی، مثال نقطه یابی کلمه کلیدی،

اعمال می کنیم. با در نظر گرفتن دانش نویسنده ها، این اولین باری است که شبکه های

برای اینCTCعصبی و الگوریتم عبور نشانه وظیفه به کار رفته اند. با سیستم ما، نقطه یابی

کلمه کلیدی سریع و قابل اعتماد را می توان بدون نیاز به رونوشت برداری خط متن یا تقسیم

آن به کلمات منفرد انجام داد.

تغییرات تحمیل شده و وظایف زیربنایی مختلف مفاهیم بیشتری درباره انتخاب شبکه های عصبی منفرد دارند. شبکه دارای کمترین نسبت خطا در

زمان انجام شناسایی لزوما بهترین شبکه برای نقطه یابی کلمه کلیدی نیست. سیستمی که نسبت های خطای کلمه را بهینه کند باید در

شناسایی پرتکرارترین کلمه خوب عمل کند اما ممکن است در شناسایی کلمات کاربردی که

تکرار کمتری دارد دارد به صورت ضعیفی عمل کند. براساس قانون زیپف، ظرفیت شناسایی

کلمات توقف اثر بزرگی بر نسبت خطای کلمه دارد، در حالی که در نقطه یابی کلمه کلیدی، کلمات توقف مهم نیستند. در واقع، آن ها در بیشتر آزمایش ها در نظر گرفته نمی شوند.

سیستم نقطه یابی کلمه کلیدی باید به صورت برابری خوب در جستجوی هر کلمه ای، حتی

کلمات نادر و اسامی که ممکن است در فرهنگ لغت یا مدل زبان باشند یا نباشند، عمل کند.

بنابراین، سیستم بهینه شده براساس نسبت خطای کلمه نمی تواند برای جستجو مناسب

باشد زیرا یک سیستم مستقیما برای این وظیفه ساخته شده است. در بازیابی متن، نشان داده

شده است که مدل تعلیم با حداکثرسازی احتمال داده های تعلیمی براساس مدل منجر به بهترین

نتایج نمی شود.

نسخه ابتدایی سیستم شرح داده شده در این ( ارائه شد. مقاله حاضر44( و )43مقاله در )

گستره های قابل توجهی در زمینه روش زیربنایی و ارزشیابی آزمایشی را فراهم می

کند. ابتدا، ما قابلیت استفاده از سیستم برای دادهه ای تاریخی و نیز دست خط مدرن را تهیه

می کنیم. ما دو مجموعه داده تاریخی متفاوت را به کار می بریم. یک مجموعه داده شامل حروف نوشته شده توسط همکاران جورج واشنگتن، یک پایگاه داده شناخته شده برای وظیفه نقطه یابی

کلمه کلیدی، است. از آنجایی که نوشتن به صورت خط پیوسته در انگلیسی مدرن اولیه

انجام شده است، ما عملکرد سیستم پیشنهاد شده را وقتی براساس دست خط مدرن تعلیم

دیده است، بررسی کردیم. دومین مجموعه داده تاریخی یک شعر حماسی در آلمانی نیمه باال،

نوشته شده در قرن سیزدهم، است.

(، یک44(، )43به عنوان دومین گستره در ) مقایسه جامع با چندین سیستم مرجع ارائه شده

متداولDTWاست. از یک طرف، یک الگوریتم بنیان مدرن برایHMMبه همراه یک الگوریتم

مقایسه به کار رفته است. از طرف دیگر، سیستم شناسایی دست خطی به کار رفته است

تولید می کند که جستجویASCIIکه خروجی کلمه کلیدی انجام شده است.

4

در نهایت، بحث مختصری درباره نقطه یابی کلمه کلیدی به عنوان زمینه تحقیقی مستقل از شناسایی دست خط، پشتیبانی شده با مباحث تجربی درباره همبستگی عملکرد شناسایی در برابر عملکرد نقطه یابی کلمه کلیدی سیستم

های منفرد، داده شده است. سوال این است که آیا نقطه یابی کلمه کلیدی آسان تر و سریع تر

به فرم خبری پاسخ داده4.5است در بخش شده است.

بقیه مقاله به این صورت ساختاربندی شده ، سیستم نقطه یابی کلمه2است: در بخش

کلیدی پیشنهاد شده با جزئیات معرفی شده ارائه شده3است. سیستم های مرجع در بخش شرح داده4است. ارزشیابی آزمایشی در بخش

ارائه شده اند.5شده است و نتایج در بخش

”found: نتایج جستجو برای کلمه “1تصویر

. نقطه یابی کلمه با استفاده2BLSTMاز

نقطه یابی کلمه کلیدی به فرآیند بازیابی همه نمونه های کلمه داده شده از یک سند اشاره دارد. در این مقاله، ما روی اسناد دست خط،

مثل نامه ها، خاطرات یا رونوشت ها توجه می کنیم. بدون رونوشت برداری داده ها، کاربر باید هنوز هم بتواند برای هر کلمه محتملی، درست مثل یک موتور جستجو، جستجو نماید. این که

نتیجه این جستجو می تواند چگونه باشد در نشان داده شده است. توجه کنید که1تصویر

سیستم اصلی فقط احتمال یافت شدن کلمه را نشان می دهد. اگر احتمال حضور کلمه کلیدی در خط متن باالی آستانه داده شده باشد، خط متن به صورت تطابق مثبتی همراه با موقعیت

کلمه کلیدی بازگردانده می شود.

. پیش پردازش1.2

در پایگاه داده به کار برده شده برای آزمایشات ، همه اسناد از قبل4شرح داده شده در بخش

به خطوط متن منفرد تقسیم شده اند. از هر خط، یک توالی از بردارهای مشخصه استخراج

شده است که به شبکه عصبی پیشنهاد میشود.

برای پردازش الگوریتم، تصویر خط متن نرمال باx1,…,xN بردار مشخصه Nشده توسط توالی

xi ارائه شده است. این توالی با یک پنجره کشویی که از سمت چپ به راست در سراسر

تصویر حرکت می کند، استخراج شده است. در مشخصهn موقعیت پنجره کشویی، Nهر

استخراج می شود. پنجره کشویی پهنای یک پیکسلی دارد. این پنجره با گام های یک پیکسلی

برابر با پهنای خطNحرکت داده می شود، یعنی مشخصه هندسیn = 9متن است. از هر پنجره،

استخراج می شود، سه مشخصه کلی و سه

5

مشخصه موضعی. مشخصه های کلی صفراُمین، اولین و دومین لحظه توزیع پیکسل های سیاه در

پنجره هستند. مشخصه های موضعی موقعیت برترین و پست ترین پیکسل سیاه، انحراف خط

راهنمای باال و پایین کلمه در موقعیت واقعی پنجره، تعداد انتقال های عمودی سیاه/سفید، و مقدار مقیاس خاکستری میانگین بین باالترین و پست ترین پیکسل هستند. به منظور محاسبه

انجراف خط راهنمای باال و پایین، پنجره کشویی در سمت چپ پنجره واقعی در نظر گرفته می

شود. برای جزئیات بیشتر درباره مرحله ( ارجاع می دهیم.46استحراج مشخصه، ما به )

مشخصه های استخراج شده موضعی هستند و هر بردار مشخصه فقط داده های تصویر خط متن در یک موقعیت را ارائه می دهد. هرچند

تاثیر غیرمستقیمی بین همه کلمات یک خط متن وجود دارد. این مراحل پیش پردازش که در

شرح داده شده است به صورت کلی4.1بخش به خط کل متن اعمال می شوند. بنابراین، روش نوشته شدن کلمه اصالحات اعمال شده به خط

کل متن را پیش از استخراج مشخصه تحت تاثیرقرار می دهد.

. مدخل های کنترل کننده جریان2تصویر LSTMاطالعات به داخل و خارج هر گره

. سیستم پیشنهاد شده2.2

سیستم نقطه یابی کلمه کلیدی پیشنهاد شده در این مقاله براساس کار قبلی است که در آن

برای وظیفهBLSTMشبکه های عصبی شناسایی دست خط به کار رفتند. اعمال

BLSTM NNبه شناسایی دست خط شامل دو بخش است. اولین بخش یک مرحله پیش

پردازش است که توسط شکه عصبی انجام می شود. این بخش هر موقعیت توالی ورودی به یک بردار را نقشه برداری می کند که احتمال نوشته

شدن هر کاراکتر در آن موقعیت را نشان می دهد. بخش دوم، به نام الگوریتم عبور نشانه

CTCاین توالی احتماالت حروف، و نیز مدل ، دیکشنری و زبان را به عنوان ورودی خود می گیرد و توالی احتمالی کلمات را محاسبه می کند. برای وظیفه نقطه یابی کلمه کلیدی، ما

اولین بخش را بدون تغییر گذاشتیم اما الگوریتم پس پردازشی به صورت خاص برای نقطه یابی

کلمه کلیدی ایجاد کردیم

قبال درBLSTM NNاز آنجایی که پیش پردازش ( شرح داده شده است، ما آن را به عنوان40)

کادر سیاهی در مقاله حاضر در نظر می گیریم. زیر ارائه2.3ما فقط توضیح مختصری در بخش

( ارجاع40می دهیم و برای جزئیات بیشتر به ) CTCمی دهیم. درک پس پردازش عبور نشانه

که الگوریتم ما براساس آن پایه ریزی شده است ضروری می باشد. بنابراین، ما الگوریتم را

شرح می دهیم.2.4به صورت کامل در بخش

BLSTM. شبکه های عصبی 2.3

شبکه عصبی زیربنایی یک شبکه عصبی تکرارشونده با طراحی خاص است. برای غلبه

6

بر مشکل شیب محوشونده که افزایش نمایی یا تحلیل اطالعات در ارتباطات تکرارشونده در

شبکه عصبی را شرح می دهد، گره هایی در الیه حافظه کوتاه مدت بلندپنهانی توسط سلول های

(LSTM جانشین شده اند که در تصویر )نشان2 داده شده است. مدخل های این سلول ها گره

های معمولی هستند و جریان اطالعات به داخل و خارج هر سلول را کنترل می کند. وقتی مدخل ورودی بازباشد، مقدار گره مرکزی توسط فعال

سازی خروجی گره ورودی شبکه جایگزین می شود. وقتی مدخل خروجی باز باشد، اطالعات

به خارج و به درون شبکه جریان می یابد و وقتی مدخل فراموشی باز است، حافظه سلول تا حد

صفر بازچینش می شود.

است، یعنی خط متن از هر دودوطرفهشبکه سمت راست به چپ و چپ به راست پردازش

می شود. این امر به این دلیل انجام می شود که متن از هر دو طرف یک کاراکتر برای ارتقای

شناسایی مفید است. اطالعات از دو الیه ورودی جمعLSTMجداگانه به ترتیب در دو الیه جداگانه

آوری می شود و در نهایت در الیه خروجی به هم نشان داده2می پیوندند. این مورد در تصویر

شده است. الیه خارجی شامل یک گره برای هر کاراکتر محتمل و نیز یک گره اضافی، به نام گره

است که وقتی هیچ مدرکی درباره حضور هر کاراکتری را نمی توان استنتاج کرد، فعال می

شود. نرمال سازی فعال سازی های خروجی به منجر به برداری می شود1منظور جمع بندی تا

که می توان آن را به عنوان بردار احتمال(.4کاراکتر تفسیر کرد )تصویر

: تصویر حالت عملیات شبکه عصبی3تصویر BLSTMبرای هر موقعیت، الیه خروجی مقادیر . پنهان را جمع می کند.LSTMدو الیه

: سطح فعال سازی برای همه گره ها4تصویر در الیه خروجی. فعال سازی بیشتر اوقات برای

حروف نرمال نزدیک به صفر است و فقط در یک موقعیت متمایز به اوج می رسد. در مقابل،

است.1 تقریبا همیشه سطح فعال سازی گره

CTC. الگوریتم عبور نشانه 4.2

برای کلمات منفردCTCالگوریتم عبور نشانه را بهtانتظار توالی احتماالت حروف با طول

wعنوان ورودی از شبکه عصبی، به همراه کلمه

، دارد. درASCIIبه عنوان توالی کاراکترهای حالت برنامه نویسی دینامیک، بهترین مسیر از

بین توالی احتمال حرف به صورتی محاسبه می wشود که متناظر با حروف از کلمه ورودی

باشد. سپس ارزش آن مسیر به عنوان یک امتیاز متناظر برگردانده می شود، یعنی احتمالی که

ورودی به شبکه عصبی در واقع کلمه داده شدهبود.

7

برایCTCشبه کد الگوریتم عبور نشانه داده شده1شناسایی تک کلمه در الگوریتم

است. برای معرفی عالئم رسمی، بگذارید توالی احتمال روی دادنn(l,k) باش و nاحتمال حروف

باشد. به عالوه، فرض کنیدk در موقعیت lحرف به صورت مطابقت یافته توالی ازwکلمه

باشد.w= l1l2…lحروف

در یک توالی بسط می یابدwدر گام اول، کلمه

وci (i =1، .....، 2n +1)به عالوه، برای هر کاراکتر در خط متن، یک نشانهj = 1،....،tهر موقعیت

v(i,j)ایجاد می شودو این نشانه احتمال حضور همراه با احتمال بهترینj در موقعیت ciکاراکتر

را در خود دارد.jمسیر از شروع تا موقعیت شروع می شوند به جز نشانه0همه نشانه ها با

و اولین که متناظر با اولین عالمت c2 و c1های ، به هستند. این مواد با مقادیر l1کاراکتر کلمه

در اولین موقعیت توالی، شروع میc1ترتیب، (.4-3شوند )خطوط

در طول حلقه زیر در طی همه موقعیت های به روز رسانی شدهv(.,j)، نشانه jتوالی ورودی

است تا

رویj در موقعیت l. حرف متناظر با نشانه 1دهد،

. در بهترین مسیر، همه حروف کلمه در ترتیب2داده شده روی دهد،

. بین دو حروف متوالی کلمه، فقط فعال3 در نظر گرفته می شود، وسازی های گره

. اگر دو حروف متوالی کلمه داده شده مشابه4 ”(، حداقلHello در “4 و 3باشند )مثال موقعیت

باید بین آن ها قرار گیرد.یک گره

بهترینT، مجموعه v(i,j)برای محاسبه مقدار نشانه

ایجاد می شود که در آن همه نشانه های معتبر نگه داشته می شوند که به عنوان پیش پردازنده

براساس محدودیت هایv(i,j)ای برای نشانه ذکرشده در باال عمل می کنند. اگر در موقعیت

در نظر گرفته شود )که می تواندci کلمه jتوالی باشد(، نشانه متناظر بایک حرف واقعی یا

معتبرj-1 در توالی موقعیت ciحرف مشابه اگر )ci-1(. نشانه متناظر با حرف 8است )خط

ciحرف واقعی باشد و یک حرف واقعی باشد برای هر یکj-1( در توالی موقعیت = ciوقتی

(.10 و 9به جز حرف اول معتبر است )خطوط از آنجایی که دو حرف متفاوت ممکن است

دنبال کنند،یکدیگر را بدون فعالسازی گره برای این موارد نیز معتبرci-2نشانه متناظر با (. سپس، احتمال بهترین15 تا 11است )خطوط

می شود تاn(i,j) ضرب در بهترینTنشانه در یک ساده1 به دست آید. الگوریتم v(i,j)احتمال

( است40سازی نسبی از مورد داده شده در ) که برای رونوشت برداری توالی کامل طراحی

شده بود اما برای وظیفه نقطه یابی کلمه کلیدیما کافی است.

برایCTCالگوریتم عبور نشانه . 1الگوریتم شناسایی کلمه منفرد

w = l1l2…lnکلمه ورودی نیازمند:

توالی احتماالت حرف، قابل دسترسی زنیازمند: ).,.(nطریق

آغاز به کار:: 1

8

2 :w را به w’ = l1 l2 … l+n = c1c2…c2n+1

3 :v (1,1) = n ( ,1)

4 :v (2,1) = n (l1,1)

: حلقه اصلی5

j < t > 2. برای همه موقعیت های توالی 6

انجام می دهد

گلمه گسترده شدهi: برای همه موقعیت های 71 < i < 2n+1انجام می دهد

8 :Tبهترین{ = v(i,j-1)}

پسi < 1: اگر 9

10 :Tبهترین = Tبهترین v (i-1, j-1)

پسi < 2: اگر 11

پسci ≠ ci-2 و ≠ ci: اگر 12

13 :Tبهترین = Tبهترین v(j-2, j-1)

: تمام می شود اگر14

: تمام می شود اگر15

: تمام می شود اگر16

17 :v (i,j)( ماکزیمم = Tبهترین . )n (i,j)ضرب در احتمال بهترین نشانه با احتمال حرف

: تمامی شود برای18

: تمام می شود برای19

{{ این کلمهv(2n+1, t), v(2n,t)بازگشت حداکثر ( یا در آخرین حرفc2n+1 )می تواند در آخرین

( تمام شودc2nمعمول )

. اصالح برای انجام نقطه5.2یابی کلمه کلیدی

را حاال می توان برای نقطه یابی هر1الگوریتم با طول دلخواه بهsکلمه داده شده در خط متن

کار برد. ایده این است که فقط محصول احتماالت خروجی حروف کلمه کلیدی در

موقعیت هایی که به بهترین شکل مطابق می شوند در نظر گرفته شوند. بنابراین، گره مجازی

به گره های خروجی اضافه می شود که گرهany --نام می گیرد. سپس کلمه کلیدی*یا گره

که قرار است نقطه یابی شود پیش می رود و با را نشان دهد.any دنبال می شود تا گره-*

مسیری از بین ماتریس فعالسازی روی خط متن خواهد بود تا محتمل ترین موقعیتanyروی گره-

کلمه کلیدی در خط متن، سپس از میان حروف کلمه گسترده شده عبور می کند و در نهایت

تمام می شود.anyدوباره روی گره-

برای همهn (*,j)=1برابر با anyمقدار گره- - بخش های مسیر محصول را* است تا jمقادیر

تحت تاثیر قرار ندهند.

به منظور یافتن کل کلمه اما نه کلمه های فرعی موجود در کلمات بزرگ تر، ما یک کاراکتر “-“ )فضای سفید(را به جلو و انتهای کلمه کلیدی

اضافه می کنیم

w’ = *-l1l2…ln-*

9

هرچند این ممکن است منجر به مشکالتی شود زیرا کلمات کلیدی روی دهنده در آغاز خط متن

لزوما فضای سفید پیش از آن ها نداریم. مشابها، تصویر خط متن می تواند با آخرین

پیکسل های کلمه نهایی تمام شود. بنابراین، ما اجزای توالی را به آغا و پایان هر خط متن

اضافه می کنیم که فضای سفید اضافی را نشانمی دهد.

را برای شناسایی تکCTCاگر حاال الگوریتم ’wکلمه به کار ببریم تا احتمال کلمه ای با شروع

را محاسبه کنیم، در واقع احتمال این را محاسبه می کنیم که خط متن با هر کاراکتر محتمل، در

wنقطه ای در خط متن، با حرف اول کلمه

شروع شود. این مورد با حرف دوم و مانند آن دنبال می شود تا حرف آخر کلمه که با فضای سفید دنبال می شود و سپس، دوباره، توسط

دنبال می شود. مشخصا، اندازه و anyکاراکتر بی’wمحتوای متن قبل و بعد از کلمه کلیدی

. با این وجود احتمالn(*,j) =1ارتباط است زیرا بازگشت کننده یک کلمه هنوز به طول کلمه

بستگی دارد. برای دریافت مقدار نرمال شده ای که سپس بتواند آستانه بندی شود، ما لگاریتم

را می گیرین و آن را بر طولاحتمال کلمه مورد جستجو تقسیم می کنیم:

تخمین طول کلمه کلیدی که به خوبی کار می کند، برای تعدادی از کاراکترهای کلمه به کار می رود. این مقدار در سراسر مجموعه تست برای

هر کلمه کلیدی ثابت است. روند بهتر استفاده از طول بخشی از خط متن است که فرض می

شود کلمه کلیدی باشد. در ادامه این مقاله، ما روی استفاده از تعداد حروف در کلمه برای

هدف نرمال سازی تمرکز می کنیم زیرا نتایجبهتری را به دست داد.

. سیستم ارجاع3

در این بخش، ما سیستم های ارجاعی را شرح می دهیم که رویکرد پیشنهاد شده در این مقاله را با آن مقایسه کرده ایم. اولین مورد سیستم نقطه یابی کلمه کلیدی براساس تکمیل زمان دینامیک است در حالی که مورد دوم سیستم

نقطه یابی کلمه کلیدی براساس یادگیری است که به تازگی با استفاده از مدل های پنهان شده

مارکو پیشنهاد شده است. در نهایت، ما از برای رونوشتHWRسیستم بسیار مدرن

برداری متن استفاده می کنیم. در این نتیجه ساده به کار رفته است.ASCIIگیری، جستجوی

براساسDTWتوجه کنید که سیستم ارجاع تقسیم سازی قبلی کلمه تصویر خط متن، بسیار

مشابه سایر تکنیک های نقطه یابی کلمه رایج، مثال رویکردهای کل گرا است که در تصویر کلمه

ها مدل سازی می کنند. برایHMMرا با اساسNNمقایسه با سیستم نقطه یابی کلمه

را به تصاویر کلمه تقسیم شدهDTWما، ما کامل اعمال کرده ایم، یعنی خطاهای تقسیم

بندی را در نظر نمی گیریم.

DTW. سیستم ارجاع 1.3

DTWیک رویکرد برنامه ریزی دینامیک است که با مقایسه دو به دوی اجزای اولین توای با اجزای

10

توالی دوم، هم ترازی بهینه ای بین دو توالی می یابد. هر جز در یک توالی می تواند به چندین جزمتوالی در توالی دیگر اختصاص داده شود. در )

48 ،)DTWبرای نقطه یابی کلمه در شناسایی گفتار به کار رفت و نیز اولین رویکردها برای

را برای ارائهDTWنقطه یابی متن دست خط متن به عنوان توالی بردارهای مشخصه به کار

را ببینید(. در حالی که مشخصه2برد )بخش پیشنهاد شدهDTWهای متنوعی در ارتباط با

اند، ما مجموعه مشابهی از مشخصه ها که برای بنیان به کار رفت را موردNNنقطه یابی کلمه

استفاده قرار می دهیم تا از مقایسه قطعیاطمینان حاصل کنیم.

( شرح4 ما، مشابه آنچه در )DTWراه اندازی داده شد، از باند ساکو-چیبا استفاده می کند تا محاسبه را سرعت بخشد. تنها معیار حذفی که

به کار بردیم طول کلمه بود، یعنی یک تصویرکلمه نباید بیشتر از دوبرابر طول دیگری باشد.

به منظور مکان یابی یک کلمه کلیدی خاص، همه نمونه های آن کلمه که در مجموعه تعلیمی روی می دهد با همه کلمه ها در هر خط متن مقایسه

می شود. در این مقاله، ما یک تقسیم بندی کمل، تصحیح شده دستی را در نظر می گیریم تا تاثیر خطاهای تقسیم بندی بر عملکرد نقطه یابی

کلمه را حذف کنیم. این منجر به انحراف به نفع سیستم4ارزشیابی سیستم در بخش

DTWارجاع می شود. حداقل همه این فواصل

به عنوان تابع فاصله از طبقه لغت کلمه کلیدی تا ازDTWخط متن عمل می کنند. اگر فاصله

کلمه کلیدی تا خط متن زیر آستانه داده شده باشد، خط متن و کلمه دارای فاصله حداقل به

عنوان یک تطابق مثبت برگردانده می شوند.

HMM. سیستم ارجاع 2.3

( پیشنهاد30دومین سیستم ارجاع اخیرا در ) شد. این سیستم براساس مدل های پنهانی

ها برای مدل سازی متنHMMمارکوو است. دست خط بسیار مدرن هستند و به صورت

گسترده برای نقطه یابی کلمه به کار رفته اند. (، مدل های کاراکتر تعلیمی برای نقطه30در )

یابی کلمات کلیدی در تصاویر خط متن کامل با استفاده از رویکرد بدون لغت موثر به کار رفته

اند

: مدل های پنهانی مارکوو5تصویر

پیش پردازش تصویر و روش های استخراج مشخصه مشابه سیستم پیشنهاد شده مورد

را ببینید(. در2استفاده قرار می گیرد )بخش های کاراکتر براساس تصاویرHMMفاز تعلیمی،

خط متن رونوشت برداری شده تعلیم می بینند. در مرحله شناسایی، امتیاز تصویر خط متن

بین مدلR= LK/LFناشناخته با نسبت احتمال و مدل خط متن پرکنندهKخط متن کلمه کلیدی

F داده می شود. مدل کلمه کلیدی Kدر تصویر ” داده شدهword الف برای کلمه کلیدی “5

است. این مورد محدود شده است تا توالی کاراکتر کلمه کلیدی دقیقی در ابتدا، میانه یا در

11

انتهای خط متن داشته باشد که به ترتیب با ” جدا شده است. مدلspکاراکتر فضاگذار “

با توالی اختیاری کاراکترها بهFپرکننده کلی ب داده می5صورت نشان داده شده در تصویر

شود. این مدل برای نرمال سازی امتیاز احتمالLKبه دست آمده از مدل کلمه کلیدی به کار می

با توجهRرود. در مرحله نهایی، نسبت احتمال نرمالLبه طول توالی کاراکتر کلمه کلیدی

برای نقطه یابیTسازی می شود و با آستانه . برایR/L>Tکلمه کلیدی مقایسه می شود،

بنیانHMMجزئیات بیشتر درباره سیستم ارجاع ( مراجعه کنید.30به )

. رونوشت برداری و3.3ASCIIجستجوی

بیشتر مقاالت درباره نقطه یابی کلمه ادعا می کنند که وظیفه نقطه یابی کلمه نباید با استفاده

انجام شود تا متنHWRاز سیستم های رونوشت برداری شود و جستجو روی خروجی

ASCIIانجام گیرد. استدالل می شود که نقطه یابی یک کلمه منفرد اساسا آسان تر است و باید به صورت اساسی با هزینه محاسباتی پایین تری

انجام شود. هرچند، نویسنده های مقاله حاضر هیچ دلیل رسمی یا مدرک تجربی گزارش شده

در مقاالت برای اثبات این ادعا را نیافته اند. بنابراین به این چنین رونوشت برداری ها جستجو

ASCII( بعدی آن عالقنمد هستیم TAS.)

شبکه های عصبی به کار رفته برای رویکرد نقطه یابی کلمه که در مقاله پیشنهاد شده است می تواند به سادگی بری شناسایی دست خط به

ذکر شد.2.4کار رود، همان طور که در بخش شرح داد شده در )CTCالگوریتم عبور نشانه

( فعالسازی های خروجی شبکه عصبی و40 اطالعات آماری درباره همه کلمات قابل

شناسایی را به عنوان ورودی می گیرد که نشان می دهد دیکشنری دیکته می کند کلمه در واقع

می تواند شناسایی شود. در نتیجه فرآید شناسایی، ما رونوشت خط متن داده شده، یعنی

توالی احتمالی کلمات، را به دست می آوریم. نمی تواند هیچ فرمیCTCالگوریتم عبور نشانه

را برگرداند. بهnاز شیکه یا لیست بهترین- عالوه، استفاده از احتماالت کلمه برگشت داده شده به خوبی انجام نمی شود. همچنین ما تنها یک رونوشت برای هر خط متن را با اطالعات دوتایی به کار می بریم، چه کلمه کلیدی در آن

رونوشت روی داده باشد یا خیر.

نشان دادهHWRهمان طور که در قلمروی شده است، اطالعات زبانی می توانند اثر مثبتی

بر سرعت شناسایی داشته باشند. بنابراین ما دو سیستم ارجاع متفاوت را در آزمایش های خود

بنیان ازHWRبه کار بردیم. اولین سیستم ارجاع اطالعات زبان اضافی استفاده می کند در حالی

که مورد دوم می تواند فقط به داده هایی دسترسی داشته باشد که در مجموعه تعلیمی و اعتبارسنجی در دسترس هستند. اطالعات زبانی

که به کار می بریم به شکل یک مدل زبان دو گرمی داده شده است. به صورت ایده آل، این

(،w1,w2چنین مدلی، برای هر جفت کلمات ) توسطw1 است که کلمه شامل احتمال

در یک متن دنبال شود. مشخصا، اینw2کلمه احتماالت دو گرمی شناخته شده نیستند اما می

توانند از مجموعه متن به اندازه کافی بزرگ تخمین زده شوند. در آزمایش های ما، سیستم

های ارجاع زیر به کار رفته اند.

12

1.3.3 TASبا مدل زبان

این سیستم ارجاع از مجموعه نوشته های ( به عنوان منبع خارجیLOBلندن/اسلو/برگن )

استفاده می کند تا احتماالت دو گرمی کلمات را یکLOBتخمین بزند. مجموعه نوشته های

مجموعه بزرگ حاوی بیش از یک میلیونن کلمه )روزنامه ها و غیر( است و شبیه مقطع عرضی

زبان انگلیسی در زمان انتشار خود است )1961.)

2.3.3 .TASبدون مدل زبان

در موردی که هیچ اطالعات اضافی در دسترس نباشد، ما لیست کلماتی را تعیین می کنیم که

می تواند احتماال برابر با همه کلمات در مجموعه تعلیمی شناخته شود. احتماالت دو گرمی

براساس مجموعه تعلیمی با استفاده از هموار سازی اصالح شده نسر-نی تخمین زده می

شوند.

ارزیابی آزمایشی 4

مجموعه های دیتا 4.1

برای آزمودن متد نظارت کلید واژه ی ارائه شده،ما از سه مجموعه دیتای مختلف استفاده

IAM(IAMنموده ایم،دیتا بیس آفالین

DB)1[57] 2،دیتا بیس جرج واشینگتن(GW DB) و نسخه های قرون وسطایی شعر حماسی )

PARZIVAL DB[ )45 شکل. ]را برای نمونه6

های این دیتا مالحظه نمایید. صفحات همه ی مجموعه های دیتا مورد اسکن قرار گرفتند و به

طور متقابل به خطوط متن انفرادی تفکیک شدهاند.

نمونه هایی از پایگاه داده های استفاده6شکلشده در آزمایش

خطوط متن بخش بندی شده قبل از شناسایی برای از عهده برامدن سبک های نوشتاری

مختلف به صورت طبیعی دراورده می شوند.اول، زاویه ی مورب از طریق یک آنالیز

رگرسیون معین می شود که بر اساس پیکسل انتهایی- بیشتر سیاه از هر ستون پیکسل، تعیین می شود.آنگاه موربی این خط متنی با چرخش

از بین می رود.پس از آن ، این کجی برای طبیعی کردن جهات عمودی طوالنی یافته شده

" تصحیح میt", "Iدر کاراکترهایی مانند " شود.پس از براورد زاویه ی موربی بر اساس یک

آنالیز پیشینه نما ،یک تبدیل برش برای این تصویر به کار می رود.سپس ،یک مقیاس عمودی

برای کسب سه ناحیه ی نوشتاری همان ارتفاع به کار می رود یعنی ناحیه تحتانی،میانی و فوقانی، که از طریق خط مبنای تحتانی و

فوقانی تفکیک می شود. برای تعیین خط مبنای تحتانی ،نتیجه ی رگرسیون حاصل از اصالح

موربی به کار می رود. برای جزئیات بیشتر در

13

زمینه ی عملیات هنجار سازی یا طبیعی سازی [ رجوع می کنیم.نهایتا46)نرمالیزاسیون( ما به ]

عرض این متن عادی می شود.برای این منظور مسافت متوسط انتقال های سیاه و سفید در

طول یک خط راست افقی از طریق این ناحیه ی میانی مشخص می شود و با مقیاس افقی

تنظیم می شود. نتیجه ی مراحل پیش پردازش دیده شود. 7می تواند در شکل

اثر پیش پردازش بر روی داده ها7

به عالوه این خطوط به کلمات تکی هم تفکیک DTWمی شود. ذکر می شود تنها سیستم مرجع

به این نیاز دارد که کلمات تفکیک شوند.در مقایسه دستاورد ما با کل خطوط متن کار می

کند.این دو دیتا بیشتر می تواند به صورت زیردسته بندی شود.

IAM offline DB صفحه1.539.این دیتا بیس از ی متن انگلیسی دست نویس تشکیل شده است

نویسنده نوشته شده است.آن657که توسط خط متنی ،یک6.161به یک مجموعه آموزشی

خط متنی و یک920مجموعه ی ارزیابی 929مجموعه ی تست مستقل نویسنده دارای

خط متنی تفکیک می شود.

GW DB مجموعه ی دیتای .GW صفحه ی20 از نامه،دستور و دستور العمل جرج واشنگتون از

تشکیل می شود. این صفحات از یک1755 کلکسیون بزرگ با انواع تصاویر نشئت می

گیرد،کیفیت آن از بدون نقص تا خیلی دشوار برای خواندن می باشند. صفحات منتخبی که ما استفاده می کنیم نسبتا بی نقص است.این متن بخشی از یک مجموعه ای از نوشتجات بزرگتر است ،که نه تنها توسط جرج واشنگتن نوشته شده بلکه به کمک برخی از همکاران او بوده

است.این نشان دهنده ی تغییراتی چند در سبک نوشتن است. با این وجود ما گمان می کنیم

نوشتن بر روی این صفحات نسبتا مشابه باشد. کلمه4.894صفحات در نظر گرفته شده شامل

شاملGWDB خط متنی است .675بر روی [ می باشد اما ما27همان صفحات مورد ]

دریافته ایم کلماتی که به طور خودکار قطعه بندی شده اند یا استخراج شده اند بسیار

نادرست می باشند. با تاکید بر روی نظارت بیش از پیش پردازش تصویری اسناد در این مقاله ،ما این مجموعه دیتا را به واژه های انفرادی به طور دستی بخش بندی می نماییم.از اینرو یک تفاوت

جزئی در تعداد واژه ها و دسته های کلمات وجوددارد.

14

PARZIVAL DB.ما از دیتابیسPARZIVAL

[ برای ارزیابی تجربی خود45ارائه شده در ] استفاده می نماییم.این دیتابیس حاوی تصاویر

دیجیتالی نوشته های وسطایی است که از قرن Parzival ام نشئت می گیرد. شعر حماسی 13

کتاب مرتب شده است توسط16که در Wolfram von Eschenbachبه آلمانی عالی قرون

وسطی با جوهر بر روی کاغذ پوست نوشتهشده است.

نوشته های خطی متعددی از این شعر وجود دارد که در سبک نوشتاری و گویش زبانی با هم

متفاوت هستند.این نوشته ی خطی برای ارزیابی در کتابخانه ی دانشگاه کدSt. Gallآزمایشی در

به کار رفت که توسط مولفین متعددی857 ث یک صفحه ی نمونه6نوشته می شوند. شکل

را نشان می دهد.

نصب آزمایشی 4.2

شبکه50با استفاده از مجموعه ی آموزشی ،ما ی عصبی که به تصادفی آغاز شده اند را

آموزش دادیم و از مجموعه ی ارزیابی برای توقف تکرار تکثیر برگشتی در فرایند آموزش

[ را برای جزئیات بیشتر در40استفاده کردیم.]زمینه ی الگوریتم آموزش شبکه ی عصبی ببینید.

برای ایجاد مجموعه ایLOBبخش نوشتجات به کار رفته است. زیرا متنbi gramاز احتماالت

هم چنین یک زیرIAMنوشته شده در دیتا بیس LOBمجموعه از مجموعه نوشتجات

برای اینbigramاست،احتماالت محاسبه شده ی کار کامال مناسب هستند.گرچه این متن به

انگلیسی نوشته شده است، شکل انگلیسی با توجه به هجی و گرامر ،از آن زمان تغییر کرده

محاسبهbigramاست. بنابراین ما احتماالت را باLOBشده بر روی مجموعه نوشتجات

محاسبه شده بر رویbigramاحتماالت ترکیبGWDBمجموعه ی آموزش و ارزیابی

کرده این تا یک مدل زبانی را خلق نماییم که همکلی است و به زبان موجود شبیه است.

the SRILM toolkitترکیب کردن با استفاده از

صورت گرفته است.[56]

يکي از قويترين و معروفترين )toolkitهمان ويروس کشها مورد استفاده در اينترنت و

(برایشناسايي ويروسهاي درون حافظه خود. بهPARZIVALخلق مدل زبانی برای دیتابیس

کار رفته است. حقایق زمینه ای هر دو مجموعه ی آموزشی و ارزیابی برای براورد احتماالت

bigramو خلق فرهنگ لغت به کار رفته است.هر سیستمی یک ارزش را برای هر واژه تست شده

بر می گردارند . این ارزش در احتمالwی در مورد سیستم ارائهfCTCðwjsÞلگاریتمی

شده است،نزدیک ترین مسافت تا نمونه های زمانیکه ازÞÞ است ؛ miniðDTWðwiآزمایشی استفاده می کند یا فقط یکDTWدستاورد

اطالعات دودوئی را استفاده می کند چه این واژه در این نسخه برداری با استفاده از یک

یافت شده باشد و چه یافت نشدهASIIسرچ ما یکDTWباشد. گفته می شود اجرای

از نامحدود را بر می گرداند اگرDTWمسافت واژه ی کلیدی در مجموعه ی آموزشی روی

ندهد زیرا هیچ نامزدی نمی تواند برای هماهنگی با این واژه یافت شود. ما یک کار بازیابی خطی

DTWرا برای مقایسه ی سیستم ارائه شده با

انجام می دهیم.یک خط متنی یک تناسب مثبت را در نظر می گیرد اگر واژه ی کلیدی در

15

مجموعه ی آموزشی روی دهد. از اینرو سیستمDTWکوچکترین مسافت همه ی واژه های

نمونه ی اولیه را به هر کلمه ای در خز متن برمی گرداند.

الگوریتم نظارت کلمه این ارزش را در برابرآستانه ی جهانی مقایسه می کند تا تصمیم بگیرد هماهنگی دارد یا خیر. برای نتیجه گیری تا

حد ممکن دقیق،ما از همه ی ارزش های DTW برای دستاورد fCTCðwjsÞبرگردانده شده

به عنوان آستانه های سراسری استفاده نمودیم.هر آستانه ای یک نقطه را درفراخوانی

نمودار دقت ایجاد می کند که با یک منحنی پیوسته برای بسیاری از آستانه های مختلف

تلفیق می شود.برای مقایسه ی سیستم های مختلف ،ما بررسی دقت متوسط را بر روی همه

ی ارزش های فراخوانی انتخاب کردیم زیرا شامل اطالعاتی در زمینه ی کل نمودار می

شود.

IAM DB 4.2.1

ما آزمایشات نسبتا متفاوتی را بر روی هر یک از این سه مجموعه داده انجام داده ایم. نخستین

انجام شد.IAMآزمایش با استفاده از دیتا بیس کلمه ی کلیدی مختلف را )کل کلمات2.807ما

کلمه ای که از همه4.000بدون توقف در بین تکراری تر بودند هم چنین در مجموعه ی

آموزشی هم روی داده بودند ( در مجموعه دیتایIAMتست کردیم.تعداد متوسط رویدادها در

5.26مجموعه ی آموزشی هر کلمه ی کلیدی است.0.53است و در مجموعه ی تست

برچسب متوسط نرخ خطا در شبکه های8شکل اقتباس شده،زمانی که برای رونویسی استفاده

می شود

4.2.2 GW DB

GWدو آزمایش بعدی با استفاده از دیتا بیس

انجام شد. با توجه به اندازه ی نسبتا کوچک این دیتا بیس ،ما یک وارسی اعتبار چهارگانه را

بلوک تقسیم می4 صفحه به 20انجام دادیم. صفحه تشکیل می شوند.5شوند که هر یک از

دو بلوک برای آموزش و یک بلوک برای وارسی و یکی هم برای تست کردن به کار می رود.ما

همه ی واژه هایی را که در مجموعه ی آموزشی برای انجام نظارت کلمه روی می دهند را

انتخاب نموده ایم. تعداد متوسط این رویدادها در است و2.02مجموعهی آموزشی هر کلید واژه

است. گفته می شود0.74در مجموعه ی تست ما هم چنین واژه های توقف را در این راه اندازی )ستاپ( وارد می کنیم تا نتایج قابل [ و41قیاس تری با متون موجود بدست آوریم ]

[59.]

GWبا آزمایشاتی که بر روی مجموعه دیتای

انجام شده ،ما هم چنین مسئله ی دیگری را هم و سایر سیستمDTWبررسی نموده ایم.زیرا

نیاز ندارد در زمینه ی مجموعه ی دیتاQBEهی آموزش ببینند،آنها می توانند برای هر نوشته یا سبک نوشتاری جدید به کار روند. یک تجربه ی

16

جالب از اینرو وجود خواهد داشت تا آنها را با شبکه های عصبی مقایسه کند که در زمینه ی

دیتا بیس واقعی آموزش ندیده اند.

شبکه ی عصبی از آزمایشات50در نتیجه ما از مجددا استفاده نموده ایم وIAM DBبر روی

GWکاربرد آنها را بر روی مجموعه دیتای

ارزیابی نموده ایم.

با فرض اینکه یک کاربر بخواهد صفحات کمی از متن را رونویسی کند،این شبکه می تواند بر

روی دیتای جدید برای انطباق مجددادآموزش ،تاثیر این انطباق با مجموعه8ببیند.در شکل

می تواند به عنوان کاهشی از میزانGWدیتای خطای برچسب )لیبل( محسوب شود.

این دستاورد با آزمایشات مشابهی هم چنین در ][ ارائه شده است.44

دو آزمایش انطباق مختلف بار دیگر با استفاده 20از وارسی اعتبار چهار گانه و همان تفکیک

صفحه ای به چهار بلوک مانند باال اجرا شده است. در آزمایش انطباق نخست ما یک صفحه

را از یک بلوک برای آموزش و یک صفحه ازهمان بلوک را برای وارسی استفاده کردیم.

یک بلوک برای تست کردن به کار رفت،به منظور قابلیت قیاس بهتر با سایر آزمایشات

GWدر آزمایشگ انطباق دیگری ،ما از دو . صفحه ی یکی بلوک برای آموزش و سه صفحه ی دیگر برای ارزیابی استفاده کردیم. بار دیگر

یک بلوک برای تست کردن به کار رفت.

به عالوه ،ما هم چنین از شبکه های عصبی برای استفاده نمودیم.زیرا ماTASنظارت کلمه ی

فرض می کنیم دارای هیچ متون رونویسی شده

در زمان انطباق با شبکه ها نیستیم وGW DBی اگر هم باشیم تعداد آنها خیلی کم است.با این

افزودهunigramوجود کلید واژه ها با یک احتمال unigramشدند ) متوسط همه ی احتماالت

موجود(.

4.2.3 PARZIVAL DB

آخرین آزمایشات با استفاده از مجموعه دیتایPARZIVAL شبکه ی عصبی10 انجام شد. ما

خط از متن رونویسی شده2.237را بر روی خط اضافی را به عنوان912آموزش دادیم و

یک مجموعه ی ارزیابی به کار بردیم.این خط بود. این1.329مجموعه ی تست حاوی

متن به آلمانی عالی وسطی )میانی( نوشته شده بود و مفهوم بیشتر کلمات برای مولفین این

مقاله ناشناخته بود. از اینرو ما سعی نکردیم بین کلمات توقف و بدون تقف تمایز ایجاد نماییم.

برای خودداری از مقایسه ی ناعادالنه با سیستم کلمه ای را که3.220 ،ما همه ی DTWمرجع

در مجموعه ی آموزشی روی می دهد را به صورت کلید واژه های ممکن به کار بردیم.تعداد

متوسط رویدادها در مجموعه ی آموزشی هر 1.79 و در مجموعه ی تست 3.53کلید واژه ای

می باشد. ما هم چنین نظارت کلید واژه یTASرا انجام دادیم.همانطور که در باال ذکر

شد، مدل زبانی با استفاده از مجموعه ی TASآموزشی و ارزیابی خلق شد.این دستاورد

را محدود می کند زیرا کلماتی که در مجموعه ی آموزشی یا ارزیابی روی نمی توانند شناسایی

شوند زیرا در مدل زبانی وجود ندارند.

17

قطعه فراخوان با دقت تمام سیستم بر9شکل روی پایگاه داده

نتایج 4.3

مجموعه ی ارزیابی برای نظارت کلید واژه ها بر روی مجموعه ی تست انتخاب شدو عملکرد آن

برایTAS, و DTW,HMMبا عملکرد استفاده از هر سه دیتا بیس مقایسه شد.سیستم ارائه شده

یک آستانهDTW و HMMو سیستم های مرجع ی قابل تنظیم را به کار می برند که این امر را

میسر می سازد که یک منحنی پیوسته رسم از سوی دیگر ،با اطالعات دو دوییTASشود.

یک کلمه کار می کند که با موفقیت مورد نظارت قرار گرفته باشد یا قرار نگرفته باشد. بنابراین

این دارای یک دقت ثابت است و یک مشخصات فراخوانی ثابت دارد که به یک نقطه ی واحد در

نمودارد مربوط می شود. بنابراین ما یک سیستم واحد بهترین را بر روی مجموعه ی ارزیابی

انتخاب نکردیم اما عملکرد همه ی سیستم ها بر را ارائهPARZIVAL و IAMروی نتایج دیتا بیس

می نماید.

،ما بین مقایسه سیستمGW برای دیتا بیس تمایز قائل می شویم و ازHMM و DTWخود با

یک سو اثر تطبیق شبکه های عصبی را با دیتا بیس از سوی دیگر تحلیل می کنیم. به خاظر

را رسم نمیTASآمادگی ما نتایج سیستم های کنیم.

برایIAM DBدر این آزمایش نخست ما از , و سیستمDTW, HMM, TASمقایسه ی

استفادهBLSTMنظارت کلید واژه ی 9نکردیم.نمودار دقت فراخوانی حاصل در شکل داده شده است.منحنی دقت فراخوانی سیستم

می تواند در گوش ی سمت چپ پایینی دیده شود ،این بیانگر این است که این سیستم ممکن

نیست برای این کار ویژه کامال مناسب باشد. خیلی بهتر عملHMMSاین سیستم بر اساس

می کند و می تواند در وسط نمودار دیده شود. سیستم ارائه شده با این وجود با سبک های

دست نویس متمایز و کلمات که در مجموعه ی آموزشی روی نداده اند کامال خوب عمل می کند.نظارت کلید واژه ی جستجوی رو نویس

منجر به نقاظ مشخصی حتی در باالی آن خط می شود. به طور آشکار اطالعات زبان خارجی

که در مجموعه نوشتجات بزرگ داده شده اند دارای یک اثر مثبت بر روی دقت است،به قیمت

یک ارزش فراخوانی پایین تر،زمانیکه فقط با استفاده از یک مدل زبانی داخلی مقایسه شد.در

، تکنیک نظارت کلید واژه یGWمورد دیتا بیس BLSTM NNهر دو متد مرجع را بیرون می دهد

الف داده شده است.عملکرد10که در شکل ب ترسیم10نسخه ی تطبیق یافته در شکل

شده است. این سیستم با پایین ترین عملکرد سیستم نظارت کلید واژه ی بر اساس شبکه ی

آموزشIAM DBعصبی است که فقط بر روی داده شده است ،که حتی واژه ها را به جای

DTWانجام می دهد. زمانیکه شبکه های عصبی

18

منطبق می شود ،عملکردGWبا مجموعه دیتای به طور عمده افزایش پیدا می کند.بهترین

سیستم با این وجود سیستمی است که به طور آموزش داده می شود.درGWDBکامل بر روی

دقت متوسط نظارت کلید واژه پس از1جدول مراحل انطباق داده می شود. ستون

سیستم را نشان می50میانه ،میانه ی همه ی IAMدهد.این ستون بر روی مجموعه ی ارزیابی

قبل از انطباق بهترین عملکرد راداشت. ستون بهترین عملکرد را داشت وvalsetآخر بر روی

دقت متوسط سیستم را نشان می دهد که بهترین عملکرد را بر روی مجموعه های ارزیابی

برایIAMداشت یعنی مجموعه ی ارزیابی GWسیستم تطبیق نیافته ، مجموعه ی ارزیابی

و مجموعه2 برای انطباق صفحه ی 1صفحه برای انطباق صفحه ی3 صفحه ی GWارزیابی

2 ،ما به جدول TAS .برای نتایج سیستم های 5 اشاره می کنیم.فرد می تواند ببیند فرایند

انطباق منجر به افزایش دقت و فراخوانی می شود. درصد فراخوانی با این حال، از سیستمی

آموزش دادهGW DBکه به طور کامل بر روی شده ،تامین نمی شود. هم چنین نشان می دهد

که اطالعات گرفته شده از نوشتجات بزرگترLOBممکن است هم چنان مفید باشد، گرچه

این نوع متون و زمان اصل آن تاحدی متفاوتهستند.

طرح دقت تمام سیتم ها با پایگاه داده10شکلGW

همPARZIVAL DBدر نهایت نتایج حاصل از چنین مزیت سیستم ارائه شده را بر روی هر دو

سیستم مرجع نشان می دهد. سبک نوشتاری رایج ، مرتب برای همه ی سیستم ها مفید است

و توانایی یادگرفتن منجر به منحنی دقت(.11فراخوانی تقریبا کامل می شود )شکل

یک دیدگاه یکپارچه به طور آشکار بیانگر ارجحیت سیستم نظارت واژه ی ارائه شده بر

است اما هم چنین بهDTWسیستم مرجع 3 هم ارجحیت دارد. جدول HMMسیستم مرجع

دقت متوسط متدهای مقایسه شده را نشان می دهد.گفته می شودبا محدود کردن کلید واژه ها

به کلماتی که در مجموعهIAM DBدر آزمایش ی تست روی می دهد به چنین پیشرفت قابل

منجر نمی شودDTWتوجهی در عملکرد اثر دارد که ممکنGW DBهمانطور که بر روی

است منجر به سبک نوشتاری معکوسی شود که روی می دهد. بدون یک مجموعه یIAM DBدر

در کل یاQBEآموزشی در دست ،سیستم های DTWبه طور خاص تنها سیستم های قابل

کاربرد برای انجام نظارت واژه ای هستند.با این وجود اگر دیتای آموزشی وجود داشته باشد میتواند برای پیشرفت بیشتر عملکرد به کار رود.

19

میانگین مانعیت و جامعیت ارزشهای2جدول رونویسی و اسکی رویکرد جستجو

مقایسه با متون مربوطه 4.4

آزمایشات ارائه شده در این مقاله ،بویژه آنهایی صورت میGWکه بر روی مجموعه دیتای

گیرند، شبیه به نتایجی است که قبال منتشر شده اند. گرچه این کار،مجموعه ی دیتا و متد ارزیابی کامال قابل قیاس نیستند،ما برخی نتایج منتشره

را بحث خواهیم کرد ،تا این مقاله را با کار موجود در ارتباط قرار دهیم. برجسته ترین کارها

بر روی این دیتا بیس توسط رات و همکارانش[. 4] و ]59منتشر شده اند ]

قطعه فراخوان با دقت تمام سیستم در11شکلPARZIVALپایگاه داده

میانگین دقت وظیفه لکه بینی در 3جدول PARZIVAL DBو IAM DB

بیشتر متونی که به دیتای جرج واشنگتن می پردازند به طور خودکار از کلمات بخش بخش

شده برای تست کردن استفاده می کنند.به عالوه همیشه همان صفحات نوشته ها به کار

[ مولف بر روی زیر مجموعه13نمی روند. در] صفحه ی منتخب تاکید دارد که دارای10ای از

0.65کیفیت خوبی است.آنها یک دقت متوسط را با0.62 و DTWرا با استفاده از یک سیستم

استفاده از تناظر ویژگی گوشه ای گزارش می [ مولف یک شکل پیشینه نمای22دهند.در ]

ویژگی های گرادیان )شیب( های جهت دار و عملکرد دیتامیک پیوسته را به عنوان یک دستاورد

بر مبنای خط نشان می دهد.آنها یک دقت کلید واژه گزارش می15 را برای 0.79متوسط

دهند.دقیقا همان کلمات به عنوان کلید واژه با [ به کار رفته اند.هر دو این17 در ]R 0.6دقت

کارها از همان بیست صفحه ای که ما استفاده کردیم استفاده می کنند،گرچه حقیقت زمینه ای

ممکن است کمی به خاطر مقررات شیوه ی ساماندهی کلماتی که با خط پیوند جدا شده

[ از17اند،کمی متفاوت باشد. مولفین در ] [59همان دیتا بیس و حقیقت زمینه ای مانند ]

[ مانند22استفاده کردند در حالیکه نویسندگان ] ما یک حقیقت زمینه ای جدید را ایجاد نمودند. در

[ یک درخت تصمیم مورد بررسی قرار41] [ یک مدل آماری با استفاده از59گرفت و در]

ویژگی های کلمه ی کل نگر بود. در حالیکه20

20نویسندگان این مقاالت از همان دیتا بیس صفحه ای مانند ما استفاده می کنند،هر دو مرجع از یک ستاپ وارسی اعتبار متفاوت گانه10استفاده می کنند.آنها یک ارزیابی اعتبار

درصد خطوط آن90را انجام می دهند که مجموعه ی آموزشی را تشکیل می دهد در

درصد خطور برای تست کردن به کار10حالیکه می رود.زمانیکه با استفاده از همه ی کلمات در

حداقل یک رویداد در مجموعه های آموزشی و تست صورت می گیرد ،مولفین یک دقت

[ را گزارش41] 0.79[ و 59 ]0.54متوسط می کنند. این ستاپ نسبتا به ستاپ بهکار رفته

نزدیکGWدر آزمایشات ما بر روی دیتا بیس 0.84است که در انجا ما به یک متوسط دقت

رسیدیم.

شناخت کلمات هم چنین با استفاده از مجموعه [27 مورد تحقیق قرار گرفته بود.در ]GWدیتای

در کنارHMMمولفین با یک سیستم بر اساس یک مدل زبان آماری شبیه به زبان ما استفاده

کرده بودند.آنها با مدل های زبانی متعدد آزمایش صفحه از19کردند من جمله مدل داخلی که از

مجموعه ی آموزشی وارسی اعتبار شان نشئت گرفته بود و یک مدل توسعه یافته با استفاده از متنی که در حدود همان زمان نوشته شده بود.

گفته می شود ویژگی ها کل نگرانه ی از تصاویر HMMکلمه ی تکی ، به کار رفته است. از اینرو

آنها از یک حالت به ازای هر کلمه تشکیل می 0.606 را با 0.470شود. این مقاله یک دقت

( باشدOOVبدون اینکه از بین کلمات واژگان ) صفحه آموزش10 بر روی HMMدر زمانیکه

داده شود مانند آزمایشات ما.

صفحه برای آموزش به کار می رود19زمانیکه و یک مورد هم برای تست کردن ،درستی به

0.551 resp. 0.651افزایش می یابد. این دو [ به عنوان یک معیار به کار18شکل اجرا در ]

می رود و با استفاده از یک تکنیک هماهنگ سازی بر روی خطوط تراز کلمات به اوج می

0.826 و 0.694رسد.این منجر به درستی منتهی می شود. به عالوهOOVبدون کلمات

با کلمات0.611درستی های گزارش شده OOV 0.84[ است و 60 بدون آنها در ]0.723 و

در ]0.71[ و بدون آنها 61 در ]OOVبا کلمات [ است.هر دو اثر هم چنین از یک وارسی61

گانه )الیه( با یک مجموعه ی آموزشی20اعتبار صفحه ای استفاده می کنند که کلمات به19

طور دستی بخش بخش شده اند.

ما می توانیم مجموعه دیتای خود را با دقت گزارش کنیم که فقط به طور قابل توجهی0.84

از سیستم بر اساس دیتا باالتر است اما هم چنین باالترین رقم گزارش شده در بین آثار

مکتوب است که دستاورد های بر اساسیادگیری را در بر می گیرد.

گرچه این اعداد نمی توانند به طور مستقیم مقایسه شوند،آنها نشان می دهند که متد به کار

رفته در این مقاله کامال برای دیتای تاریخیمناسب است.

21

دقت متوسط نقطه یابی کلمه12شکل کلیدی)در آزمون مجموعه ای(در مقایسه با کلمه میزان خطا زمانی که به عنوان یک خط استفاده می شود سیستم )در مجموعه اعتبار سنجی(به

شبکه بر روی50رسمیت شناختن برای همه IAM DBباشد

همبستگی نظارت کلید واژه4.5و شناسایی

همانطور که در باال دیده شده بود، یک شبکه ی عصبی برای نظارت کلمه به کار رفته بود که می تواند به اصالح برای شناسایی دست خط هم به

کار رود.تنها تغییر الزم در زمینه ی الگوریتم پیش ( است. این الگوریتم محاسبه بCTCپردازش )

تناظر بین درستی شناخت یک شبکه ی عصبی و عملکرد آن را ممکن می سازد زمانیکه برای

نظارت کلید واژه به کار رفته است.

نشان می دهد، بر12نمودار پراکندگی در شکل ، همبستگی )تناظر( بینIAMروی دیتا بیس

میزان خطای کلمه در زمان استفاده از شبکه ی خنثی به عنوان یک سیستم شناسایی دست خط

و دقت متوسط در زمان استفاده از شبکه ی خنثی برای کار نظارت واژه می باشد. لیست

4کامل ضرایب همبستگی می تواند در جدول دیده شود. می توان دید گرچه یک همبستگی

باال بین نظارت و عملکرد شناسایی وجود دارد ،این هم بستگی کامل و بی نقص نیست.

ای نتایج نشان می دهد که مسائل زیر بنایی باید حل شود گرچه شبیه هستند اما یکسان

نیستند.یک سیستم شناسایی دست خط بر اساس بهترین کلمات تصمیم می گیرد که در بین مجموعه ای از نامزد های ممکن هستند. نتایج ما نشان می دهد که این کارها کامال خوب به دقت

باال و ارزش فراخوانی باال منجر می شوند. با این وجود دارای این عیب هستند که برای یک

موقعیت خاص در متن ،می تواند کلمه ی شناسایی شده را برگرداند.سیستم نظارت کلید واژه از سوی دیگر احتمال کلید واژه را بر می گرداند.بنابراین کلید واژه ها حتی می تواند اگر

یک کلمه راHWRرونویسی یک سیستم نادرست شناسایی کرده باشد ،یافت شوند.یک

نکته ی دیگر که این دو دستاورد را مشخص می کند توانایی برایتصمیم گیری در مورد این مسئله است که آیا فراخوانی یا دقت در یک کار بازیابی داده شده مهم تر است یا خیر. با این وجود مهم ترین اختالف این است که این کلید واژه ها می توانند به طور آشکار و با موفقیت بدون سیستم

شناسایی دست خط مورد نظارت قرار فقط به نمونه کلماتDTWگیرند.برای نمونه

ارائهBLSTکمی نیاز دارد و شبکه های عصبی شده می توانند در مرود یک دیتا بیس متفاوت

آموزش داده شوند و یک عملکرد مشابه بدست آورند ،گرچه یک رونویسی با استفاده از این شبکه های خنثی منجر به متنی می شوند که

درصد50دارای یک میزان خطایبرچسب < است.

22

به عالوه سیستم نظارت کلید واژه ی ارائه شده فقط از میلی ثانیه های کمی برای پردازش یک

خط متنی استفاده می کند در حالیکه یک رونوشت یک خط متنی با استفاده از مدل زبانی

به تا چند دقیقه نیاز دارد. تا زمانیکه زمان شرایط زمانی نقشی نداشته باشد ممکن است

انجام پیش پردازش آفالین کل آرشیو مفید باشد بهترین هرnبرای نمونه به شکل یک رونوشت

خط متنی بر روی هر دو سطح هم کلمه و هم کاراکتر تا امکان یافتن کلماتی را حفظ نماید که

در یک دیکشنری روی نمی دهند.زمانیکه این میسر نباشد ،سیستم ارائه شده ی ما به نظر می رسد بهترین انتخاب باشد. نمونه های این

سریع ترین تحقیق در زمینه ی اسنادی است که جدیدا اسکن شده اند یا دیتا بیس های بزرگ. به طور ویژه برای اسناد تاریخی ،دیتا بیس ها می توانند نسبتا بزرگ باشند. کل مجموعه ی جرج

صفحه است و140.000واشنگتن حاوی مجموعه ی اسناد تاریخی گنجهی ملکه ی هلند ]

صفحه است . یک300.000[ حاوی تقریبا 62 سیستم نظارت کلید واژه بر اساس شناسایی

متن به نظر نمی رسد برای این دیتا بیس ها شدنی باشد.با فرض این که این متن بر روی سه چهارم مجموعه نوشته شده باشد،هر صفحه ای

خط است و یک سیستم شناسایی به20حاوی دقیقه برای شناسایی یک خط متنی نیاز5

دقیقه طول می کشد و به ترتیب28دارد.آنگاه سال برای پیش پرازش کل دیتا بیس ها40

زمان الزم است.از سوی دیگر یک کلید واژه می تواند بر روی یک خط متنی در یک میلی ثانیه مورد نظارت قرار گیرد که منجر به یک زمان

دقیقه ای می100 و به ترتیب 33جستجوی شود.

دقت شناخت و ارتباط بین کالم میانگین4جدول نقطه یابی دقیق کلمه و تشخیص دست خط

برای چهار الیه ی بزرگ با این دستاورد، کار شناسای غیر واقع گرایانه است در حالیکه کار

نظارت واژه به طور بالقوه مفید است. آنها تکمیلی هستند و فرد ی تواند تصور کند نظارت کلمه انجام می شود تا مورد مورد عالقه مستقر

شود و آنگاه فقط صفحه ی مورد عالقه مورد نظارت قرار می گیرد.تا زمانیکه زمان مهم

باشد،همه ی سیستم های بر اساس یادگیری دارای عیب نیاز زمانی هستند که برای آموزش

سیستم الزم است. با این وجود یک سیستم آموزش داده می شود،نظارت کلید واژه می

تواند سریعتر از سیستم های بر اساس نمونه انجام گیرد. در حالیکه تعداد کلماتی که در هر

خط متنی بررسی شده اند ،عین هم است،این کلمات نباید با با همه ی دیتا های آموزشی

مناسب مقایسه شود اما فقط با پارامتر هایمدل مقایسه می شود.

23

نتیجه گیری 5

هدف ما طراحی یک شبکه عصبی برای تشخیص م¦¦ا ب¦¦ه ی¦ک. حرف الفبای انگلیس¦¦ی می باشد26

روش طبقه بندی ایده آل برای برداره¦¦ای ورودی نیازمن¦¦دیم ک¦¦ه ح¦¦تی توان¦ایی طبق¦¦ه بن¦¦دی ورودی ه¦ای ن¦ویزدار را ب¦ا دقت مناس¦¦ب داش¦¦ته باش¦¦ند. شبکه عصبی مورد استفاده در این مس¦¦ئله دارای

ورودی می باشد که هر یک از این ورودی ه¦¦ا35 مرب¦¦وط ب¦¦ه یکی از ح¦¦روف الفب¦¦ا هس¦¦تند. ب¦¦ردار

ع¦¦دد26ه¦¦دف ن¦¦یز هم¦¦انطور ک¦¦ه گفت¦¦ه ش¦¦د از تش¦¦کیل ش¦¦ده اس¦¦ت. ه¦¦دف آم¦¦وزش ی¦ک ش¦¦بکه

ورودی مربوط به35عصبی است که با دریافت خصوصیات هر یک از حروف خروجی مناس¦¦ب را

خروجی مطلوب تعیین نماید. عالوه بر26از بین این شبکه باید توانایی کنترل ن¦ویز را دارا باش¦¦د. زیرا رد عمل شبکه خصوصیات مربوط به حروف را به صورت کامالً مطلوب دریافت نمی کند.پس از تعریف شبکه نوبت ب¦¦ه آم¦¦وزش آن می رس¦¦د. برای ایجاد یک ش¦¦بکه ک¦¦ه توان¦¦ایی کن¦¦ترل ورودی های دارای نویز را داش¦ته باش¦د به¦ترین راه ح¦¦ل آموزش شبکه ب¦ا ه¦¦ر دو ورودی ای¦ده آل و دارای ن¦¦ویز اس¦¦ت. در این راس¦¦تا ابت¦¦دا ش¦¦بکه را ب¦¦ا استفاده از بردارهای ایده آل تا ح¦¦داقل رس¦¦اندن

SEE(Sum)خط¦¦ای Squre Errorآم¦¦وزش می مجموعه از برداره¦¦ای4دهیم. سپس شبکه را با

)ایده آل( و بقیه آنها دارای نویز می باشند.

متاسفانه انجام روند آموزش به صورت یاد ش¦¦ده هر چند قابلیت طبقه بندی برخی از ورودی ه¦¦ای دارای نویز را به شبکه می دهد. اما از کارایی آن در تش¦¦خیص وروده¦¦ای ای¦¦ده آل می کاه¦¦د. ب¦¦رای رف¦ع این مش¦¦کل ب¦رای س¦ومین ب¦ار ش¦بکه را ب¦ا ورودی ه¦¦¦ای ای¦¦¦ده آل آم¦¦¦وزش می دهیم ت¦¦¦ا از

ک¦¦ارایی آن در م¦¦ورد ورودی ه¦¦ای ب¦¦دون ن¦¦ویزمطمئن شویم.

همانطور که قبالً اشاره ش¦¦د ب¦¦رای ف¦¦راهم آوردن یک ش¦¦بکه ک¦¦ه ب¦¦ه ن¦¦ویز حس¦¦اس نباش¦¦د م¦¦ا روال آموزش را با ترکی¦¦بی از ورودی ه¦¦ای دارای ن¦¦ویز ادامه می دهیم. بردارهای ن¦¦ویزی دارای می¦¦انگین

می باشد. ب¦¦ه این ت¦¦رتیب ش¦¦بکه2/0 و 1/0نویز ب¦رای تش¦¦خیص ورودی ه¦¦ای دارای ن¦ویز در کن¦¦ار ورودی های بدون ن¦¦ویز آم¦¦وزش می بین¦¦د.در این مقاله ما یک دستاورد نظ¦¦ارت کلی¦¦د واژه ی ب¦¦دیع را ارائه نموده ایم که ب¦ا اس¦¦تفاده از ش¦¦بکه ه¦¦ای عصبی کوتاه مدت طوالنی دو جهته در ترکیب ب¦¦ا یک نسخه ی اص¦¦الح ش¦¦ده از الگ¦¦وریتم گذران¦¦دن نشانه ی پیوند گ¦¦را ب¦¦ود. این سیس¦¦تم دارای چن¦¦د مزیت در مقایسه ب¦ا تکنی¦¦ک ه¦¦ای موج¦¦ود اس¦¦ت. اول اینکه آن یک دستاورد بر اساس خط است و نیازی به هیچ گونه بخش بن¦¦دی کلم¦¦ه ن¦¦دارد. دوم اینکه گرچه این سیستم نی¦¦از دارد م¦¦ورد آم¦¦وزش ق¦¦رار داده ش¦¦ود، ام¦¦ا ب¦¦ه ب¦¦اکس ه¦¦ای اتص¦¦ال پیرامون کاراکترها ی¦¦ا واژه ه¦¦ا نی¦¦ازی ن¦¦دارد زی¦¦را اغلب در متون ظارت کلی¦¦دواژه الزم اس¦¦ت. تنه¦¦ا چ¦¦یزی ک¦¦ه الزم اس¦¦ت ی¦ک رونویس¦¦ی از خط¦¦وط متنی در مجموعه ی آموزشی است. در نهایت از ی¦¦ک سیس¦¦تم شناس¦¦ایی متن دس¦¦ت ن¦¦ویس ب¦¦ر اساس شبکه ی عصبی کلی حاصل می شود،ه¦¦ر رشته ی قرارداری می تواند مورد جس¦¦تجو ق¦¦رار گ¦¦¦یرد ،ن¦¦¦ه فق¦¦¦ط کلم¦¦¦اتی ک¦¦¦ه در مجموع¦¦¦ه ی آموزشی ظاهر ش¦¦ده ان¦¦د.م¦¦ا این دس¦¦تاورد را ب¦¦ا دستاورد پیچاندن زمان دینامیک بر روی مجموعه های دیت¦¦ا و هم چ¦¦نین ی¦¦ک سیس¦¦تم نظ¦¦ارت کلی¦¦د

م¦¦درن مقایس¦¦ه ک¦¦ردیم ک¦¦هHMMواژه بر مبنای ش¦¦امل هم دیت¦¦ای دس¦¦ت ن¦¦ویس ت¦¦اریخی و هم م¦¦درن می ش¦¦ود. ب¦¦ه عالوه م¦¦ا این مت¦¦دها را ب¦¦ا

24

نتایجی مقایس¦¦ه ک¦¦ردیم ک¦¦ه از طری¦¦ق شناس¦¦ایی متن با استفاده از یک سیستم شناسایی دس¦¦ت خط کامل به دنبال یک جستجوی ساده در رش¦¦ته

برگردانده شده بودند. ASCIIخروجی کاراکتر

ASCIIرشته ی خروجی کاراکتر

ما نشان دادیم پیچاندن زمان دینامیک در حالیکه با موفقیت هایی برای داده های تاریخی به کار می رود ،دارای مشکالتی در زمینه ی مجموعه

دیتا های دست خط مدرن است در کنار امدن با سبک های دست خطی که بین مجموعه های

آموزشی و تست دیده می شود. همین بحث به نظر می رسد برای همه ی سیستم ها نظارتی

صدق کند که سعی داشته اند تا کنون با نظارت کلمه به عنوان یک مسئله ی بازیابی تصویر

برخورد کنند که در آن زیر تصاویر مشابه یک نمونه ی اولیه ی داده شده قرار است پیدا شود.

این کار را بهتر انجامHMMدستاورد بر اساس می دهد و برای از عهده بر آمدن با سبک های نوشتاری بر عکس می تواند به کار رود. با این

وجود هم چنین به طور دائمی از طریق سیستم ارائه شده بیرون داده می شود. برای انجام نظارت کلید واژه ها برای کلماتی که در این

مجموعه ی آموزشی روی نداده اند،به نظر می رسد متدهای پیچیده تر یا حتی شناسایی دست خط الزم است ،بویژه برای دست نویس های قرارداری و معکوس.در سیستم ارائه شده در

سیستم شناسایی دست خط تنظیم–این مقاله به قدر کافی برای–شده با کار نظارت کلمه

بررسی انواع متن دست نویس متمایز منعطف می باشد. با توجه به آغاز شبکه های عصبی با

استفاده از وزن های تصادفی،یک واریانس طبیعی از شبکه های عصبی مختلف متعدد می

تواند مشاهده شود. با این وجود این مشکلی نیست زیرا ممکن است نامزد های با عملکرد باال

بر روی مجموعه ی وارسی انتخاب شوند.

ما عملکر شبکه های عصبی را تحلیل کردیم در زمانیکه از آنها در یک کار شناسایی استفاده

شده که با یک نظارت کلمه بر رو خروجی دنبال شد و در تاثیر اطالعات خارجی در شکل یک

مدل زبانی مورد تحقیق قرار گرفت. دقت افزایش یافته بدست آمده رهنمودهای دستاورد

جدید را افزایش داد. یک سیستم نظارت کلید واژه پس از یافتن یک نامزد، کلمه ی قبل آن را

bigramرمز گشایی می کند که شامل احتمال

می شود و شایسته ی تحقیق بیشتر است.

ترکیب سیستم های مختلف همانطور که با موفقیت با سیستم های شناسایی دست خط

انجام شده اند،به نظر می رسد یک راه جالببرای تحقیق در پژوهش های آینده باشد.

25

مراجع:

[1 ]A. Vinciarelli, “A Survey on Off-Line Cursive Word Recognition”,

Pattern Recognition, vol. 35, no. 7, pp. 1433-1446, 2002.

[2 ]R. Plamondon and S.N. Srihari, “On-Line and Off-Line HandwritingRecognition: A Comprehensive Survey,” IEEE Trans.

Pattern Analysis and Machine Intelligence, vol. 22, no. 1, pp. 63-84,Jan. 2000.

[3 ]C. Choisy, “Dynamic Handwritten Keyword Spotting Based onthe NSHP-HMM,” Proc. Ninth Int’l Conf. Document Analysis andRecognition, pp. 242-246, 2007.

[4 ]T.M. Rath and R. Manmatha, “Word Spotting for HistoricalDocuments,” Int’l J. Document Analysis and Recognition, vol. 9,pp. 139-152, 2007.

[5 ]Y. Leydier, A. Ouji, F. LeBourgeois, and H. Emptoz, “Towards anOmnilingual Word Retrieval System for

Ancient Manuscripts”,Pattern Recognition, vol. 42, no. 9, pp. 2089-2105, 2009.

[6 ]K. Khurshid, C. Faure, and N. Vincent, “Fusion of Word Spottingand Spatial Information for Figure Caption Retrival in HistoricalDocument Images,” Proc. 10th Int’l Conf. Document Analysis andRecognition, vol. 1, pp. 266-270, 2009.

[7 ]S. Levy, “Google’s Two Revolutions,” Newsweek, http//:

www.msnbc.msn.com/id/6733225/site/newsweek/, Dec./Jan.2004.

[8 ]S.-S. Kuo and O.E. Agazzi, “Keyword Spotting in Poorly PrintedDocuments Using Pseudo 2-D Hidden Markov Models,” IEEE

26

Trans. Pattern Analysis and Machine Intelligence, vol. 16, no. 8,pp. 842-848, Aug. 1994.

[9 ]R. Manmatha, C. Han, and E. Riseman, “Word Spotting: A NewApproach to Indexing Handwriting,” Proc. IEEE Int’l Conf.

Computer Vision and Pattern Recognition, pp. 631-637, 1996.

[10 ]R. Manmatha and W.B. Croft, Word Spotting: Indexing HandwrittenArchives, ch. 3, pp. 43-64. MIT Press, 1997.

[11 ]R. Manmatha and T.M. Rath, “Indexing of Handwritten HistoricalDocuments—Recent Progress,” Proc. Symp. Document ImageUnderstanding Technology, pp. 77-85, 2003.

[12 ]Y. Lu and C.L. Tan, “Word Spotting in Chinese Document Imageswithout Layout Analysis,” Proc. 16th Int’l Conf. Pattern Recognition,pp. 57-60, 2002.

[13 ]J. Rothfeder, S. Feng, and T.M. Rath, “Using Corner FeatureCorrespondences to Rank Word Images by Similarity,” Proc.

Workshop Document Image Analysis and Retrieval, p. 30, 2003.

[14 ]A. Bhardwaj, D. Jose, and V. Govindaraju, “Script IndependentWord Spotting in Multilingual Documents,” Proc. Second Int’lWorkshop Cross Lingual Information Access, pp. 48-54, 2008.

[15 ]B. Zhang, S.N. Srihari, and C. Huang, “Word Image RetrievalUsing Binary Features,” Proc. SPIE, vol. 5296, pp. 45-53, 2004.

[16 ]S. Srihari, H. Srinivasan, P. Babu, and C. Bhole, “Spotting Wordsin Handwritten Arabic Documents,” Document Recognition andRetrieval XIII: Proc. SPIE, vol. 6067, pp. 606702-1-606702-12, 2006.

[17 ]Y. Leydier, F. Lebourgeois, and H. Emptoz, “Text Search forMedieval Manuscript Images,” Pattern Recognition, vol. 40,

pp. 3552-3567, 2007.[18 ]T. Adamek, N.E. Connor, and A.F.

Smeaton, “Word MatchingUsing Single Closed Contours for

Indexing Historical Documents”,J. Document Analysis and Recognition, vol. 9, no. 2, pp. 153-

165 ,2007.[19 ]H. Cao and V. Govindaraju,

“Template-Free Word Spotting inLow-Quality Manuscripts,” Proc. Sixth Int’l Conf. Advances inPattern Recognition, 2007.

[20 ]T.M. Rath, R. Manmatha, and V. Lavrenko, “A Search Engine forHistorical Manuscript Images,” Proc. 27th Int’l ACM SIGIR Conf.

Research and Development in Information Retrieval, pp. 369-376, 2004.

[21 ]T.M. Rath and R. Manmatha, “Word Image Matching UsingDynamic Time Warping,” Computer Vision and Pattern Recognition,vol. 2, pp. 521-527, 2003.

[22 ]K. Terasawa and Y. Tanaka, “Slit Style HOG Features forDocument Image Word Spotting,” Proc. 10th Int’l Conf. DocumentAnalysis and Recognition, vol. 1, pp. 116-120, 2009.

[23 ]S.N. Srihari, H. Srinivasan, C. Huang, and S. Shetty, “SpottingWords in Latin, Devanagari and Arabic Scripts,” Indian J. ArtificialIntelligence, vol. 16, no. 3, pp. 2-9, 2006.

[24 ]J. Kesheta, D. Grangierb, and S. Bengioc, “Discriminative KeywordSpotting,” Speech Comm., vol. 51, no.

4, pp. 317-329, http//:www.sciencedirect.com/science/article/B6V1C-4TPHRJ2-1/2/

170cdbfefa41f6916f1d1d7aa1e70c55, 2009.

[25 ]A. Kołcz, J. Alspector, M.F. Augusteijn, R. Carlson, and G.V.

Popescu, “A Line-Oriented Approach to Word Spotting in

27

Handwritten Documents,” Pattern Analysis and Applications,vol. 3, pp. 153-168, 2000.

[26 ]H. Cao, A. Bhardwaj, and V. Govindaraju, “A ProbabilisticMethod for Keyword Retrieval in Handwritten DocumentImages,” Pattern Recognition, vol. 42, no. 12, pp. 3374-3382,

http://dx.doi.org/10.1016/j.patcog.2009.02.003, Dec. 2009.

[27 ]V. Lavrenko, T.M. Rath, and R. Manmatha, “Holistic WordRecognition for Handwritten Historical Documents,” Proc. Int’lWorkshop Document Image Analysis for Libraries, pp. 278-287, 2004.

[28 ]J. Chan, C. Ziftci, and D. Forsyth, “Searching Off-Line ArabicDocuments,” Proc. IEEE Conf. Computer Vision and PatternRecognition, pp. 1455-1462, 2006.

[29 ]J.A. Rodrı´guez and F. Perronnin, “Local Gradient HistrogramFeatures for Word Spotting in Unconstrained HandwrittenDocuments,” Proc. 11th Int’l Conf. Frontiers in HandwritingRecognition, pp. 7-12, 2008.

[30 ]A. Fischer, A. Keller, V. Frinken, and H. Bunke, “HMM-BasedWord Spotting in Handwritten Documents Using SubwordModels,” Proc. 20th Int’l Conf. Pattern Recognition, pp. 3416-3419,2010.

[31 ]J. Edwards, Y. Whye, T. David, F. Roger, B.M. Maire, and G.

Vesom, “Making Latin Manuscripts Searchable Using gHMM’s”,

Advances in Neural Information Processing Systems 17, pp. 385-392,MIT Press, 2004.

[32 ]J.A. Rodrı´guez, F. Perronnin, G. Sa´nchez, and J. Llado´ s,

“Unsupervised Writer Style Adaptation for Handwritten WordSpotting,” Proc. 19th Int’l Conf. Pattern Recognition, pp. 1-4, 2008.

[33 ]F. Perronnin and J. Rodriguez-Serrano, “Fisher Kernels forHandwritten Word-Spotting,” Proc. 10th Int’l Conf. DocumentAnalysis and Recognition, vol. 1, pp. 106-110, 2009.

[34 ]S. Ferna´ndez, A. Graves, and J. Schmidhuber, “An Application ofRecurrent Neural Networks to

Discriminative Keyword Spotting”,Proc. 17th Int’l Conf. Artificial Neural Networks, pp. 220-229, 2007.

[35 ]M. Wollmer, F. Eyben, J. Keshet, A. Graves, B. Schuller, and G.

Rigoll, “Robust Discriminative Keyword Spotting for EmotionallyColored Spontaneous Speech Using

Bidirectional LSTM Networks”,Proc. IEEE Int’l Conf. Acustics, Speech, and Signal Processing,pp. 3949-3952, 2009.

[36 ]E. Saykol, A.K. Sinop, U. Gu¨du¨ kbay, O. Ulusoy, and A.E. Cetin,

“Content-Based Retrieval of Historical Ottoman DocumentsStored as Textual Images,” IEEE Trans. Image Processing, vol. 13,no. 3, pp. 314-325, Mar. 2004.

[37 ]R.F. Moghaddam and M. Cheriet, “Application on Multi-LevelClassifier and Clustering for Automatic Word Spotting inHistorical Document Images,” Proc. 10th Int’l Conf. DocumentAnalysis and Recognition, vol. 2, pp. 511-515, 2009.

[38 ]Y. Leydier, F.L. Bourgois, and H. Emptoz, “Omnilingual Segmentation-

Free Word Spotting for Ancient Manuscripts Indexation”,

Proc. Eighth Int’l Conf. Document Analysis and Recognition, pp. 533-

537 ,2005.[39 ]B. Gatos and I. Pratikakis,

“Segmentation-Free Word Spotting inHistorical Printed Documents,” Proc. 10th Int’l Conf. DocumentAnalysis and Recognition, vol. 1, pp. 271-275, 2009.

28

[40 ]A. Graves, M. Liwicki, S. Ferna´ndez, R. Bertolami, H. Bunke,

and J. Schmidhuber, “A Novel Connectionist System forUnconstrained Handwriting Recognition,” IEEE Trans. PatternAnalysis and Machine Intelligence, vol. 31, no. 5, pp. 855-868,May 2009.

[41 ]N.R. Howe, T.M. Rath, and R. Manmatha, “Boosted DecisionTrees for Word Recognition in

Handwritten Document Retrieval”,Proc. 28th Int’l ACM SIGIR Conf. Research and Development inInformation Retrieval, pp. 377-383, 2005.

[42 ]D. Metzler and W.B. Croft, “A Markov Random Field Modelfor Term Dependencies,” Proc. 28th Ann. ACM SIGIR Conf.

Research and Development in Information Retrieval, pp. 472-479,2005.

[43 ]V. Frinken, A. Fischer, and H. Bunke, “A Novel Word SpottingAlgorithm Using Bidirectional Long Short-Term Memory NeuralNetworks,” Proc. Fourth Workshop Artificial Neural Networks inPattern Recognition, pp. 185-196, 2010.

[44 ]V. Frinken, A. Fischer, R. Manmatha, and H. Bunke, “AdaptingBLSTM Neural Network Based Keyword Spotting Trained onModern Data to Historical Documents,” Proc. 10th Int’l Conf.

Frontiers in Handwriting Recognition, pp. 352-257, 2010.

[45 ]A. Fischer, M. Wu¨ thrich, M. Liwicki, V. Frinken, H. Bunke, G.

Viehhauser, and M. Stolz, “Automatic Transcription of HandwrittenMedieval Documents,” Proc. 15th Int’l Conf. Virtual Systemsand Multimedia, pp. 137-142, 2009.

[46 ]U.-V. Marti and H. Bunke, “Using a Statistical Language Model toImprove the Performance of an HMM-Based Cursive HandwritingRecognition System,” Int’l J. Pattern Recognition andArtificial Intelligence, vol. 15, pp. 65-90, 2001.

[47 ]J.A. Rodrı´guez-Serrano and F. Perronnin, “Handwritten Word-

Spotting Using Hidden Markov Models and Universal Vocabularies”,

Pattern Recognition, vol. 42, no. 9, pp. 2106-2116, 2009.

[48 ]A.E.R. Cory, S. Myers, and L.R. Rabiner, “An Investigation of theUse of Dynamic Time Warping for Word Spotting and ConnectedSpeech Recognition,” Proc. IEEE Int’l Conf. Acoustics, Speech, andSignal Processing, pp. 173-177, 1980.

[49 ]T.M. Rath and R. Manmatha, “Features for Word Spotting inHistorical Manuscripts,” Proc. Seventh Int’l Conf. DocumentAnalysis and Recognition, pp. 218-222, 2003.

[50 ]H. Sakoe and S. Chiba, “Dynamic Programming AlgorithmOptimization for Spoken Word Recognition,” IEEE Trans. Acoustics,

Speech, and Signal Processing, vol. 26, no. 1, pp. 43-49, Feb. 1978.

[51 ]T. Ploetz and G.A. Fink, “Markov Models for Offline HandwritingRecognition: A Survey,” Int’l J. Document Analysis and Recognition,vol. 12, no. 12, pp. 269-298, 2009.

[52 ]M.A. El-Yacoubi, M. Gilloux, and J.-M. Bertille, “A StatisticalApproach for Phrase Location and Recognition within a Text Line:

An Application to Street Name Recognition,” IEEE Trans. PatternAnalysis and Machine Intelligence, vol. 24, no. 2, pp. 172-188, Feb.2002.

[53 ]S. Thomas, C. Chatelain, L. Heutte, and T. Paquet, “An

29

Information Extraction Model for Unconstrained HandwrittenDocuments,” Proc. 20th Int’l Conf. Pattern Recognition, pp. 3412-

3415 ,2010.[54 ]H. Kucera and W.N. Francis,

Manual of Information to Accompany aStandard Corpus of Present-Day Edited American English, for Use withDigital Computers. Brown Univ., Dept. of Linguistics, 1989.

[55 ]J.T. Goodman, “A Bit of Progress in Language Modeling—

Extended Version,” Technical Report MSR-TR-2001-72, MicrosoftResearch, 2001.

[56 ]A. Stolke, “SRILM—An Extensible Language Modeling Toolkit”,

Proc. Int’l Conf. Spoken Language Processing, pp. 901-904, 2002.

[57 ]U.-V. Marti and H. Bunke, “The IAM-Database: An EnglishSentence Database for Offline Handwriting Recognition,” Int’lJ. Document Analysis and Recognition, vol. 5, pp. 39-46, 2002.

[58 ]G. Salton, The SMART Retrieval System—Experiments in AutomaticDocument Processing. Prentice-Hall, Inc., 1971.

[59 ]T.M. Rath, V. Lavrenko, and R. Manmatha, “A StatisticalApproach to Retrieving Historical Manuscript Images withoutRecognition,” Technical Report MM-42, Center for IntelligentInformation Retrival, 2003.

[60 ]S. Feng, “Statistical Models for Text Query-Based Image Retrieval”,

PhD dissertation, Univ. of Massachusetts, May 2008.

[61 ]N.R. Howe, S. Feng, and R. Manmatha, “Finding Words inAlphabet Soup: Inference on Freeform Character Recognition forHistorical Scripts,” Pattern Recognition, vol. 42, no. 12, pp. 3338-

3347 ,Dec. 2009.[62 ]M. Bulacu, R. van Koert, L.

Schomaker, and T. van der Zant,

“Layout Analysis of Historical Documents for Searching theArchives of the Cabinet of the Dutch Queen,” Proc. Ninth Int’lConf. Document Analysis and Recognition, pp. 367-361, 2007.

30