лп р6

6
Лабораторно-практична робота № 6. Тема: «Системи розпізнавання тексту». Мета: допомогти учням отримати уявлення про OCR – програмах розпізнавання тексту, познайомитися з можливостями даних програми, навчити сканувати та розпізнавати відсканований текст, передавати і редагувати його в Word. Хід роботи I. Теоретична частина. При створенні електронних бібліотек і архівів шляхом перекладу книг і документів в цифровий комп'ютерний формат, під час переходу підприємств від паперового до електронного документообігу, при необхідності відредагувати отриманий факсом документ використовуються системи оптичного розпізнавання символів. На цьому уроці ми навчимося створювати перетворювати відскановане зображення в текст. За допомогою сканера достатньо просто отримати зображення сторінки тексту в графічному файлі. Проте працювати з таким текстом неможливо: як будь-яке скануюче зображення, сторінка з текстом є графічним файлом - звичайну картинку. Текст можна буде читати і роздруковувати, але не можна буде його редагувати і форматувати. Для отримання документа у форматі текстового файлу необхідно провести розпізнавання тексту, тобто перетворити елементи графічного зображення в послідовності текстових символів. Перетворенням графічного зображення в текст займаються спеціальні програми розпізнавання тексту (Optical Character Recognition - OCR). Сучасна OCR повинна уміти багато що: розпізнавати тексти, набрані не тільки певними шрифтами (саме так працювали OCR першого покоління), але і самими екзотичними, аж до рукописних. Уміти коректно працювати з текстами, що містять слова на декількох мовах, коректно розпізнавати таблиці. І найголовніше — коректно розпізнавати не тільки чітко набрані тексти, але і такі, якість яких, м'яко кажучи, далеко від ідеалу. Наприклад, текст з газетної вирізки або третьої машинописної копії, що пожовтіла. Саме собою, розпізнати текст — це ще півсправи. Не менше важливо забезпечити можливість збереження результату у файлі популярного текстового (або табличного) формату — скажемо, формату Microsoft Word. Як бачимо, для того, щоб отримати електронну, готову до редагування копію будь-якого друкарського тексту, програмі OCR необхідно виконати «ланцюжок» з безлічі окремих операцій. Спочатку необхідно розпізнати структуру розміщення тексту на сторінці: виділити колонки, таблиці, зображення і так далі. Далі виділені текстові фрагменти графічного зображення сторінки необхідно перетворити в текст. Можливо, сама відома програма для розпізнавання текстів – це FineReader від компанії ABBYY. Саме цю програму частіше за все згадують, коли мова заходить про системи розпізнавання. FineReader - омнифонтова система оптичного розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами, без попереднього навчання. Особливістю програми FineReader є висока точність розпізнавання і мала чутливість до дефектів друку, що досягається завдяки застосуванню технології "цілісного цілеспрямованого адаптивного розпізнавання". FineReader має маси додаткових функцій, які простому користувачу, можливо, і без потреби, та зате справляють враження на певні групи покупців. Так, одним з козирів FineReader є підтримка неймовірної кількості мов розпізнавання — 176, в числі яких ви знайдете екзотичні і стародавні мови, і навіть популярні мови програмування. Всі версії FineReader, від найпростішої до наймогутнішої, об'єднує зручний інтерфейс. Для запуску процесу розпізнавання вам достатньо просто покласти документ в сканер і натискувати єдину кнопку (майстер Scan & Read) на панелі інструментів програми. Всі подальші операції — сканування, розбиття зображення на «блоки» і, нарешті, власне розпізнавання програма виконає автоматично. Користувачу залишиться тільки встановити потрібні параметри сканування. 1

Upload: slavinskiy

Post on 20-Mar-2017

13 views

Category:

Education


0 download

TRANSCRIPT

Page 1: лп р6

Лабораторно-практична робота № 6.Тема: «Системи розпізнавання тексту».Мета: допомогти учням отримати уявлення про OCR – програмах

розпізнавання тексту, познайомитися з можливостями даних програми, навчити сканувати та розпізнавати відсканований текст, передавати і редагувати його в Word.

Хід роботиI. Теоретична частина.

При створенні електронних бібліотек і архівів шляхом перекладу книг і документів в цифровий комп'ютерний формат, під час переходу підприємств від паперового до електронного документообігу, при необхідності відредагувати отриманий факсом документ використовуються системи оптичного розпізнавання символів.

На цьому уроці ми навчимося створювати перетворювати відскановане зображення в текст.За допомогою сканера достатньо просто отримати зображення сторінки тексту в графічному

файлі. Проте працювати з таким текстом неможливо: як будь-яке скануюче зображення, сторінка з текстом є графічним файлом - звичайну картинку. Текст можна буде читати і роздруковувати, але не можна буде його редагувати і форматувати. Для отримання документа у форматі текстового файлу необхідно провести розпізнавання тексту, тобто перетворити елементи графічного зображення в послідовності текстових символів.

Перетворенням графічного зображення в текст займаються спеціальні програми розпізнавання тексту (Optical Character Recognition - OCR).

Сучасна OCR повинна уміти багато що: розпізнавати тексти, набрані не тільки певними шрифтами (саме так працювали OCR першого покоління), але і самими екзотичними, аж до рукописних. Уміти коректно працювати з текстами, що містять слова на декількох мовах, коректно розпізнавати таблиці. І найголовніше — коректно розпізнавати не тільки чітко набрані тексти, але і такі, якість яких, м'яко кажучи, далеко від ідеалу. Наприклад, текст з газетної вирізки або третьої машинописної копії, що пожовтіла. Саме собою, розпізнати текст — це ще півсправи. Не менше важливо забезпечити можливість збереження результату у файлі популярного текстового (або табличного) формату — скажемо, формату Microsoft Word.

Як бачимо, для того, щоб отримати електронну, готову до редагування копію будь-якого друкарського тексту, програмі OCR необхідно виконати «ланцюжок» з безлічі окремих операцій.

Спочатку необхідно розпізнати структуру розміщення тексту на сторінці: виділити колонки, таблиці, зображення і так далі. Далі виділені текстові фрагменти графічного зображення сторінки необхідно перетворити в текст.

Можливо, сама відома програма для розпізнавання текстів – це FineReader від компанії ABBYY. Саме цю програму частіше за все згадують, коли мова заходить про системи розпізнавання.

FineReader - омнифонтова система оптичного розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами, без попереднього навчання. Особливістю програми FineReader є висока точність розпізнавання і мала чутливість до дефектів друку, що досягається завдяки застосуванню технології "цілісного цілеспрямованого адаптивного розпізнавання".

FineReader має маси додаткових функцій, які простому користувачу, можливо, і без потреби, та зате справляють враження на певні групи покупців. Так, одним з козирів FineReader є підтримка неймовірної кількості мов розпізнавання — 176, в числі яких ви знайдете екзотичні і стародавні мови, і навіть популярні мови програмування.

Всі версії FineReader, від найпростішої до наймогутнішої, об'єднує зручний інтерфейс. Для запуску процесу розпізнавання вам достатньо просто покласти документ в сканер і натискувати єдину кнопку (майстер Scan & Read) на панелі інструментів програми. Всі подальші операції — сканування, розбиття зображення на «блоки» і, нарешті, власне розпізнавання програма виконає автоматично. Користувачу залишиться тільки встановити потрібні параметри сканування.

Якість розпізнавання багато в чому залежить від того, наскільки добре зображення отримано при скануванні. Якість зображення регулюється установкою основних параметрів сканування: типу зображення, дозволу і яскравості.

Сканування в сірому є оптимальним режимом для системи розпізнавання. У разі сканування в сірому режимі здійснюється автоматичний підбір яскравості. Якщо Ви хочете, щоб що містяться в документі кольорові елементи (картинки, колір букв і фону) були передані в електронний документ із збереженням кольору, необхідно вибрати кольоровий тип зображення. В інших випадках використовуйте сірий тип зображення.

Оптимальним дозволом для звичайних текстів є - 300 dpi і 400-600 dpi для текстів, набраних дрібним шрифтом (9 і менш пунктів).

Перш ніж приступити до розпізнавання, програма повинна знати, які ділянки зображення треба розпізнавати. Для цього проводиться аналіз макета сторінки, під час якого виділяються блоки з текстом,

1

Page 2: лп р6

картинки і таблиці. В більшості випадків FineReader сам успішно справляється з аналізом складних сторінок та дуже зручним є і ручний режим роботи.

Блоки - це укладені в рамку ділянки зображення. Блоки виділяють для того, щоб вказати системі, які ділянки, відсканованої сторінки, треба розпізнавати і в якому порядку. Також по них відтворюється початкове оформлення сторінки. Блоки різних типів мають різні кольори рамок.

Текст - блок використовується для позначення тексту. Він повинен містити тільки одноколонковий текст. Якщо усередині тексту містяться картинки, виділіть їх в окремі блоки.

Таблиця - цей блок використовується для позначення таблиць або тексту, що має табличну структуру. При розпізнаванні програма розбиває даний блок на рядки і стовпці і формує табличну структуру. У вихідному тексті даний блок передається таблицею.

Картинка - цей блок використовується для позначення картинок. Він може містити картинку або будь-яку іншу частину тексту, яку Ви хочете передати в розпізнаний текст як картинка.

Після завершення розпізнавання сторінки FineReader запропонує користувачу вибір: сканувати і розпізнавати далі (для багатосторінкового документа) або зберегти отриманий текст в одному з безлічі популярних форматів — від документів Microsoft Office до HTML або PDF. Можна, втім, зразу ж перекинути документ в Word або Excel, і вже там виправити всі огріхи розпізнавання (без ні обійтися просто неможливо). При цьому FineReader повністю зберігає всі особливості форматування документа і його графічне оформлення.

III. Практична частина.Тепер потренуємося працювати з програмою ABBYY FineReader.

1. Завантажуємо програму.2. Розміщуємо документ у сканері.3. Натискуємо кнопку Сканировать.

4. Коли сторінка завантажиться у вікно сканера, необхідно буде встановити режим, розширення сканування та виділити область сканування.

2

Page 3: лп р6

3

Page 4: лп р6

5. Після виділення області сканування необхідно натиснути “Сейчас отправить сканированое изображение”.

6. Самостійно виділіть блоки зображення.

4

Page 5: лп р6

7. Виберіть мову розпізнавання та натисніть Распознать.8. Після розпізнавання виберіть спосіб збереження документу.

Контрольні запитання1. Навіщо потрібні програми розпізнавання тексту?2. Як відбувається розпізнавання тексту?3. Який дозвіл є оптимальним для сканування тексту, зображень?4. Який оптимальний режим сканування?5. Які типи блоків ви знаєте і якими кольорами вони виділяються?6. Що таке блок?7. На які етапи поділяється розпізнавання документу у FineReader?8. Що можна зробити з розпізнаним документом?9. Як повернути зображення у FineReader? 10. Як зменшити кількість темних цяток на зображенні в FineReader?

Оформлення роботи: робота оформляється на стандартних листах (ф. А4) в папках.

Звіт повинен містити:1. Номер роботи, тему, мету.2. Відповіді на контрольних запитань (непарні номери – І підгрупа, парні

номери – ІІ підгрупа)3. Вкінці роботи має бути написаний висновок.

Оцінка роботи: робота оцінюється за кінцевими результатами за 12-бальною системою (при захисті необхідно знати відповіді на всі контрольні запитання).

Література: Інформатика та комп´ютерна техніка. Пос. для ВНЗ. – К.: “Академвидав”, 2002. Глинський Я.М. Практикум з інформатики. Навч.посібник. – Львів: Деол, СПД Глинський,

2003.

5