Библиотека Старого Чародея
 
ГлавнаяГлавная   КнигиКниги   РецензииРецензии   ОценкиОценки
ТопТоп   ОпросОпрос   ФорумФорум  
АвторыАвторы   ПоискПоиск  

Рекомендации по OCR.

    Данные советы не являются полными и абсолютными, это всего лишь краткое описание того, как делаю я. С удовольствием приму дополнения, поправки, если понадобиться - опишу всё более подробно.
    Лучшей программой для OCR я считаю Abbyy FineReader 5.0 и 6.0 (у четвёртой и младше версий проблемы со строчками, идущими "под углом"), поэтому всё ниженаписанное будет относится именно к пятой и шестой версии.

Сканирование

    Я предпочитаю сканировать прямо из FineReader'а в режиме "Сканировать несколько страниц".



    Настройки сканера при этом такие:



    Ориентацию, размер страницы и отступы я сразу стараюсь выбрать так, чтобы в поле сканирования попадал только сам разворот книги, без всяких излишеств по краям, и текст имел верную ориентацию.
    Пауза между страницами выбирается "по вкусу", для переворота страницы мне вполне хватает времени обратного хода сканера плюс установленных в этом поле 5 секунд. Разрешение 300dpi - самое оптимальное, тип изображения - чёрно-белое; 200dpi - страдает качество распознавания, хотя и можно использовать для текстов с крупным шрифтом; 400dpi - сканируется медленнее, а особой разницы в качестве нет (а иногда только ухудшается за счёт мусора).
    Общие настройки сканирования/открытия файлов:



    Делить или нет разворот - для себя я решил этот вопрос в пользу "не делить", т.к. разделение всё равно не происходит, если страницы расположены близко друг к другу, или если при сканировании стык страниц получился чистым, без чёрной вертикальной линии.

Распознавание.

    Состоит из таких процессов: выделение блоков, собственно распознавания и сохранения результатов.
    Моя методика вкратце такова: берётся типичная страница с текстом, и на ней вручную выделяются два текстовых блока с таким рассчётом, чтобы размер блока несколько превосходил размеры собственно текста. Обычно я не включаю в блоки номера страниц, они, как правило, не нужны, а вычитывающему мешают.



     Потом в меню выбирается "Изображение" -> "Сохранить блоки", вводится какое-нибудь имя для файла блоков, далее в панели проекта выделяются все изображения (нажать левую кнопку мыши на любом изображении, потом Ctrl-A (A-латинское)) и в том же меню "Наложить блоки". Теперь все изображения имеют выделенные текстовые блоки, правильность их размещения желательно проверить вручную (hint: перебор изображений в пакете - клавиши Alt+стрелка вверх, Alt+стрелка вниз).

     Но этот метод пригоден не для всех книг, сохранение/наложение блоков бесполезно, если текст на отсканированных страницах расположен в разных местах. Поэтому нужно сделать так:
 


    Будьте внимательны - после этого процесса настоятельно рекомендую вручную проверить расположение блоков, т.к. в результате автоматического разбиения на блоке иногда возникают досадные ошибки, например в текстовый блок почему-то не включаются номера глав, состоящие из одной цифры, и "* * *".
    Полезно заглянуть на кнопку "Форматы" и поставить всё вот так (для doc/rtf и txt соответственно):

 


    Процесс распознавания не требует вашего участия, его нужно только запустить, выбрав соответствующий пункт в меню или нажав на кнопку в панели.
    После этого для облегчения последующей вычитки полезно провести такую штуку: перед и после каждой главы, эпиграфа, стиха, отделённых пустой строкой абзацев и т.п., нажать по Enter'у (см. рисунки: первый - исходное изображение, второй - так делает FineReader, третий - так надо сделать). Это необходимо из-за того, что FineReader форматирует текст подбором междустрочных интервалов, что не устраивает мои требования для последующей работы с текстом.

Для главДля пустых строк
     Здесь значки "пи" - так называемые "непечатаемые символы". Их отображение включается либо нажатием на кнопку со значком ПИ на панели форматирования, либо через меню - Сервис (Tools) -> Опции (Option) -> Вид (View), там поставить вторую галку снизу (около неё так и написано - показывать непечатаемые символы).

 


    Далее, в зависимости от изобилия в тексте нестадартного форматирования (курсив, жирный шрифт и т.п.), выбирается тип сохраняемого документа: если фраз, выделенных курсивом и т.п. много, то "Сохранять размер и начертание шрифта", иначе - "Не сохранять оформление". О случае "Сохранять полное оформление" я вообще не говорю, всё равно для нормальной последующей работы всё это форматирование надо переделывать, в случае "Не сохранять оформление" - придётся вручную делать нестандартное форматирование, что в большинстве случаев просто страшно звучит, а делается легко и быстро.
    Я предпочитаю сохранять с опцией "Сохранять размер и начертание шрифта" в rtf.
    Наконец, нажимаете "Сохранение результатов", набираете имя файла, выбираtте тип "rtf", если вы выбрали "Сохранять размер и начертание шрифта", либо "txt", если выбрали "Не сохранять оформление" и жмёте "Сохранить".

 



Предварительная обработка текста

    Если распознанное сохранено в txt, то тут мне очень помогает программа "Background text editor" от Alonzo.



    Итак, сперва надо настроить эту программу:

 


    Потом открываем наш файл, и нажимаем кнопку "Start". Результат получается в том же каталоге, что и исходный файл, только с расширением doc.



    Открываем этот файл в MS Word и делаем такие операции - выделяем весь текст, лезем в "Формат" -> "Стиль", выбираем стиль обычный и нажимаем "Изменить", там "Формат" -> "Шрифт": Times New Roman, обычный, 12. Нажимаем "ОК" и лезем в "Формат" -> "Абзац": выравнивание - по ширине, первая строка - отступ на 1см, междустрочный интервал - одинарный. Нажимаем "ОК", ещё раз "ОК", потом "Применить".
    Теперь следующая операция - удалить хотя бы часть неверных концов абзацев, делаю так:
Ctrl-H (H-латинское), нажать на кнопку "Больше", поставить галку на "Подстановочные знаки", в строке "Найти" написать "(^0013)([а-я])", в строке "Заменить" - " \2" (в обоих случаях без кавычек, перед \2 стоит пробел).
    Найти и выделить нужными стилями главы, стихи и т.п. - так как предварительно их выделяли двумя Enter'ами, то выделение сводится к поиску по строчке "^p^p" с последующим выделением и выбором нужного стиля. (Конечно, главы можно выделить и полностью автоматически, если у них строго определённый формат).
    Далее, при наличии ещё какого-либо специфического форматирования, сверяться с текстом и делать вручную.
    В принципе, после всего этого можно использовать и другие средства полуавтоматического улучшения, например такие, как пакет макросов для Word'a "Перестройка", либо же самописными макросами или программами, но ещё и их мне описывать откровенно говоря лень. ;)

    Если же текст сохранялся с опцией "Сохранять размер и начертание шрифта" в формат rtf, то я делаю так: открываю распознанный текст в MS Word и запускаю макрос. Он исправляет шрифт, междустрочный интервал, удаляет неверные концы абзацев, расставляет пробелы после знаков препинания, удаляет пробелы в начале и конце абзацев, заменяет множественные пробелы одиночными. Вот он. Он содержит несколько макросов, комментарии по применению их находятся прямо внутри макросов.

    Немного о том, как эти макросы подключить к MS Word (справедливо для версий Word97, Word2000 и WordXP):



Вылезет вот такой экран:



В верхней строке "Имя" наберите что-нибудь, например AfterFR, и нажмите справа кнопку "Создать". Появится вот такой экран:



Сотрите появившееся, начиная от "Sub AfterFR" до "End Sub" включительно. Откройте каким-нибудь текстовым редактором (хоть Блокнотом) файл afterfr.macros, выделите всё его содержимое (Ctrl-A), скопируйте в буфер (Ctrl-C), перейдите обратно в окно и вставьте (Ctrl-V):



Теперь макросы добавлены. Выполнить их можно зайдя в "Сервис" -> "Макрос" -> "Макросы", выбрать нужный макрос и нажать "Выполнить".



    Про вопросы оформления можно посмотреть тут. Вот в принципе и всё, после этого остаётся только внимательно читать текст и исправлять найденные ошибки.

    Если что-то надо объяснить подробней - задавайте вопросы, только не слишком "тупые" - я вам не курсы по ликвидации компьютерной безграмотности. ;)

Администратор
20 марта 2003г.


 

(c) 2002-2006 Библиотека Старого Чародея