ABBYY FineReader Express для Mac

Любoму увaжaющeму сeбя шкoльнику, студeнту или aспирaнту хоть раз в жизни нужно было распознать какой-либо отсканированный текст. Впрочем, сканирование текстов — необязательно прерогатива учащихся. Единожды напечатанный текст вызывает неприятное ощущение, когда его нельзя быстро и легко перевести в электронный. И речь идет не о сканах книг, потому что это незаконно. Но если авторские права разрешают копирование информации в личных целях, зачем тратить часы на перепечатывание текста?

Тут уважаемых маководов поджидал неприятный сюрприз: до недавнего времени поддержка известнейшего продукта для распознавания информации ABBYY FineReader была приостановлена на уровне 2007 года, что, сами понимаете, невесело. И вот — ура! — появилась легкая версия хорошо знакомого ABBYY FineReader с кодовым словом Express. Правильно, нечего тратить лишние деньги на одну необходимую функцию и миллион дополнительных возможностей, когда можно обойтись пятью-шестью из них. Давайте ближе ознакомимся с предложенными вариантами использования приложения.

При открытии программы нас встречает простое диалоговое окно, где мы можем выбрать источник распознавания, язык и четыре выходных формата: форматированный текст, электронная таблица, HTML-страница или же PDF с возможностью поиска.

Итак, с источником ввода информации все понятно, поэтому не буду заострять внимание на этом, скажу лишь, что для удачного распознавания требуется разрешение отсканированного изображения не меньше 300 dpi, в противном случае программа сообщает о невозможности распознать текст из-за слишком мелких букв.

Далее, язык. Представлен огромный выбор языков распознавания, перечислять их все нет смысла, но лично я не знал о существовании и половины из них, несмотря на богатое лингвистическое прошлое.

Одновременно распознавать программа может не более трех языков. Однако тут есть хитрость. Если системный язык не является английским, то сразу за пунктом «-ский язык» появляется еще один «-ский и английский», где «-ский» — системный язык. В большинстве случаев, думаю, там будет написано «Английский и русский». При установленном по умолчанию английском в качестве системного языка никаких дополнительных пунктов не будет. Таким хитрым способом можно увеличить число одновременно распознаваемых языков до четырех, если это кому-то нужно, конечно же. Далее выбираем любой способ отображения конечной информации, и вперед!

Для теста были выбраны следующие картинки: отксерокопированная страница из учебника по исландскому языку серии Teach Yourself и таблица плотностей из учебника по физике 7 класса.

 


 

На первом скане тестировались выводы в форматы .rtf и .pdf, на втором, соответственно, в .xls и .html.

После запуска обработчика открывается окно со строкой состояния, а после завершения обработки — окно с результатами распознавания документа.


Небогатый набор инструментов, тем не менее, обеспечивает всем необходимым: три типа области (текст, картинка, таблица) и поворот страницы.

 

Области, кстати, необязательно делать строго прямоугольными.

 

Нажимаем «Конвертировать» и получаем результат. Для такого сложного документа, как эта страница из учебника, результат впечатляет.

 

Особо хочется отметить пункт «PDF с поиском»: на исходное изображение накладывается невидимый слой с текстом, так что в итоге мы получаем такое же изображение, как в отсканированной картинке, только поиск в таком документе можно осуществлять с тем же успехом, что и в текстовом.

С таблицей все предельно просто. Программа отлично распознает табличные части и мастерски переводит их в Excel и в HTML.

 



 

Завершая обзор, хочется сказать, что, в общем-то, для повседневных задач Express-версия ничуть не хуже, а может, даже и лучше профессиональной версии в силу своей простоты. При правильном подходе все задачи можно решить с помощью имеющихся инструментов. Уровень и качество распознавания на высоте, а создание PDF с возможностью поиска меня очень удивило.

Отмечу, что улучшение всего учебника по исландскому языку, т.е. добавление поиска по тексту, заняло у меня 20 минут, из которых 5 ушло на написание простенького скрипта в Automator для создания единого PDF. Удачных вам рефератов!