Сканируем и распознаем тексты с помощью Cuneiform

Одним из видов ввода текстовой информации в компьютер является ее сканирование и распознавание при помощи специальных программ. Самой популярной программой, выполняющей такие операции, является всем известный FineReader, но вот в чем беда – она платная и стоит немалых денег. Сегодня уже все сбились со счета и точно не скажут, какая его версия последняя.

При этом, каждый раз при обновлении нас уверяют, что этот вариант работает на 20-30% лучше и быстрее, хотя по факту, качественных улучшений распознавания вообще не видно, особенно для плохих исходных изображений (старых газет, факсов, текстов, напечатанных матричными принтерами). По сути дела, FineReader чуть ли не единственная в своем роде программа, но мы все же задались целью и попытались найти ее бесплатные аналоги. Что у нас получилось, мы сейчас и попробуем рассказать.

Среди нескольких найденных бесплатных программ, наше внимание привлекла российская разработка CuneiForm. Во-первых, как мы уже указали, она имеет русский интерфейс, во-вторых, умеет работать с кириллицей (у других программ по умолчанию этого нет, а установка дополнительных языков ничего не дала), в-третьих, она абсолютно бесплатная, хотя вначале это была платная программа. Скачиваем CuneiForm со страницы на официальном сайте. После установки обязательно прочитайте файл Cuneiform_12.rtf внутри архива, там находятся инструкции для владельцев HP, Epson, BENQ, Canon, Xerox, Mustek и др. моделей сканеров, у которых могут возникнуть ошибки при работе. В этом файле написано, что нужно сделать, чтобы избежать ошибок.
Cuneiform
Теперь перейдем к возможностям Cuneiform:
— получение изображений со сканера или из графического файла;
— распознавание текста на разных языках;
— сохранение результатов работы с исходным форматированием (таблицы, размер шрифтов, выделение и пр.) в файл или внешние программы (Word и Excel).

Вроде бы, возможности Cuneiform очень похожи на FineReader, но теперь немножко дегтя в наш бочонок с медом, т.е. минусы, причем очень существенные:
— работа только с одним открытым документом, у вас не получится сначала отсканировать многостраничный документ, а потом заниматься его распознаванием;
— если в документе несколько языков, то распознать его тоже не удастся, исключение составляет лишь комбинация русского и английского, другие языки скомпоновать в одном документе не получится (найти этот недостаток удалось сразу, поскольку первый попавшийся под руку документ был написан на английском и украинском языках);
— нет поддержки распознавания pdf документов.

К большому сожалению, эти недостатки заметно уменьшают скорость работы, но если альтернативы нет, то деваться некуда, и придется немного помучаться. Надеемся, что нам все же удастся найти полнофункциональный аналог OCR программы, в котором не будет таких недостатков, а пока будем пользоваться Cuneiform.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *