PDA

Просмотр полной версии : OCR, распознавание текста на иврите и русском


Romiras
18.06.2007, 07:44
Есть ли такие GNU-тые программы?

Lyonia
18.06.2007, 07:59
Вот пожалуйста для иврита (http://hocr.berlios.de/), ребята проверяли вроде неплохо работает

Romiras
18.06.2007, 08:06
Большущее спасибо! Сейчас проверим.

Romiras
19.06.2007, 05:09
Результаты, действительно, неплохие.
Я так понимаю, программы OCR для нескольких языков не существует. Одна распознаёт иврит, другая - английский. А для того же русского ситуёвина сложилась вообще неблагоприятная...

esper
19.06.2007, 14:22
Как ни странно Опен "распознавалки" сегодня отчасти благодаря Гуглю (открыл Тессеракт и еще одну прогу) - более продвинутые чем платные OCR.

Вот список OCR for Linux :



ocre - Открытое ПО для распознавания текста. На сайте написано, что поддержка кириллицы появится в одной из следующих версии, но судя по исходным текстам она уже реализована.
Другие системы:
OCRopus - открытый проект Google (лицензия Apache 2.0) по созданию системы распознавания текста, нацеленную на выявление и разделение областей текста на изображениях. OCRopus предназначен для автоматизации распознавания отсканированных или снятых на цифровую камеру документов (включая рукописные), программа может использоваться для выявления спама в приложенных к письму изображений.
Clara OCR - GPL OCR с графическим и web-интерфейсами, в пакет включены наработки по распознаванию кириллического текста.
Kadmos OCR/ICR - коммерческая система оптического распознавания текста под Linux, включая рукописный ввод. Имеется поддержка кириллицы.
ABBYY FineReader Engine 6.0 for LINUX (про 60 дневной демо версию читайте здесь; FR 5.0 и 7.0 удавалось запустить под wine);
Vividata OCR Shop - известный OCR пакет для Linux и Solaris, имеется поддержка русского языка. Доступна 30-дневная демо версия;
Ocrad - OCR проект разрабатываемой в рамках движения GNU, поддержка только английского языка;
GOCR - мощное GPL средство распознавания текста, имеется несколько графических интерфейсов. Поддержка кириллицы пока только в планах;
Pattern-lab - программа не является OCR, но предназначена для распознавания образов по заданным маскам;
kognition - OCR система для KDE, поддерживает только немецкий и английский языки.
Tesseract - OCR код которой открыла компания Google. Реализаована поддержка английского языка.
GUI интерфейсы

Kooka - под KDE на базе OCR Ocrad);
gtk-ocr - GTK;

Duke Nukem
19.06.2007, 14:24
Вот список OCR for Linux :
A есть что либо GNUшное для Винды, с распознаванием иврита?

Romiras
19.06.2007, 16:50
A есть что либо GNUшное для Винды, с распознаванием иврита?
QHOCR (Qt-GUI интерфейс для вышеназванной HOCR). Глючноватая... При некоторых форматах изображений вырубалась. http://iglu.org.il/~diego/
Архив весит прилично (~13 MB) из-за библиотек Qt.

более продвинутые чем платные OCR.

Проаргументируй, пожалуйста.
P.S. FineReader, Vividata OCR Shop и другие коммерческие - не GNU, даже если они бесплатны.

esper
20.06.2007, 06:04
Проаргументируй, пожалуйста.
P.S. FineReader, Vividata OCR Shop и другие коммерческие - не GNU, даже если они бесплатны.


То что делает открытый Гуглем OCRopus - не умеет делать никто, сканит терабайты текстов чуть-ли не в рилтайме, в том числе рукописных.

По моему тесту выкупленный у HP и открытый Гуглем Тессеракт - самый правильный и шустрый OCR - языки в нем добавятся когда это кому-то будет нужно.

GOCRом сегодня пользуются практически ВСЕ мейл-рилеи для блокирования графического спама. Сам им пользуюсь уже много лет.