Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Открыть новую тему     Написать ответ в эту тему

vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DjvuOCR
by gencho

Программа для добавление OCR информации в djvu-книги с помощью программы распознавания текста ABBYY FineReader версий 7-9. Есть также другие полезные функции для работы с djvu.
 
Текущая версия: 2.4 beta
 
Офсайт  
Софт на ЯДиске

Авторская документация к DjvuOCR (в формате HTM)  
 
 
FR9frfPatch для автоматического исправления перепутанных страниц после распознавания в FineReader 9 на многоядерном процессоре
 
Статья Создание в djvu-файле текстового слоя и интерактивного содержания
 
Статья OCR в djvu файлах - новый подход к старым возможностям (немного устаревшая).
 
Статья OCR && DJVU || DJVU && OCR или есть ли текст в дежавю? (немного устаревшая).

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 22:28 28-02-2007 | Исправлено: TelecomUral, 13:44 22-07-2020
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
myual
Вроде, автор не гарантировал беспроблемной работы с FR 9: DjvuOCR 2.4 beta - это именно бета, и этим все сказано.  
Поэтому gencho рекомендовал пользоваться FR версии не старше 8.

----------
пропадет-растает

Всего записей: 6792 | Зарегистр. 21-09-2002 | Отправлено: 15:14 26-09-2009
myual



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ghosty
Да все это понятно...
Просто хотелось локализовать проблему и узнать о принципиальной возможности ее самостоятельно исправить.

Всего записей: 241 | Зарегистр. 06-12-2006 | Отправлено: 15:19 26-09-2009
ghosty



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
myual

Цитата:
Просто хотелось локализовать проблему и узнать о принципиальной возможности ее самостоятельно исправить.
Просто автора довольно долго не было. А теперь, судя по офсайту, он вернулся.  
gencho, с возвращением! Крепкого Вам здоровья!

Всего записей: 6792 | Зарегистр. 21-09-2002 | Отправлено: 15:31 26-09-2009
denver 22

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да, делал несколько попыток воспользоваться связкой FR 9 + DjvuOCR 2.4 beta - всегда разочаровывался.
Откатывался на стабильную пару предыдущих релизов обеих программ.
Рад новости, что автор вернулся. Если будет допилена вышеупомянутая связка - будет очень хорошая новость для многих!

Всего записей: 597 | Зарегистр. 28-07-2005 | Отправлено: 17:15 27-09-2009
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Скоро будет доступен 10 ФайнРидер.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 12:54 29-09-2009
denver 22

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
С 9-кой бы разобраться. Хотя всё будет зависеть от автора. Прочитал его сообщение на сайте. Вроде настрой положительный

Всего записей: 597 | Зарегистр. 28-07-2005 | Отправлено: 15:57 29-09-2009
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Кстати, если ну очень хочется сделать djvu с текстовым слоем и в качестве движка OCR использовать версии FR (или другой OCR), которые еще не поддерживает DjvuOCR, то можно это сделать по такой схеме: разбить djvu на tiff, загрузить tiff'ы загрузить djvu в FR, распознать в pdf. Затем преобразовать pdf в xml, и сохранить его как текстовой слой в djvu.

Всего записей: 744 | Зарегистр. 14-12-2005 | Отправлено: 08:01 06-10-2009 | Исправлено: U235, 08:03 06-10-2009
denver 22

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Затем преобразовать pdf в xml

Чем?

Цитата:
сохранить его как текстовой слой в djvu

т.е. это будет просто текстовый слой? Который в том же DjvuOCR внедрю в djvu?

Всего записей: 597 | Зарегистр. 28-07-2005 | Отправлено: 13:44 06-10-2009
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В свое время я использовал свободные утилиты pdftohtml и pdf2xml.  
Для внедрения текстового слоя - утилиты из djvulibre.
Преобразовывал pdfxml в djvuxml  - скриптом Autoit.  
Хотя правильнее для преобразования использовать xslt.

Всего записей: 744 | Зарегистр. 14-12-2005 | Отправлено: 17:55 06-10-2009 | Исправлено: U235, 17:59 06-10-2009
are



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
есть самопальные скрипты на пайтоне для перевода ОРС слоя из пдф в джвю, а также (через xml) гиперлинков.
однако обратный перевод - из джвю в пдф - неизвестно чем делать.
кстати хотел бы спросить: не знает ли кто , каким образом можно вставить в отсканированный пдф файл заранее заданный ОРС слой, оглавление и гиперлинки? (это может быть актуально, например, для перевода готового джвю файла в пдф с сохранением всех свойств джвю)

Всего записей: 552 | Зарегистр. 06-03-2005 | Отправлено: 21:45 06-10-2009
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
are
Как вариант, можно попробовать как-то так:
1. Извлекаем текстовой слой из djvu в xml.
2. Скриптами или xslt преобразуем его в формат Scribus (на основе xml) + добавляем картинки-сканы поверх текста.
3. Из Scribus сохраняем в pdf.

Всего записей: 744 | Зарегистр. 14-12-2005 | Отправлено: 22:12 06-10-2009
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Испытательная версия ABBYY FineReader 10 Professional Edition
 
http://abbyy.ru/download/finereader_pro

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 16:00 07-10-2009 | Исправлено: monday2000, 09:58 15-10-2009
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
are

Цитата:
однако обратный перевод - из джвю в пдф - неизвестно чем делать.  

ИМХО важная и популярная проблема (в смысле OCR). Народ меня по мылу нередко терзает. Давайте будем искать решение.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 18:18 29-10-2009 | Исправлено: monday2000, 18:19 29-10-2009
domo22

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ФайнРидер 9 нумерует файлы проекта не по порядку. Из-за этого куча проблем при внедрении текста в DJVUOCR 2.4. Это можно решить? Вручную очень долго выбирать нужные страницы, кроме того ФайнРидер в папке своего проекта хранит картинки в каком-то странном формате, к-рый не читается никакими смотрелками. Или можно как-то подправить DJVUOCR, чтобы она брала файлы из проекта ФайнРидер не просто так, а согласно страницам?
 
Второе. DJVUOCR не хочет в ручном режиме добавлять отдельные страницы в djv файл. Показывает индикатор, что все нормально, а текстовый слой не внедряет, какую-бы страницу не задавали (она уже там есть, но из-за неправильной нумерации ее надо переписать). Беда. Что не так, подскажите пожалуйста. djv файл имеет стандартные атрибуты, он доступен и для чтения и для записи.

Всего записей: 383 | Зарегистр. 03-04-2007 | Отправлено: 12:15 11-11-2009 | Исправлено: domo22, 12:20 11-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Это можно решить?

Да, можно. Проблема состоит как раз в новой фиче FR9 - использованию дополнительных ядер процессора - из-за их гонок путается порядок файлов на выходе.
Варианты решений:
1. Отключить все ядра процессора, кроме одного, но будет соответствующее замедление распознавания.
2. Переименовать frf-файлы так, чтобы вернуть соответствие между ними и tif-ками. Путь к tif-файлу, которому соответствует frf, находится в начальных байтах файла frf в формате Unicode. Задача решается простейшей программкой. http://www.onlinedisk.ru/file/274018/  
Просто выбираем в программе папку с файнридеровскими frf-ками и ждем до готовности.
Внимание - программа не тестировалась на tif-ках с русскими именами.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 07:55 22-11-2009 | Исправлено: StanFreeWare, 08:58 22-11-2009
VadimirTT



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Для внедрения оцр достаточно и 7-ки, гораздо проще доставить еще и ее, чем перегружать комп и отключать ядра.

Всего записей: 2338 | Зарегистр. 22-03-2005 | Отправлено: 08:36 22-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
гораздо проще доставить еще и ее,

Извините, я не совсем корректно выразился.
 
1 и 2 - это разные решения.
 
Решение 2 - самодостаточно. И отключать ядра не нужно.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 08:57 22-11-2009
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
2. Переименовать frf-файлы так, чтобы вернуть соответствие между ними и tif-ками.

имхо данное действие должно было быть реализовано в сабже, но похоже проект потихоньку умирает.. а жаль..
за программку спасибо

Всего записей: 1280 | Зарегистр. 26-07-2007 | Отправлено: 12:02 22-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
похоже проект потихоньку умирае

Мне тоже жаль, хотя надежда еще теплится. Похоже, в ФР10 вообще отошли от frf файлов. Вместо них теперь папки с *.dat и *.frdat...
Так что для уважаемого gencho поле задач еще более увеличилось... В крайнем случае изобретем конвертор *.frdat->*.frf  ))
 
Добавлено:

Цитата:
за программку спасибо

 
Тогда благодарите и omgFiRE c infanata.org )  
За умение формулировать вопросы, содержащие 99% ответа.
 
Версия с поддержкой кириллицы. Вроде бы окончательная.
http://www.onlinedisk.ru/file/274206/

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 12:30 22-11-2009
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Внимание - патч тестировался для версии 9.0.0.622. На версиях, начиная с 9.0.0.724 потребуется коррекция патча - пропуск информации о пользователе в файле frf.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 19:42 22-11-2009
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.Board 2000-2020

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru