Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Открыть новую тему     Написать ответ в эту тему

vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DjvuOCR
by gencho

Программа для добавление OCR информации в djvu-книги с помощью программы распознавания текста ABBYY FineReader версий 7-9. Есть также другие полезные функции для работы с djvu.
 
Текущая версия: 2.4 beta
 
Офсайт  
Софт на ЯДиске

Авторская документация к DjvuOCR (в формате HTM)  
 
 
FR9frfPatch для автоматического исправления перепутанных страниц после распознавания в FineReader 9 на многоядерном процессоре
 
Статья Создание в djvu-файле текстового слоя и интерактивного содержания
 
Статья OCR в djvu файлах - новый подход к старым возможностям (немного устаревшая).
 
Статья OCR && DJVU || DJVU && OCR или есть ли текст в дежавю? (немного устаревшая).

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 22:28 28-02-2007 | Исправлено: TelecomUral, 13:44 22-07-2020
Him

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vitaly1
 
Во-первых, спасибо за открытую тему, так как я для начала начал искать через фильтр по названию темы и, как сейчас понимаю почему, не нашёл. Теперь(я, конечно, наглею), раз уж открыта тема и вопрос обработки файлов djvu без текстового слоя волнует, видимо, не меня одного, не могли бы Вы сотворить небольшой(но понятный ) мануал по работе с этой программой. Хоть Вы и говорите, что разобраться с ней нетрудно, но у меня появились  вопросы сразу при запуске экзешника: какую опцию выбрать, если по умолчанию, то какие поля и как заполнять открывшуюся следующую страницу и т.д. В общем, для меня такой мануал был бы необходим, но......как Вы решите! Заранее благодарен.
 
P.S. Начало обсуждения темы  http://forum.ru-board.com/topic.cgi?forum=5&topic=18322&start=320#13

Всего записей: 572 | Зарегистр. 08-01-2003 | Отправлено: 23:18 28-02-2007 | Исправлено: Him, 16:07 01-03-2007
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Him
Мануал вряд ли сейчас потяну - времени нет. Но пошаговую инструкцию быстро накидать могу.
 
Только давайте сначала определимся, что именно Вы хотите сделать, чтобы лишнее не расписывать Либо нужно добавить текстовый слой в дежавю, либо получить текст из дежавюшки.

----------
Топик по украинскому языку

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 23:23 28-02-2007
Him

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vitaly1
 
Спасибо за участие в моей проблеме и желание помочь. Мне нужно только получить текст отдельно от картинки и рапечатать его.

Всего записей: 572 | Зарегистр. 08-01-2003 | Отправлено: 23:28 28-02-2007 | Исправлено: Him, 23:35 28-02-2007
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В этом случае нужно просто распознать текст в ФайнРидере. Поскольку он пока что не принимает на входе дежавюшные файлы, их сначала преобразовывают в тифы. Запускаете DjvuOCR (у меня версия 2.2), выбираете DjvuDecoder, потом сверху Add, выбираете свою дежавюшку, ниже, где Output Directory жмете Browse и указываете папку, куда сложить тифы, извлеченные из дежавю. Потом эти тифы скармливаете ФР и распознаете.
 
Добавлено:
Поздравляю со статусом Member'a

----------
Топик по украинскому языку

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 23:35 28-02-2007 | Исправлено: vitaly1, 23:37 28-02-2007
Him

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vitaly1
 
Спасибо за разъяснение и за поздравление со статусом(а я , к своему стыду, даже и не обратил внимания на его изменение). Значит, наличие Fine Reader всё-таки обязательно?! Сейчас поищу новые версии , а то у меня старые(примерно годичной давности, когда увлекался работой со сканерами).

Всего записей: 572 | Зарегистр. 08-01-2003 | Отправлено: 23:48 28-02-2007
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Him
В принципе и 6-ки должно быть достаточно. Или даже 5-ки. Правда, новые версии вроде бы получше распознают.

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 23:58 28-02-2007
Him

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vitaly1
 
Уже ставлю,  оказывается, в моих архивах даже 8-ка есть где-то октября прошлого года.
 
Добавлено:
vitaly1
 
Программа декодировала нормально в tif, но ФР , зараза, распознаёт отдельные элементы и то кракозябрами. При этом постоянно просить увеличить рарешение. Пытаюсь корректировать, но не помогает: при установке выше 300 вообще не распознаёт. Я так понимаю, что, видимо , надо исправить сам исходный файл, т.е. сначала создать на нём текстовый слой, а потом уже обрабатывать текст. Но это я так по дилетански мыслю, но Вы, может, подскажете что-нибудь правильное. А ещё, если согласны, я дам ссылку на файл, с которым я мучаюсь, а Вы над ним поколдуете!? Но это уже завтра, а сейчас пора уже спать.
 
Попробовал другой аналогичный файл - полёт нормальный: и декодировалси и распознался! А с тем файлом буду работать ещё или через вьювер для фото.

Всего записей: 572 | Зарегистр. 08-01-2003 | Отправлено: 00:07 01-03-2007 | Исправлено: Him, 01:51 01-03-2007
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Him
Если разрешение маловато, можно попробовать следующее: в етот же режим Djvu Decoder вправо есть опция dpi (25-1200). Попробуйте 300 или 600. Кроме етого ставте галочка на To gray, если книга в gray scale (хотя tiff-ы будут громоздкие, FR лучше будеть работать). Не забывайте после етого нажать Applay to all files, иначе может не сработат

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 02:21 01-03-2007
Him

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho
 
Спасибо, помогло dpi 600 и галка на To gray. Правда, после распознавания есть некоторые кракозябры, но это, видимо, издержки исходного файла и FineReader.

Всего записей: 572 | Зарегистр. 08-01-2003 | Отправлено: 09:46 01-03-2007
Tolich



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Небольшая рекомендация: а не можете в шапку прямую ссылку на прогу скинуть?
а то что-то эта ссылка не работает.  Не загружается сайт и всё тут

Всего записей: 500 | Зарегистр. 23-12-2005 | Отправлено: 10:36 01-03-2007
vitaly1



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tolich
http://djvuocr.ucoz.ru/_ld/0/3_DjvuOCR_2.2beta.rar
 
Добавлено:
http://djvuocr.ucoz.ru/_ld/0/1_DjvuOCR_2.1.rar

----------
Топик по украинскому языку

Всего записей: 5415 | Зарегистр. 28-08-2004 | Отправлено: 19:42 01-03-2007
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Сайт там работает, вроде у вас проблема.
Для резервного варианта поставил здесь:
 
http://gencho.gencho.googlepages.com/DjvuOCR_2.2beta.rar
 
 
Him
 
Раз FineReader 8 так справился, то очень плохой у вас файл.

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 01:50 02-03-2007
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho

Цитата:
http://gencho.gencho.googlepages.com/DjvuOCR_2.2beta.rar  

Этот хостинг - googlepages.com - оказался на поверку совершенно скверным - там маленький лимит трафика - но об этом нигде, разумеется, официально не говорится.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 15:29 02-03-2007
Tolich



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vitaly1
gencho
Спасибо за ссылки! Скачал, всё нормально!
Но сайт всё равно не грузится...

Всего записей: 500 | Зарегистр. 23-12-2005 | Отправлено: 15:56 02-03-2007
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Интересно, вчера сайт отвечал, а сегодня и у меня не грузится... Но и сам ucoz.ru не грузится. Наверное ето внутренная проблема.

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 16:43 02-03-2007
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
У меня тоже есть зеркала:
 
http://www.djvu-soft.narod.ru/djvu_ocr_v2_2_beta.rar
 
http://www.djvu-soft.narod.ru/djvu_ocr_v2_1.rar (подправленный автором)
 
http://www.djvu-soft.narod.ru/DjvuOCR_2_0_final.rar
 
http://www.djvu-soft.narod.ru/DjvuOCR_2_0_pre.rar
 
Наверняка уже есть и другие зеркала - надо в Яндексе посмотреть.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 11:33 06-03-2007
gencho



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000
 
уберите версия 2.0.pre и 2.0.final, она безнадеждно устарела. Версия 2.2 зарекомендовала себя как последная, без жалобы.

Всего записей: 321 | Зарегистр. 20-06-2003 | Отправлено: 15:50 06-03-2007
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
gencho

Цитата:
уберите версия 2.0.pre и 2.0.final, она безнадеждно устарела.

Это для истории. А вообще у меня ФАК http://www.djvu-soft.narod.ru/basic.htm - там только всё самое свежее.
 
Я хотел бы напомнить свою старую просьбу: при использовании "Extract OCR Layers" сделать, чтобы извлекался не только OCR-слой - но и вообще все метаданные - гиперссылки и т.п. Пока для этого приходится использовать djvused - что неудобно.
 
Компания ABBYY планирует в будущем выпуск FineReader 9, где помимо прочего будет поддержка на чтение формата DjVu.
 
И ещё вот что хочу сказать: кроме Вашей программы, существует ещё один способ внедрить в DjVu-файл ABBYY-OCR. Нужно распознать тифы и сохранить их в PDF OCR, затем преобразовать этот Pdf через Pdftodjvu. Но этот способ неудобен и громоздок. Можно дополнительно потом извлечь OCR-слой из полученного DjVu-файла, сделать этот же DjVu-файл обычным путём, и вставить туда этот ранее сохранённый OCR-слой. Это вообще уже чересчур сложно.
 
В ABBYY SDK есть опция "отдельное сохранение OCR-слоя в виде XML-файла".
 
Добавлено:
Из топика по WinDjView:

Цитата:
Прошу прощения за напряг, а нет ли русификатора к DjvuOCR? Скачал версию 2.0 final, установил , но.....слаб в английском(к большому сожалению)!

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 09:24 07-03-2007
Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
шапка включена

----------
Тень превращается в фантазии, таящиеся в глубине вашей души.
Пока идёшь ты среди теней, да не будет зла с тобой.

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 14:31 07-03-2007
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Компьютерный форум Ru.Board » Компьютеры » Программы » DjvuOCR


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru