Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Утилиты для DjVu: FR11 DTL Crutch, DjVu Anno Editor и др.

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

Открыть новую тему     Написать ответ в эту тему

NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TurnTheText

Утилита TurnTheText предназначена для устранения несоответствия графического и текстового слоев в DjVu-книгах, возникающего при использовании FineReader версии 8 (и ниже) для распознавания текста..
Может быть использована, например, перед внедрением оглавления в DjVu-книгу с помощью программы DjVu Hyperlinks Editor..
Описание
Скачать v1.1

DjVu Annotations Editor

Программа для редактирования гиперссылок (annotations/hyperlinks) в файлах формата djvu, преимущественно, после создания оглавлений в книге при помощи DjVu Hyperlinks Editor'а..
Выполняет сдвиг, выравнивание, изменение размеров, цвета, свойств и др..
Описание
Скачать
Зеркало
Видео скачать, посмотреть - Создание оглавления (TOC) в файлах формата DjVu

HeadWorder

Программа для полуавтоматического извлечения заголовков словарных статей из DjVu-словарей, энциклопедий и т.п. и последующего внедрения их в книгу в виде закладок DjVu или WinDjView (с позиционированием)..
может быть в будущем, когда описание сделаю..  

FR11 DjVu Text Layer Crutch

Программа для исправления текстового слоя в файле DjVu, созданного посредством ABBYY FineReader билд 11.0.102.583 и выше (в т.ч. ФР12)..
Выполняет следующие действия:
- удаляет блоки Char;
- создает зоны Line и Paragraph;
- объединяет две половинки слова, разделенного знаком переноса, в одно;
- позволяет переносить текстовый слой из одного файла в другой..
Описание
Скачать v0.3.1

DjVu Chunk Remover

Программа для удаления блоков (чанков), а также страниц из файлов формата DjVu.. может удалять фон (BG44, BGjp), закладки (NAVM), аннотации (ANTa, ANTz), текст (TXTa, TXTz), информацию о цвете маски(FG44, FGbz) и др.. запрещено удаление блоков INFO, Sjbz, Djbz и INCL, содержащих ссылки на Djbz-словари символов..
Описание
Скачать v0.5
Зеркало

DjVu Text Mover

Программа позволяет поворачивать и двигать текстовый слой в файлах DjVu..
Скачать v0.1
Зеркало

DjVu Title Maker

Программа для создания заголовков страниц (переименования страниц) в файлах DjVu..  
Таким образом, страницы можно называть "Обложка", I, II, III, IV и т.п., автоматически или вручную переименовывать страницы со сдвинутой нумерацией (в т.ч. при удалении пустых страниц) для соответствия нумерации электронной книги её бумажному оригиналу..
Описание
Скачать v0.1
Зеркало

DjVu Clean Page Inserter

Программа для быстрого создания и внедрения в книгу пустых страниц.. Нужна для восстановления соответствия бумажной и электронной нумерации, что облегчает навигацию по книге..
Описание
Скачать v0.1
Зеркало

DjVu Blits Merger

Программа для добавления на страницы djvu-книги графических изображений (mask-слоя) из другого djvu-файла.. Может применяться для добавления в книгу номеров страниц, колонтитулов, другой необходимой информации без перекодирования файла, а также для объединения графики с двух страниц, закодированных с разной степенью сжатия (например, aggressive и lossless)..
Описание
Скачать v0.1
Зеркало

DjVu Blits Hider

Программа для удаления со страниц djvu-книги графических изображений mask-слоя (blits).. может применяться для очистки страницы от "грязных пятен", лишних элементов маски и т.п. без перекодирования файла.. совместно с DjVu Blits Merger'ом позволяет редактировать mask-слой djvu-книги - Hider удаляет, а Merger вставляет на это место нужную графику..
Описание
Скачать v0.1.1

Все программы в одной папке


Программы, которых еще нет, но, возможно, когда-нибудь сделаю..


• аналог DjVu Hyperlinks Editor'у с бОльшим функционалом и предварительным просмотром..
программа для создания и внедрения в книгу пустых страниц.. DjVu Clean Page Inserter
программа для удаления страниц из книги.. DjVu Chunk Remover
программа для удаления пустых чанков, типа CIDa.. DjVu Chunk Remover
• программа для добавления текста в нужное место на странице (+ к существующему)
программа для удаления блитов со страницы DjVu Blits Hider
• программа для разделения разворотов на 2 страницы
программа для добавления новых блитов на существующую страницу (объединение графики с двух страниц на одну) DjVu Blits Merger
• программа для перемещения блитов на странице
• программа для кодирования ч/б растра без потерь одним или несколькими большими по размеру шейпами
• еще что-то хотел сделать.. но забыл.. вспомню - запишу))
 
если найдутся желающие сделать эти программы - добро пожаловать)) мыслями и наработками с удовольствием поделюсь)) это относится и к следующему блоку тоже..

Программы, которых нет, и я, к сожалению, наврядли осилю((..

• визивиг-редактор текстового слоя..
• Hyperlinks-редактор, типа Document Express Editor, но с возможностью групповой правки гиперссылок..  
• полноценный визивиг редактор графики DjVu с возможностью удаления, сдвига, правки шейпов в маске.. а может быть и корректировки фона тоже..
WinDjView с поиском текста в закладках.. ну и некоторыми другими дополнительными возможностями.. таки осилил))
 

продолжение следует..

Всего записей: 1273 | Зарегистр. 26-07-2007 | Отправлено: 22:57 06-02-2012 | Исправлено: NME, 16:19 03-07-2020
Aladdin2



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Насчёт FineReader - пользуйтесь 8 версией (или 9). Для них уже есть программа DjvuOCR, поддерживающая пакетную обработку.

Всего записей: 7 | Зарегистр. 22-10-2010 | Отправлено: 10:46 13-12-2013
sergiokapone



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Но не хватает групповой обработки и параметров командной строки.

 
Да, поддерживаю.
 
 
Добавлено:

Цитата:
Насчёт FineReader - пользуйтесь 8 версией (или 9). Для них уже есть программа DjvuOCR, поддерживающая пакетную обработку.  

 
Спасибо, капитан.

Всего записей: 526 | Зарегистр. 07-06-2011 | Отправлено: 19:16 13-12-2013
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LonerDergunov

Цитата:
лучше было не городить гуй с кучей диалоговых окон, а сделать простенькую утилитку с комстрокой

я не программист, сделал как сумел..
с комстрокой раньше не сталкивался и изучать желания не было.. и сейчас нет - ни желания, ни времени..
если кто-то хочет допилить - пишите в личку, вышлю исходники (шарп)..

Всего записей: 1273 | Зарегистр. 26-07-2007 | Отправлено: 23:59 14-12-2013
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
alpopo

Цитата:
подскажите, как пронумеровать страницы в джву?

теоретически - взять 2 djvu-файла: один исходный и второй - чистые листы с нумерацией - и соединить их (т.е. скопировать шейпы из второго файла в первый)..
в кромсаторе этот метод уже реализован (для своих целей), но делать отдельную утилитку автор не захотел - слишком мелко для него..
так что на сегодня только один вариант - декодировать djvu в графику, врисовывать номера, обратно кодировать в djvu..
 
хотя.. можно еще текстовыми аннотациями..

Всего записей: 1273 | Зарегистр. 26-07-2007 | Отправлено: 11:55 15-12-2013
alpopo



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NME
Цитата:
врисовывать номера, обратно кодировать в djvu
Сложновато пока. В пдф это все  попроще

Всего записей: 1202 | Зарегистр. 02-08-2008 | Отправлено: 15:08 15-12-2013
Aladdin2



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А этот глюк исправите?
 

Цитата:
Если после удаления чанков отредактировать полученный документ в Document Express, или же просто сохранить копию из просмотрщика, то размер документа восстанавливается до того состояния как были удалены чанки. Содержимое удалённых чанков конечно же вновь из ниоткуда не появляется. Документ при этом нормально открывается.

 
Я покопался - в чанке DIRM не исправляются размеры страниц, а остаются от исходного документа

Всего записей: 7 | Зарегистр. 22-10-2010 | Отправлено: 22:34 25-12-2013
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Aladdin2
слишком много неизвестных - какие чанки удаляются? при восстановлении размера побайтно тоже всё совпадает? где примеры этих файлов?
очень наврядли, что это глюк ремувера - он всего лишь разбивает файл на блоки, удаляет указанные и собирает его обратно.. какую фигню записывает в файл экспресс я не знаю..  
попытался воспроизвести проблему - размер изменился, но не восстановился.. а вот при открытии пересохраненного файла программа выдала ошибку - на счет этого, думаю, гляну на праздниках..

Всего записей: 1273 | Зарегистр. 26-07-2007 | Отправлено: 23:24 27-12-2013
Aladdin2



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Смысл такой.
Информация о размере страницы фактически хранится в трёх местах - в начале каждой страницы (4 байта после "FORM"), в чанке DIRM в виде указания на смещение страницы и в чанке DIRM в закодированной части в виде сведений о размере втраницы.
Так вот,  

Цитата:
он всего лишь разбивает файл на блоки

Из-за этого закодированная часть DIRM остаётся неизменной, от старого документа. При просмотре документа используется информация о смещении страницы, и новый документ отображается нормально. Но при сохранении редактор использет кодированную часть DIRM, сохраняя для каждой страницы указанно там число байт (содержащие мусор)
Поэтому необходимо добавить исправление информации о размере страницы.

Всего записей: 7 | Зарегистр. 22-10-2010 | Отправлено: 22:00 29-12-2013
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Aladdin2
мда.. для чего так переразмерили блоки - непонятно..
получается, что без перекодирования DIRM не обойтись..  
а это будет (если вообще будет) в очень далекой перспективе..
так что программой сейчас лучше не пользоваться, или не редактировать измененные файлы в экспрессах и т.п..

Всего записей: 1273 | Зарегистр. 26-07-2007 | Отправлено: 21:17 09-01-2014
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
а это будет (если вообще будет) в очень далекой перспективе..

таки напрягся и осилил кодирование тож..
программу исправил..

Всего записей: 1273 | Зарегистр. 26-07-2007 | Отправлено: 23:08 25-01-2014
amaid



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NME - спасибо! красавец.
почти BMW
 
Добавлено:
кто бы еще заточил FR11 DjVu Text Layer Crutch под новую версию файна. Замаялся переделывать OCR

Всего записей: 546 | Зарегистр. 25-01-2006 | Отправлено: 23:37 25-01-2014
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amaid
а там что-то поменялось? не слежу за этим.. скинь в личку ссылки на пару книг, качать и ставить фр ниахота..

Всего записей: 1273 | Зарегистр. 26-07-2007 | Отправлено: 23:51 25-01-2014
amaid



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да, поменялось. Попадаются два вида файлов - чаще всего такой:
http://rghost.ru/51927645
но бывают и с текстом в одну сплошную строку, при этом мягкие переносы сохраняются
как встречу, выложу тоже.
программулина твоя экономила мне многие часы, пока народ не пересел на новые билды файна 11
 
Добавлено:
а может, что-то можно и с обычными книжками сделать, в которых переносы слов в виде дефисов (слова эти склеить, дефисы убрать, как умеет делать файн 8)? Таких книжек вообще - каждая вторая.
типа: http://rghost.ru/51928113
Из-за этих переносов бывает не удается найти цитату или термин.

Всего записей: 546 | Зарегистр. 25-01-2006 | Отправлено: 01:28 26-01-2014 | Исправлено: amaid, 02:00 26-01-2014
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amaid
1) так вроде нормально пример обработал.. что с темновым не так?
2) если текст в одну строку - это старые билды фр.. инфы о координатах слов там нет.. поможет только перераспознание..
3) склеить не проблема, но тогда слова с дефисом или тире в конце строки тоже будут склеены.. можно, конечно, заморочиться - попробовать прикрутить какие-либо словари и т.п. или организовать вычитку данных слов, но имхо овчинка не стоит выделки.. проще на автомате перераспознать..

Всего записей: 1273 | Зарегистр. 26-07-2007 | Отправлено: 12:19 26-01-2014
amaid



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
1. оказалось, что из папки crutch'a пропала dll (хрен его знает куда и когда), поэтому прога не работала как надо, а я грешил на новый файн - сейчас порядок.
3. файн склеивает по словарю, конечно, это самый надежный вариант. Словарей в сети много, жаль, что не считаешь эту овчину нужной.
"На автомате перераспознать" - это разобрать, закинуть в файн, сделать OCR и потом внедрить в файл? Я так и делаю. Каждый такой автомат сжирает от 5 до 20 минут. Умножим на 3-4 книжки в день.
Если есть какой-то другой, неизвестный мне автомат, поделись, буду благодарен.
 
 
Добавлено:
Как вариант, можно обойтись без словаря - склеивать ВСЕ дефисы в конце строки, за исключением "-то, -либо, -нибудь". При этом могут изредка неверно склеиться слова типа "темно-зеленый" (если вдруг дефис придется на конец строки), но зато правильно склеятся термины и фамилии, которых нет в словарях (таких миллион, особенно в научной литературе, и файн их клеить не умеет). Имхо, этот вариант и проще, и намного лучше, чем словарный.

Всего записей: 546 | Зарегистр. 25-01-2006 | Отправлено: 13:48 26-01-2014 | Исправлено: amaid, 14:37 26-01-2014
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amaid

Цитата:
файн склеивает по словарю

файн распознает с использованием словаря.. а склеить после этого - дело нехитрое..

Цитата:
"На автомате перераспознать"

это закинуть djvu в 11 файнридер, получить новый текстовый слой, исправить и перенести его в исходную книгу.. 30-60 секунд не считая время ожидания распознания, в которое можно заниматься другими вещами..

Цитата:
склеивать ВСЕ дефисы в конце строки

склеивание - это необратимый процесс.. убирая все дефисы мы заведомо вносим искажения в текст.. нужно ли это - надо еще подумать.. хотя, если произвести склейку по варианту 2, то откатиться назад будет можно.. в любом случае наврядли сейчас найду время на доработку, мож когда-нить позже.. заодно и от длл-лек избавлюсь))
 
а самое лучшее - чтоб данная фича была реализована в просмотрщике.. тогда и с текстом мудрить не надо, и поиск отлично работать будет.. жаль Жежерун прекратил развитие своего детища, а энтузазистов, готовых продолжить его дело - нет..

Всего записей: 1273 | Зарегистр. 26-07-2007 | Отправлено: 18:43 26-01-2014
amaid



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
из 11 файна перенести напрямую в исходный файл не получится (по крайней мере, я не знаю такой программы - подскажете такую или напишите, сделаете больше дело), для 8 файна есть утилитка от Генчо, ею и пользуюсь (к тому же 8 файн распознаёт плохие сканы лучше, чем 11).
Заниматься другим делом толком не получается, потому что все эти операции разборки-заброски-OCR-внедрения требуют постоянно прерываться. Разве что на одном этапе газетку можно почитать, пока OCR идет. И то только если перераспознание не требует ручного вмешательства (а это часто и густо бывает).  
 
Насчет искажений в OCR - да там и так их навалом, искажений. В большинстве книжек целое море ошибок OCR. Что там какие-то пара дефисов, да и то не в каждой книжке.
И потом, OCR не виден же глазом при чтении djvu. А для копирования-вставки-цитирования-поиска-индексации ВСЕМ будет лучше без дефисов.

Цитата:
а самое лучшее - чтоб данная фича была реализована в просмотрщике

кто ж спорит

Всего записей: 546 | Зарегистр. 25-01-2006 | Отправлено: 19:44 26-01-2014 | Исправлено: amaid, 19:47 26-01-2014
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amaid

Цитата:
подскажете такую

FR11 DjVu Text Layer Crutch
переносит текстовый слой из одного файла в другой в несколько кликов..
 
многие предпочитают 8ку, сам много лет ее юзал.. и если кажется, что 8ка лучше - надо использовать ее..
а Crutch в помощь тем, кто использует фр11..

Всего записей: 1273 | Зарегистр. 26-07-2007 | Отправлено: 20:18 26-01-2014
amaid



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
для Crutcha надо создать сначала djvu из файна, а это процесс небыстрый. И зачем добавлять лишней работы себе, если DjvuOCR внедряет в файл напрямую из пакета с frf, а файн 8 распознает получше?
Жаль, DjvuOCR не работает с файном 9, там самый лучший OCR (правда, форматирование часто хромает).
Вот чинить файновские djvu Crutch помогает прекрасно, душа радуется.

Всего записей: 546 | Зарегистр. 25-01-2006 | Отправлено: 20:27 26-01-2014
Aladdin2



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ура, исправили.
 
А дальнейшее развитие будет? Тут ещё один глюк нашёлся. Если имеется два чанка INCL, программа выдаёт ошибку (Пример).
 
И есть некоторые пожелания. Во-первых, позволить удалять чанк INCL (второй из приведённого выше примера), не знаю, может по имени, или по порядку их расположения. Тогда уж заодно можно включить удаление Sjbz - например чтобы получить пустую белую страницу подходящего размера вместо мусорных клякс. Итого только INFO остаётся неудаляемым.
 
Во-вторых, расширить интерфейс тремя возможностями:
1) Возможность выбрать сразу несколько типов слоёв для их одновременного удаления (а то приходится 1 файл по нескольку раз прогонять).
2) Возможность указать не только файл, но и папку, чтобы программа потом обрабатывала все файлы в этой папке (соответственно для 100 файлов в 100 раз сокращается количество затраченных человекочасов)
3) Возможность автоматической замены существующего файла новым. Процедура вроде не долгая, но если помножить на пункты (1) и (2), то утомляет.
 
Заодно выскажусь по поводу дефисов. Я за их удаление, правильность от этого только повыситься, т.к. количество переносов в книгах заметно больше количества 'настоящих' дефисов на границах строк. И тире - не знаю как в 11 версии, а раньше тире и дефис были разными символами
 
P.S. А я со своей стороны сделаю прогу для пунктов:
• программа для создания и внедрения в книгу пустых страниц..  
• программа для удаления страниц из книги..
+ ещё некоторые

Всего записей: 7 | Зарегистр. 22-10-2010 | Отправлено: 02:40 05-02-2014
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

Компьютерный форум Ru.Board » Компьютеры » Программы » Утилиты для DjVu: FR11 DTL Crutch, DjVu Anno Editor и др.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.Board 2000-2020

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru