Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Утилиты для DjVu: DjVuNMEditor, FR11 DTL Crutch и др.

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Открыть новую тему     Написать ответ в эту тему

NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

DjVu Nano Mega Editor
(DjVuNMEditor)

Программа для редактирования в DjVu-книгах:
1) текстового слоя;
2) аннотаций; в текущей версии не реализовано
3) закладок (bookmarks, outline); в текущей версии не реализовано
4) метаданных; в текущей версии не реализовано
5) еще чего-то?
Описание
Скачать v1.1

TurnTheText

Утилита TurnTheText предназначена для устранения несоответствия графического и текстового слоев в DjVu-книгах, возникающего при использовании FineReader версии 8 (и ниже) для распознавания текста..
Может быть использована, например, перед внедрением оглавления в DjVu-книгу с помощью программы DjVu Hyperlinks Editor..
Описание
Скачать v1.1

DjVu Annotations Editor

Программа для редактирования гиперссылок (annotations/hyperlinks) в файлах формата djvu, преимущественно, после создания оглавлений в книге при помощи DjVu Hyperlinks Editor'а..
Выполняет сдвиг, выравнивание, изменение размеров, цвета, свойств и др..
Описание
Скачать v0.2

HeadWorder

Программа для полуавтоматического извлечения заголовков словарных статей из DjVu-словарей, энциклопедий и т.п. и последующего внедрения их в книгу в виде закладок DjVu или WinDjView (с позиционированием)..
может быть в будущем, когда описание сделаю..  

FR11 DjVu Text Layer Crutch

Программа для исправления текстового слоя в файле DjVu, созданного посредством ABBYY FineReader билд 11.0.102.583 и выше (в т.ч. ФР12)..
Выполняет следующие действия:
- удаляет блоки Char;
- создает зоны Line и Paragraph;
- объединяет две половинки слова, разделенного знаком переноса, в одно;
- позволяет переносить текстовый слой из одного файла в другой..
Описание
Скачать v0.3.1

DjVu Chunk Remover

Программа для удаления блоков (чанков), а также страниц из файлов формата DjVu.. может удалять фон (BG44, BGjp), закладки (NAVM), аннотации (ANTa, ANTz), текст (TXTa, TXTz), информацию о цвете маски(FG44, FGbz) и др.. запрещено удаление блоков INFO, Sjbz, Djbz и INCL, содержащих ссылки на Djbz-словари символов..
Описание
Скачать v0.5

DjVu Text Mover

Программа позволяет поворачивать и двигать текстовый слой в файлах DjVu..
Скачать v0.1

DjVu Title Maker

Программа для создания заголовков страниц (переименования страниц) в файлах DjVu..  
Таким образом, страницы можно называть "Обложка", I, II, III, IV и т.п., автоматически или вручную переименовывать страницы со сдвинутой нумерацией (в т.ч. при удалении пустых страниц) для соответствия нумерации электронной книги её бумажному оригиналу..
Описание
Скачать v0.1

DjVu Clean Page Inserter

Программа для быстрого создания и внедрения в книгу пустых страниц.. Нужна для восстановления соответствия бумажной и электронной нумерации, что облегчает навигацию по книге..
Описание
Скачать v0.1

DjVu Blits Merger

Программа для добавления на страницы djvu-книги графических изображений (mask-слоя) из другого djvu-файла.. Может применяться для добавления в книгу номеров страниц, колонтитулов, другой необходимой информации без перекодирования файла, а также для объединения графики с двух страниц, закодированных с разной степенью сжатия (например, aggressive и lossless)..
Описание
Скачать v0.1

DjVu Blits Hider

Программа для удаления со страниц djvu-книги графических изображений mask-слоя (blits).. может применяться для очистки страницы от "грязных пятен", лишних элементов маски и т.п. без перекодирования файла.. совместно с DjVu Blits Merger'ом позволяет редактировать mask-слой djvu-книги - Hider удаляет, а Merger вставляет на это место нужную графику..
Описание
Скачать v0.1.1

Все программы в одной папке


Программы, которых еще нет, но, возможно, когда-нибудь сделаю..


• аналог DjVu Hyperlinks Editor'у с бОльшим функционалом и предварительным просмотром..
программа для создания и внедрения в книгу пустых страниц.. DjVu Clean Page Inserter
программа для удаления страниц из книги.. DjVu Chunk Remover
программа для удаления пустых чанков, типа CIDa.. DjVu Chunk Remover
программа для добавления текста в нужное место на странице (+ к существующему) DjVuNMEditor
программа для удаления блитов со страницы DjVu Blits Hider
• программа для разделения разворотов на 2 страницы
программа для добавления новых блитов на существующую страницу (объединение графики с двух страниц на одну) DjVu Blits Merger
• программа для перемещения блитов на странице
• программа для кодирования ч/б растра без потерь одним или несколькими большими по размеру шейпами
• еще что-то хотел сделать.. но забыл.. вспомню - запишу))
 
если найдутся желающие сделать эти программы - добро пожаловать)) мыслями и наработками с удовольствием поделюсь)) это относится и к следующему блоку тоже..

Программы, которых нет, и я, к сожалению, наврядли осилю((..

визивиг-редактор текстового слоя.. DjVuNMEditor
• Hyperlinks-редактор, типа Document Express Editor, но с возможностью групповой правки гиперссылок..  
• полноценный визивиг редактор графики DjVu с возможностью удаления, сдвига, правки шейпов в маске.. а может быть и корректировки фона тоже..
WinDjView с поиском текста в закладках.. ну и некоторыми другими дополнительными возможностями.. таки осилил))
 

продолжение следует..

Всего записей: 1279 | Зарегистр. 26-07-2007 | Отправлено: 22:57 06-02-2012 | Исправлено: NME, 14:42 10-06-2021
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
Думаю, стоит двигаться в сторону, указанную truf - кодер с возможностью визуального управления шагами его процесса. Он же вполне примитивно работает: строит массивы, сравнивает, группирует, упорядочивает и тэ дэ. Простые операции, итог каждой из которых достаточно вывести на экран по типу куминасовского эдитора. Наверняка ведь там первичная прямоугольная матрица  буквы на странице идентифицирована просто индексом. Ну и делать на каждый шаг "печать всех индексов, участвующих в операции (шаге)".  

не думаю, что это простая задача.. "теоретически" она выполнимая, но "на практике" нет даже более простых и более востребованных программ для редактирования djvu.. проблема в отсутствии исполнителя.. так что над теорией поразмышлять никто не запрещает, но по поводу реализации этой теории в удобоваримом виде - мой прогноз 0,0%..
кстати, я не знаком с truf и его работами.. можно ссылочку для ликбеза?

Всего записей: 1279 | Зарегистр. 26-07-2007 | Отправлено: 15:15 29-01-2021
TelecomUral

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
кстати, я не знаком с truf и его работами.. можно ссылочку для ликбеза?

http://publ.lib.ru/cgi/forum/YaBB.pl?num=1560707465
и темы неподалёку
 
Добавлено:

Цитата:
проблема в отсутствии исполнителя..

Я принял решение прошлой осенью, что я таки научусь делать гуевые проги Типа "не боги горшки обжигают". На C++. Но дело пока что на околонулевой фазе

Всего записей: 1564 | Зарегистр. 15-07-2010 | Отправлено: 15:32 29-01-2021
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
http://publ.lib.ru/cgi/forum/YaBB.pl?num=1560707465  
и темы неподалёку

спасибо

Цитата:
Я принял решение прошлой осенью, что я таки научусь делать гуевые проги  Типа "не боги горшки обжигают". На C++. Но дело пока что на околонулевой фазе  
 

это единственно правильное решение)) я тоже когда-то принял такое решение, только кодил на с# и продвинулся чуть дальше 0%)))

Всего записей: 1279 | Зарегистр. 26-07-2007 | Отправлено: 15:56 29-01-2021
esys

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
FR11 DjVu Text Layer Crutch зачем-то добавляет лишние пробелы:
https://drive.google.com/file/d/1Oqqpx0wGp-pA1aUcXZe9UEiURPCBim9U/view?usp=drivesdk
Причём, этих пробелов нет в ДЖВЮ-файле полученном из FR, см. лист 25 файла.
Файл из FR: https://drive.google.com/file/d/1T2eKbOmb2p6qXQDrTsdbTg19VZlrDhyh/view?usp=sharing
Файл, куда вставлялся исправляемый текст: https://drive.google.com/file/d/1UDQ_HAHqpBC4Qg1PU8WpvfQ3uQT_w671/view?usp=sharing
Параметры обработки: https://drive.google.com/file/d/1xQCqL-ETi9es6xgrISyOEmY0aZa0ZU-M/view?usp=drivesdk

Всего записей: 60 | Зарегистр. 22-06-2016 | Отправлено: 13:49 11-02-2021 | Исправлено: esys, 13:53 11-02-2021
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys

Код:
      <WORD coords="466,10128,514,10248">1</WORD>
      <WORD coords="578,10092,870,10248"> При</WORD>
      <CHARACTER coords="871,10128,917,10212"> </CHARACTER>
      <WORD coords="918,10124,1734,10216">назначении</WORD>
      <CHARACTER coords="1735,10128,1781,10212"> </CHARACTER>
 

файн для чего-то добавляет в этих местах пробел в начале слова (см. При)..
крач удаляет блоки CHARACTER, добавляет пробелы в конце блоков WORD, а пробелы в начале слова не трёт..
 
насчёт своего отношения к обработке двойных пробелов и прочему форматированию текстового слоя djvu я уже высказывался несколько страниц назад http://forum.ru-board.com/topic.cgi?forum=5&topic=38467&start=300#10

Всего записей: 1279 | Зарегистр. 26-07-2007 | Отправлено: 15:28 11-02-2021
esys

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
3. это особенности зоны "Слово" ("Word") - в конце каждой такой зоны традиционно ставится пробел, за исключением текстового слоя файнридера, где пробелы заключены в свою зону "Символ" ("Character") - с чем, собственно, кратч и борется))).. теоретически можно заморочиться и убирать эти пробелы - но это имхо не нужно..

 - правильно ли я понял?:
1. Программа добавляет пробелы везде правильно, но бывают такие неудобные места, где этот пробел оказывается лишним.
2. Исправить это можно, но шибко трудно, поэтому исправлено не будет никогда.

Всего записей: 60 | Зарегистр. 22-06-2016 | Отправлено: 19:15 12-02-2021 | Исправлено: esys, 19:20 12-02-2021
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys

Цитата:
но бывают такие неудобные места, где этот пробел оказывается лишним.  

не так.. бывают места, где файн ставит лишние пробелы в начале слова, а программа их не убирает..  
а возможно, что они не лишние и это одна из меток для дальнейшего форматирования.. ведь они стоят в начале слова, что не является типичным..
если посмотреть на те примеры, что выложены выше, то можно заметить, что данная ситуация встречается в местах с нумерацией абзацев.. МСВорд, например, ставит в этих местах знак табуляции.. м.б. это кому-то нужно?..
тупо убрать пробел в начале слова - это легко, добавить TrimStart() в одном месте.. но вот разобраться в каких случаях он ставится (помимо нумерованных списков), добавить в интерфейс настройки способов обработки (удалять, оставлять, менять на таб), тестировать, чтоб это багом в других местах не вылезло - на это нужно время, которого у меня сейчас нет (как и желания этим сейчас заниматься).. может быть когда-нибудь в будущем....
на текущей момент наличие лишнего пробела в текстовом слое djvu никак не сказывается на функциональности - поиск прекрасно работает, а именно для этого текстовый слой в djvu и нужен.. при копировании и вставке текста в другие места - двойной пробел легко заменяется на одинарный или табуляцию (кому что нужно).. и по сравнению со всеми ошибками распознания и неточностями форматирования, которые нужно исправить при переводе в текстовый формат, трудоёмкость по замене двойных пробелов составит не более 0,1%.. так что пока всё останется без изменений..

Всего записей: 1279 | Зарегистр. 26-07-2007 | Отправлено: 11:09 15-02-2021
esys

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
разобраться в каких случаях он ставится (помимо нумерованных списков), добавить в интерфейс настройки способов обработки (удалять, оставлять, менять на таб), тестировать, чтоб это багом в других местах не вылезло - на это нужно время
- можно просто заменить два пробела на один. Это просто, это точно не добавит ошибки, и уберёт возможную ошибку двойных пробелов.

Всего записей: 60 | Зарегистр. 22-06-2016 | Отправлено: 12:03 15-02-2021
TelecomUral

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys

Цитата:
и уберёт возможную ошибку двойных пробелов

что уберёт?
upd
уточняю вопрос: а если "это не баг, а фича"

Всего записей: 1564 | Зарегистр. 15-07-2010 | Отправлено: 09:38 16-02-2021 | Исправлено: TelecomUral, 09:40 16-02-2021
esys

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
нет
Цитата:
что уберёт?
- программа.

Цитата:
уточняю вопрос: а если "это не баг, а фича"
- нет, так нет. Моё дело предложить.
 
 
 

Всего записей: 60 | Зарегистр. 22-06-2016 | Отправлено: 13:27 16-02-2021
asku



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Люди, подскажите, пожалуйста.
Как в djvused внедрить текстовый слой.
 
Вот этой командой я извлек т. слой из дежавю:
djvused tede.djvu -u -e "print-pure-txt" > myfile.txt
 
Проделал кое-какие операции над текстом (заменял символы) и хочу этот же файл внедрить в этот же дежавю. Не понимаю, как это сделать.

Всего записей: 221 | Зарегистр. 04-05-2016 | Отправлено: 13:14 19-02-2021
los

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
для вашего случая:
$ djvused in.djvu -e 'output-all' > myfile.dsed
$ djvused in.djvu -e remove-txt -s

редактируете myfile.dsed затем
$ djvused in.djvu -f myfile.dsed -s

Всего записей: 4622 | Зарегистр. 08-09-2001 | Отправлено: 14:07 19-02-2021
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
я бы посоветовал извлекать и внедрять программой djvutoy - c помощью команд Export XML и Import XML на вкладке Hidden Text.. интерфейс более дружелюбный)))
если же все-таки через djvused надо, то извлекать так

Код:
djvused tede.djvu -u -e "output-txt" > myfile.txt  

внедрять обратно так

Код:
djvused tede.djvu -f myfile.txt -s

но надо учитывать вот что - если текстовый слой имеет зоны "paragraph" (т.е. скорее всего был сделан ФР11+ и DjVu Text Layer Crutch), то и djvutoy, и djvused поменяют окончания зон "paragraph" и "line" на дефолтные и перенос строки будет не в конце параграфа, а в конце каждой строки.. исправить это при необходимости можно в том же Crutch'e - в столбце "не ФР11+" в строке "paragraph" выбрать "0x0A", а в строке "line" выбрать "Ничего" и пересохранить..
 
los
всё так, но есть нюансы
1. чтобы кириллица нормально отображалась, при извлечении нужен ключ "-u", иначе вместо букв будут цифры..
2. одинарные кавычки могут не прокатить, в некоторых случаях надо вместо них ставить двойные.. не помню с чем это связано, может быть с языком системы, но у меня, например, одинарные не работают..
3. командой "output-all" можно извлекать, но она помимо текста ещё и аннотации извлекает.. для текста предусмотрена специальная команда..
4. "remove-txt" лишняя операция.. эта команда уже прописана в файле с извлеченным текстом (myfile.txt или myfile.dsed) и будет выполнена на этапе внедрения..

Всего записей: 1279 | Зарегистр. 26-07-2007 | Отправлено: 17:01 19-02-2021
TelecomUral

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NME
насколько помню, djvutoy XML делает своеобразные. Уже забыл подробности, но то ли их править потом непросто, то ли с русским они недружные получаются. Какие-то там были проблемы.

Всего записей: 1564 | Зарегистр. 15-07-2010 | Отправлено: 18:03 19-02-2021
asku



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
я бы посоветовал извлекать и внедрять программой djvutoy

 
Попробую, спасибо.
 
Мне вообще посоветовали так:
djvused из djvulibre для извлечения и заливки обратно текстового слоя  + sed или tr для замены символа. Ну и все это в bash или cmd  скрипте с циклом for.
 
Я тут еле с djvused разобрался, точнее недоразобрался. А sed вообще что-то недружелюбное.

Всего записей: 221 | Зарегистр. 04-05-2016 | Отправлено: 19:00 19-02-2021
los

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NME

Цитата:
2. одинарные кавычки могут не прокатить, в некоторых случаях надо вместо них ставить двойные.. не помню с чем это связано, может быть с языком системы, но у меня, например, одинарные не работают..

скорее всего с ОС и самой программой для ком. строки. У вас, видимо, Windows.
 
По остальным пунктам - спасибо что поправили, проверял на файле без кириллицы и аннотаций.
 
asku

Цитата:
+ sed или tr для замены символа.


Цитата:
А sed вообще что-то недружелюбное.

вопрос удобства именно для вас, замена 'п' на 'П'
$ echo проба
проба
 
$ echo проба | tr 'п' 'П'
Проба
 
$ echo проба | sed 's/п/П/g'
Проба

Всего записей: 4622 | Зарегистр. 08-09-2001 | Отправлено: 19:59 19-02-2021
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Про проблемы с xml в djvutoy я не слышал, но не могу с уверенностью сказать, что их нет, т.к. сам эти xml-ки глубоко не тестировал.. но проблем с кириллицей там нет - его же китаец создавал, а китайский имхо посложней кириллицы будет)) так что наврядли там проблемы с кодировкой будут)) и в правке ничего сложного - это же обычный текстовый файл..  
А вот где реальные баги были, так это в xml от djvulibre - сам видел.. может быть сейчас уже всё исправили, не проверял, нет у меня в этом необходимости..
 
asku

Цитата:
Мне вообще посоветовали так:
djvused из djvulibre для извлечения и заливки обратно текстового слоя  + sed или tr для замены символа. Ну и все это в bash или cmd  скрипте с циклом for.

Ну это явно какой-то линуксоид советовал))) под виндой гораздо проще в каком-нибудь блокноте заменить одни символы (или сочетания) на другие))

Всего записей: 1279 | Зарегистр. 26-07-2007 | Отправлено: 00:41 20-02-2021 | Исправлено: NME, 00:44 20-02-2021
TelecomUral

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А вот где реальные баги были, так это в xml от djvulibre

а, точно. спутал. Я совсем мало с xml из djvu работал.

Всего записей: 1564 | Зарегистр. 15-07-2010 | Отправлено: 02:45 20-02-2021
fozzie

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Про проблемы с xml в djvutoy я не слышал

Было такое - в версиях ~2.09 при импорте XML слетала кодировка, слой представлялся как win-1251 (а не utf).

Всего записей: 58 | Зарегистр. 03-09-2001 | Отправлено: 10:41 20-02-2021
fozzie

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
И, кстати, вышел свежий DjVuToy (3.05): https://www.mediafire.com/file/lyc7vq87r3or1mr/DjVuToy_eng.zip/file
 
Улучшение: djvulibre обновлен до 3.5.28. Совместимость с некоторыми нестандартными файлами DjVu неизвестного происхождения.
Исправлено: при работе с V2 версией MODI_Engine ошибка OCR больше не вызывает мерцания основного экрана.
Исправление: улучшена совместимость с V2 MODI_Engine для изменения метода прерывания OCR.
Исправлена ошибка: при конвертировании DjVu в PDF, если предыдущая страница является цветной текстовой страницей, то на следующей странице может быть лишний общий словарь.

Всего записей: 58 | Зарегистр. 03-09-2001 | Отправлено: 12:23 23-02-2021
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Компьютерный форум Ru.Board » Компьютеры » Программы » Утилиты для DjVu: DjVuNMEditor, FR11 DTL Crutch и др.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.Board 2000-2020

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru