Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Утилиты для DjVu: DjVuNMEditor, FR11 DTL Crutch и др.

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

Открыть новую тему     Написать ответ в эту тему

NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

DjVu Nano Mega Editor
(DjVuNMEditor)

Программа для редактирования в DjVu-книгах:
1) текстового слоя;
2) аннотаций;
3) заголовков страниц (title);
4) закладок (bookmarks, outline); в текущей версии не реализовано
5) метаданных; в текущей версии не реализовано
6) еще чего-то?
Описание
Скачать v3.5
Английская локализация

TurnTheText

Утилита TurnTheText предназначена для устранения несоответствия графического и текстового слоев в DjVu-книгах, возникающего при использовании FineReader версии 8 (и ниже) для распознавания текста..
Может быть использована, например, перед внедрением оглавления в DjVu-книгу с помощью программы DjVu Hyperlinks Editor..
Описание
Скачать v1.1

DjVu Annotations Editor

Программа для редактирования гиперссылок (annotations/hyperlinks) в файлах формата djvu, преимущественно, после создания оглавлений в книге при помощи DjVu Hyperlinks Editor'а..
Выполняет сдвиг, выравнивание, изменение размеров, цвета, свойств и др..
Описание
Скачать v0.2
Практически весь функционал программы реализован в DjVuNMEditor'е

HeadWorder

Программа для полуавтоматического извлечения заголовков словарных статей из DjVu-словарей, энциклопедий и т.п. и последующего внедрения их в книгу в виде закладок DjVu или WinDjView (с позиционированием)..
Программа устарела так и не выйдя в свет((

FR11 DjVu Text Layer Crutch

Программа для исправления текстового слоя в файле DjVu, созданного посредством ABBYY FineReader билд 11.0.102.583 и выше (в т.ч. ФР12)..
Выполняет следующие действия:
- удаляет блоки Char;
- создает зоны Line и Paragraph;
- объединяет две половинки слова, разделенного знаком переноса, в одно;
- позволяет переносить текстовый слой из одного файла в другой..
Описание
Скачать v0.3.3
Основной функционал программы реализован также в DjVuNMEditor'е

DjVu Chunk Remover

Программа для удаления блоков (чанков), а также страниц из файлов формата DjVu.. может удалять фон (BG44, BGjp), закладки (NAVM), аннотации (ANTa, ANTz), текст (TXTa, TXTz), информацию о цвете маски(FG44, FGbz) и др.. запрещено удаление блоков INFO, Sjbz, Djbz и INCL, содержащих ссылки на Djbz-словари символов..
Описание
Скачать v0.5

DjVu Text Mover

Программа позволяет поворачивать и двигать текстовый слой в файлах DjVu..
Скачать v0.1

DjVu Title Maker

Программа для создания заголовков страниц (переименования страниц) в файлах DjVu..  
Таким образом, страницы можно называть "Обложка", I, II, III, IV и т.п., автоматически или вручную переименовывать страницы со сдвинутой нумерацией (в т.ч. при удалении пустых страниц) для соответствия нумерации электронной книги её бумажному оригиналу..
Описание
Скачать v0.1
Основной функционал программы реализован также в DjVuNMEditor'е

DjVu Clean Page Inserter

Программа для быстрого создания и внедрения в книгу пустых страниц.. Нужна для восстановления соответствия бумажной и электронной нумерации, что облегчает навигацию по книге..
Описание
Скачать v0.1

DjVu Blits Merger

Программа для добавления на страницы djvu-книги графических изображений (mask-слоя) из другого djvu-файла.. Может применяться для добавления в книгу номеров страниц, колонтитулов, другой необходимой информации без перекодирования файла, а также для объединения графики с двух страниц, закодированных с разной степенью сжатия (например, aggressive и lossless)..
Описание
Скачать v0.1

DjVu Blits Hider

Программа для удаления со страниц djvu-книги графических изображений mask-слоя (blits).. может применяться для очистки страницы от "грязных пятен", лишних элементов маски и т.п. без перекодирования файла.. совместно с DjVu Blits Merger'ом позволяет редактировать mask-слой djvu-книги - Hider удаляет, а Merger вставляет на это место нужную графику..
Описание
Скачать v0.1.1

FR12 Parser

Программа для извлечения координат символов из проекта ФР12-15..
Описание
Скачать v2.3.1

Все программы в одной папке


Программы, которых еще нет, но, возможно, когда-нибудь сделаю..


аналог DjVu Hyperlinks Editor'у с бОльшим функционалом и предварительным просмотром.. DjVuNMEditor
программа для создания и внедрения в книгу пустых страниц.. DjVu Clean Page Inserter
программа для удаления страниц из книги.. DjVu Chunk Remover
программа для удаления пустых чанков, типа CIDa.. DjVu Chunk Remover
программа для добавления текста в нужное место на странице (+ к существующему) DjVuNMEditor
программа для удаления блитов со страницы DjVu Blits Hider
• программа для разделения разворотов на 2 страницы
программа для добавления новых блитов на существующую страницу (объединение графики с двух страниц на одну) DjVu Blits Merger
• программа для перемещения блитов на странице
• программа для кодирования ч/б растра без потерь одним или несколькими большими по размеру шейпами
• еще что-то хотел сделать.. но забыл.. вспомню - запишу))
 
если найдутся желающие сделать эти программы - добро пожаловать)) мыслями и наработками с удовольствием поделюсь)) это относится и к следующему блоку тоже..

Программы, которых нет, и я, к сожалению, наврядли осилю((..

визивиг-редактор текстового слоя.. DjVuNMEditor
Hyperlinks-редактор, типа Document Express Editor, но с возможностью групповой правки аннотаций.. DjVuNMEditor
• полноценный визивиг редактор графики DjVu с возможностью удаления, сдвига, правки шейпов в маске.. а может быть и корректировки фона тоже..
WinDjView с поиском текста в закладках.. ну и некоторыми другими дополнительными возможностями.. таки осилил))
 

продолжение следует..

Всего записей: 1427 | Зарегистр. 26-07-2007 | Отправлено: 22:57 06-02-2012 | Исправлено: NME, 18:28 25-09-2022
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
Думаю, стоит двигаться в сторону, указанную truf - кодер с возможностью визуального управления шагами его процесса. Он же вполне примитивно работает: строит массивы, сравнивает, группирует, упорядочивает и тэ дэ. Простые операции, итог каждой из которых достаточно вывести на экран по типу куминасовского эдитора. Наверняка ведь там первичная прямоугольная матрица  буквы на странице идентифицирована просто индексом. Ну и делать на каждый шаг "печать всех индексов, участвующих в операции (шаге)".  

не думаю, что это простая задача.. "теоретически" она выполнимая, но "на практике" нет даже более простых и более востребованных программ для редактирования djvu.. проблема в отсутствии исполнителя.. так что над теорией поразмышлять никто не запрещает, но по поводу реализации этой теории в удобоваримом виде - мой прогноз 0,0%..
кстати, я не знаком с truf и его работами.. можно ссылочку для ликбеза?

Всего записей: 1427 | Зарегистр. 26-07-2007 | Отправлено: 15:15 29-01-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
кстати, я не знаком с truf и его работами.. можно ссылочку для ликбеза?

http://publ.lib.ru/cgi/forum/YaBB.pl?num=1560707465
и темы неподалёку
 
Добавлено:

Цитата:
проблема в отсутствии исполнителя..

Я принял решение прошлой осенью, что я таки научусь делать гуевые проги Типа "не боги горшки обжигают". На C++. Но дело пока что на околонулевой фазе

Всего записей: 2993 | Зарегистр. 15-07-2010 | Отправлено: 15:32 29-01-2021
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
http://publ.lib.ru/cgi/forum/YaBB.pl?num=1560707465  
и темы неподалёку

спасибо

Цитата:
Я принял решение прошлой осенью, что я таки научусь делать гуевые проги  Типа "не боги горшки обжигают". На C++. Но дело пока что на околонулевой фазе  
 

это единственно правильное решение)) я тоже когда-то принял такое решение, только кодил на с# и продвинулся чуть дальше 0%)))

Всего записей: 1427 | Зарегистр. 26-07-2007 | Отправлено: 15:56 29-01-2021
esys

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
FR11 DjVu Text Layer Crutch зачем-то добавляет лишние пробелы:
https://drive.google.com/file/d/1Oqqpx0wGp-pA1aUcXZe9UEiURPCBim9U/view?usp=drivesdk
Причём, этих пробелов нет в ДЖВЮ-файле полученном из FR, см. лист 25 файла.
Файл из FR: https://drive.google.com/file/d/1T2eKbOmb2p6qXQDrTsdbTg19VZlrDhyh/view?usp=sharing
Файл, куда вставлялся исправляемый текст: https://drive.google.com/file/d/1UDQ_HAHqpBC4Qg1PU8WpvfQ3uQT_w671/view?usp=sharing
Параметры обработки: https://drive.google.com/file/d/1xQCqL-ETi9es6xgrISyOEmY0aZa0ZU-M/view?usp=drivesdk

Всего записей: 310 | Зарегистр. 22-06-2016 | Отправлено: 13:49 11-02-2021 | Исправлено: esys, 13:53 11-02-2021
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys

Код:
      <WORD coords="466,10128,514,10248">1</WORD>
      <WORD coords="578,10092,870,10248"> При</WORD>
      <CHARACTER coords="871,10128,917,10212"> </CHARACTER>
      <WORD coords="918,10124,1734,10216">назначении</WORD>
      <CHARACTER coords="1735,10128,1781,10212"> </CHARACTER>
 

файн для чего-то добавляет в этих местах пробел в начале слова (см. При)..
крач удаляет блоки CHARACTER, добавляет пробелы в конце блоков WORD, а пробелы в начале слова не трёт..
 
насчёт своего отношения к обработке двойных пробелов и прочему форматированию текстового слоя djvu я уже высказывался несколько страниц назад http://forum.ru-board.com/topic.cgi?forum=5&topic=38467&start=300#10

Всего записей: 1427 | Зарегистр. 26-07-2007 | Отправлено: 15:28 11-02-2021
esys

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
3. это особенности зоны "Слово" ("Word") - в конце каждой такой зоны традиционно ставится пробел, за исключением текстового слоя файнридера, где пробелы заключены в свою зону "Символ" ("Character") - с чем, собственно, кратч и борется))).. теоретически можно заморочиться и убирать эти пробелы - но это имхо не нужно..

 - правильно ли я понял?:
1. Программа добавляет пробелы везде правильно, но бывают такие неудобные места, где этот пробел оказывается лишним.
2. Исправить это можно, но шибко трудно, поэтому исправлено не будет никогда.

Всего записей: 310 | Зарегистр. 22-06-2016 | Отправлено: 19:15 12-02-2021 | Исправлено: esys, 19:20 12-02-2021
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys

Цитата:
но бывают такие неудобные места, где этот пробел оказывается лишним.  

не так.. бывают места, где файн ставит лишние пробелы в начале слова, а программа их не убирает..  
а возможно, что они не лишние и это одна из меток для дальнейшего форматирования.. ведь они стоят в начале слова, что не является типичным..
если посмотреть на те примеры, что выложены выше, то можно заметить, что данная ситуация встречается в местах с нумерацией абзацев.. МСВорд, например, ставит в этих местах знак табуляции.. м.б. это кому-то нужно?..
тупо убрать пробел в начале слова - это легко, добавить TrimStart() в одном месте.. но вот разобраться в каких случаях он ставится (помимо нумерованных списков), добавить в интерфейс настройки способов обработки (удалять, оставлять, менять на таб), тестировать, чтоб это багом в других местах не вылезло - на это нужно время, которого у меня сейчас нет (как и желания этим сейчас заниматься).. может быть когда-нибудь в будущем....
на текущей момент наличие лишнего пробела в текстовом слое djvu никак не сказывается на функциональности - поиск прекрасно работает, а именно для этого текстовый слой в djvu и нужен.. при копировании и вставке текста в другие места - двойной пробел легко заменяется на одинарный или табуляцию (кому что нужно).. и по сравнению со всеми ошибками распознания и неточностями форматирования, которые нужно исправить при переводе в текстовый формат, трудоёмкость по замене двойных пробелов составит не более 0,1%.. так что пока всё останется без изменений..

Всего записей: 1427 | Зарегистр. 26-07-2007 | Отправлено: 11:09 15-02-2021
esys

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
разобраться в каких случаях он ставится (помимо нумерованных списков), добавить в интерфейс настройки способов обработки (удалять, оставлять, менять на таб), тестировать, чтоб это багом в других местах не вылезло - на это нужно время
- можно просто заменить два пробела на один. Это просто, это точно не добавит ошибки, и уберёт возможную ошибку двойных пробелов.

Всего записей: 310 | Зарегистр. 22-06-2016 | Отправлено: 12:03 15-02-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys

Цитата:
и уберёт возможную ошибку двойных пробелов

что уберёт?
upd
уточняю вопрос: а если "это не баг, а фича"

Всего записей: 2993 | Зарегистр. 15-07-2010 | Отправлено: 09:38 16-02-2021 | Исправлено: TelecomUral, 09:40 16-02-2021
esys

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
нет
Цитата:
что уберёт?
- программа.

Цитата:
уточняю вопрос: а если "это не баг, а фича"
- нет, так нет. Моё дело предложить.
 
 
 

Всего записей: 310 | Зарегистр. 22-06-2016 | Отправлено: 13:27 16-02-2021
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Люди, подскажите, пожалуйста.
Как в djvused внедрить текстовый слой.
 
Вот этой командой я извлек т. слой из дежавю:
djvused tede.djvu -u -e "print-pure-txt" > myfile.txt
 
Проделал кое-какие операции над текстом (заменял символы) и хочу этот же файл внедрить в этот же дежавю. Не понимаю, как это сделать.

Всего записей: 517 | Зарегистр. 04-05-2016 | Отправлено: 13:14 19-02-2021
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
для вашего случая:
$ djvused in.djvu -e 'output-all' > myfile.dsed
$ djvused in.djvu -e remove-txt -s

редактируете myfile.dsed затем
$ djvused in.djvu -f myfile.dsed -s

Всего записей: 7311 | Зарегистр. 08-09-2001 | Отправлено: 14:07 19-02-2021
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
я бы посоветовал извлекать и внедрять программой djvutoy - c помощью команд Export XML и Import XML на вкладке Hidden Text.. интерфейс более дружелюбный)))
если же все-таки через djvused надо, то извлекать так

Код:
djvused tede.djvu -u -e "output-txt" > myfile.txt  

внедрять обратно так

Код:
djvused tede.djvu -f myfile.txt -s

но надо учитывать вот что - если текстовый слой имеет зоны "paragraph" (т.е. скорее всего был сделан ФР11+ и DjVu Text Layer Crutch), то и djvutoy, и djvused поменяют окончания зон "paragraph" и "line" на дефолтные и перенос строки будет не в конце параграфа, а в конце каждой строки.. исправить это при необходимости можно в том же Crutch'e - в столбце "не ФР11+" в строке "paragraph" выбрать "0x0A", а в строке "line" выбрать "Ничего" и пересохранить..
 
los
всё так, но есть нюансы
1. чтобы кириллица нормально отображалась, при извлечении нужен ключ "-u", иначе вместо букв будут цифры..
2. одинарные кавычки могут не прокатить, в некоторых случаях надо вместо них ставить двойные.. не помню с чем это связано, может быть с языком системы, но у меня, например, одинарные не работают..
3. командой "output-all" можно извлекать, но она помимо текста ещё и аннотации извлекает.. для текста предусмотрена специальная команда..
4. "remove-txt" лишняя операция.. эта команда уже прописана в файле с извлеченным текстом (myfile.txt или myfile.dsed) и будет выполнена на этапе внедрения..

Всего записей: 1427 | Зарегистр. 26-07-2007 | Отправлено: 17:01 19-02-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NME
насколько помню, djvutoy XML делает своеобразные. Уже забыл подробности, но то ли их править потом непросто, то ли с русским они недружные получаются. Какие-то там были проблемы.

Всего записей: 2993 | Зарегистр. 15-07-2010 | Отправлено: 18:03 19-02-2021
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
я бы посоветовал извлекать и внедрять программой djvutoy

 
Попробую, спасибо.
 
Мне вообще посоветовали так:
djvused из djvulibre для извлечения и заливки обратно текстового слоя  + sed или tr для замены символа. Ну и все это в bash или cmd  скрипте с циклом for.
 
Я тут еле с djvused разобрался, точнее недоразобрался. А sed вообще что-то недружелюбное.

Всего записей: 517 | Зарегистр. 04-05-2016 | Отправлено: 19:00 19-02-2021
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NME

Цитата:
2. одинарные кавычки могут не прокатить, в некоторых случаях надо вместо них ставить двойные.. не помню с чем это связано, может быть с языком системы, но у меня, например, одинарные не работают..

скорее всего с ОС и самой программой для ком. строки. У вас, видимо, Windows.
 
По остальным пунктам - спасибо что поправили, проверял на файле без кириллицы и аннотаций.
 
asku

Цитата:
+ sed или tr для замены символа.


Цитата:
А sed вообще что-то недружелюбное.

вопрос удобства именно для вас, замена 'п' на 'П'
$ echo проба
проба
 
$ echo проба | tr 'п' 'П'
Проба
 
$ echo проба | sed 's/п/П/g'
Проба

Всего записей: 7311 | Зарегистр. 08-09-2001 | Отправлено: 19:59 19-02-2021
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Про проблемы с xml в djvutoy я не слышал, но не могу с уверенностью сказать, что их нет, т.к. сам эти xml-ки глубоко не тестировал.. но проблем с кириллицей там нет - его же китаец создавал, а китайский имхо посложней кириллицы будет)) так что наврядли там проблемы с кодировкой будут)) и в правке ничего сложного - это же обычный текстовый файл..  
А вот где реальные баги были, так это в xml от djvulibre - сам видел.. может быть сейчас уже всё исправили, не проверял, нет у меня в этом необходимости..
 
asku

Цитата:
Мне вообще посоветовали так:
djvused из djvulibre для извлечения и заливки обратно текстового слоя  + sed или tr для замены символа. Ну и все это в bash или cmd  скрипте с циклом for.

Ну это явно какой-то линуксоид советовал))) под виндой гораздо проще в каком-нибудь блокноте заменить одни символы (или сочетания) на другие))

Всего записей: 1427 | Зарегистр. 26-07-2007 | Отправлено: 00:41 20-02-2021 | Исправлено: NME, 00:44 20-02-2021
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А вот где реальные баги были, так это в xml от djvulibre

а, точно. спутал. Я совсем мало с xml из djvu работал.

Всего записей: 2993 | Зарегистр. 15-07-2010 | Отправлено: 02:45 20-02-2021
fozzie

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Про проблемы с xml в djvutoy я не слышал

Было такое - в версиях ~2.09 при импорте XML слетала кодировка, слой представлялся как win-1251 (а не utf).

Всего записей: 141 | Зарегистр. 03-09-2001 | Отправлено: 10:41 20-02-2021
fozzie

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
И, кстати, вышел свежий DjVuToy (3.05): https://www.mediafire.com/file/lyc7vq87r3or1mr/DjVuToy_eng.zip/file
 
Улучшение: djvulibre обновлен до 3.5.28. Совместимость с некоторыми нестандартными файлами DjVu неизвестного происхождения.
Исправлено: при работе с V2 версией MODI_Engine ошибка OCR больше не вызывает мерцания основного экрана.
Исправление: улучшена совместимость с V2 MODI_Engine для изменения метода прерывания OCR.
Исправлена ошибка: при конвертировании DjVu в PDF, если предыдущая страница является цветной текстовой страницей, то на следующей странице может быть лишний общий словарь.

Всего записей: 141 | Зарегистр. 03-09-2001 | Отправлено: 12:23 23-02-2021
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

Компьютерный форум Ru.Board » Компьютеры » Программы » Утилиты для DjVu: DjVuNMEditor, FR11 DTL Crutch и др.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru