Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Утилиты для DjVu: DjVuNMEditor, FR11 DTL Crutch и др.

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

Открыть новую тему     Написать ответ в эту тему

NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

DjVu Nano Mega Editor
(DjVuNMEditor)

Программа для редактирования в DjVu-книгах:
1) текстового слоя;
2) аннотаций;
3) заголовков страниц (title);
4) закладок (bookmarks, outline); в текущей версии не реализовано
5) метаданных; в текущей версии не реализовано
6) еще чего-то?
Описание
Скачать v3.5
Английская локализация

TurnTheText

Утилита TurnTheText предназначена для устранения несоответствия графического и текстового слоев в DjVu-книгах, возникающего при использовании FineReader версии 8 (и ниже) для распознавания текста..
Может быть использована, например, перед внедрением оглавления в DjVu-книгу с помощью программы DjVu Hyperlinks Editor..
Описание
Скачать v1.1

DjVu Annotations Editor

Программа для редактирования гиперссылок (annotations/hyperlinks) в файлах формата djvu, преимущественно, после создания оглавлений в книге при помощи DjVu Hyperlinks Editor'а..
Выполняет сдвиг, выравнивание, изменение размеров, цвета, свойств и др..
Описание
Скачать v0.2
Практически весь функционал программы реализован в DjVuNMEditor'е

HeadWorder

Программа для полуавтоматического извлечения заголовков словарных статей из DjVu-словарей, энциклопедий и т.п. и последующего внедрения их в книгу в виде закладок DjVu или WinDjView (с позиционированием)..
Программа устарела так и не выйдя в свет((

FR11 DjVu Text Layer Crutch

Программа для исправления текстового слоя в файле DjVu, созданного посредством ABBYY FineReader билд 11.0.102.583 и выше (в т.ч. ФР12)..
Выполняет следующие действия:
- удаляет блоки Char;
- создает зоны Line и Paragraph;
- объединяет две половинки слова, разделенного знаком переноса, в одно;
- позволяет переносить текстовый слой из одного файла в другой..
Описание
Скачать v0.3.3
Основной функционал программы реализован также в DjVuNMEditor'е

DjVu Chunk Remover

Программа для удаления блоков (чанков), а также страниц из файлов формата DjVu.. может удалять фон (BG44, BGjp), закладки (NAVM), аннотации (ANTa, ANTz), текст (TXTa, TXTz), информацию о цвете маски(FG44, FGbz) и др.. запрещено удаление блоков INFO, Sjbz, Djbz и INCL, содержащих ссылки на Djbz-словари символов..
Описание
Скачать v0.5

DjVu Text Mover

Программа позволяет поворачивать и двигать текстовый слой в файлах DjVu..
Скачать v0.1

DjVu Title Maker

Программа для создания заголовков страниц (переименования страниц) в файлах DjVu..  
Таким образом, страницы можно называть "Обложка", I, II, III, IV и т.п., автоматически или вручную переименовывать страницы со сдвинутой нумерацией (в т.ч. при удалении пустых страниц) для соответствия нумерации электронной книги её бумажному оригиналу..
Описание
Скачать v0.1
Основной функционал программы реализован также в DjVuNMEditor'е

DjVu Clean Page Inserter

Программа для быстрого создания и внедрения в книгу пустых страниц.. Нужна для восстановления соответствия бумажной и электронной нумерации, что облегчает навигацию по книге..
Описание
Скачать v0.1

DjVu Blits Merger

Программа для добавления на страницы djvu-книги графических изображений (mask-слоя) из другого djvu-файла.. Может применяться для добавления в книгу номеров страниц, колонтитулов, другой необходимой информации без перекодирования файла, а также для объединения графики с двух страниц, закодированных с разной степенью сжатия (например, aggressive и lossless)..
Описание
Скачать v0.1

DjVu Blits Hider

Программа для удаления со страниц djvu-книги графических изображений mask-слоя (blits).. может применяться для очистки страницы от "грязных пятен", лишних элементов маски и т.п. без перекодирования файла.. совместно с DjVu Blits Merger'ом позволяет редактировать mask-слой djvu-книги - Hider удаляет, а Merger вставляет на это место нужную графику..
Описание
Скачать v0.1.1

FR12 Parser

Программа для извлечения координат символов из проекта ФР12-15..
Описание
Скачать v2.3.1

Все программы в одной папке


Программы, которых еще нет, но, возможно, когда-нибудь сделаю..


аналог DjVu Hyperlinks Editor'у с бОльшим функционалом и предварительным просмотром.. DjVuNMEditor
программа для создания и внедрения в книгу пустых страниц.. DjVu Clean Page Inserter
программа для удаления страниц из книги.. DjVu Chunk Remover
программа для удаления пустых чанков, типа CIDa.. DjVu Chunk Remover
программа для добавления текста в нужное место на странице (+ к существующему) DjVuNMEditor
программа для удаления блитов со страницы DjVu Blits Hider
• программа для разделения разворотов на 2 страницы
программа для добавления новых блитов на существующую страницу (объединение графики с двух страниц на одну) DjVu Blits Merger
• программа для перемещения блитов на странице
• программа для кодирования ч/б растра без потерь одним или несколькими большими по размеру шейпами
• еще что-то хотел сделать.. но забыл.. вспомню - запишу))
 
если найдутся желающие сделать эти программы - добро пожаловать)) мыслями и наработками с удовольствием поделюсь)) это относится и к следующему блоку тоже..

Программы, которых нет, и я, к сожалению, наврядли осилю((..

визивиг-редактор текстового слоя.. DjVuNMEditor
Hyperlinks-редактор, типа Document Express Editor, но с возможностью групповой правки аннотаций.. DjVuNMEditor
• полноценный визивиг редактор графики DjVu с возможностью удаления, сдвига, правки шейпов в маске.. а может быть и корректировки фона тоже..
WinDjView с поиском текста в закладках.. ну и некоторыми другими дополнительными возможностями.. таки осилил))
 

продолжение следует..

Всего записей: 1427 | Зарегистр. 26-07-2007 | Отправлено: 22:57 06-02-2012 | Исправлено: NME, 18:28 25-09-2022
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
sirius12

Цитата:
Благодарю за программу FR11 DjVu Text Layer Crutch, она фактически решила проблему с оцифровкой текстов для встраивания слоя в DjVu, потому что я очень люблю FR12!

Старый добрый костыль)) Сегодня основные функции по нормализации текстового слоя djvu, полученного в фр11-15, есть и в DjVuNMEditor'е + ещё в нём можно болеменее удобно подправить данный текст при необходимости, так что рекомендую осваивать и эту программу))

Всего записей: 1427 | Зарегистр. 26-07-2007 | Отправлено: 12:30 25-07-2022
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

 
NME
 


Всего записей: 2791 | Зарегистр. 31-05-2010 | Отправлено: 20:44 25-07-2022
amaid



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Было бы удобно открывать DjVuNMEditor из меню Extended (на той же странице, на которой файл просматривался, и сразу на вкладке "Текстовый слой" - кстати, для DjVuNMEditor вообще полезно было бы сделать эту вкладку открывающейся по умолчанию).

Всего записей: 575 | Зарегистр. 25-01-2006 | Отправлено: 06:05 29-07-2022 | Исправлено: amaid, 06:05 29-07-2022
bearjrgm



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
los
спасибо

Всего записей: 783 | Зарегистр. 03-07-2005 | Отправлено: 09:49 29-07-2022
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amaid
Я подумаю над данным предложением))

Всего записей: 1427 | Зарегистр. 26-07-2007 | Отправлено: 13:54 29-07-2022
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Продолжаю операцию по превращению DjVuNMEditor'a из Nano в Mega))
В версии 3.1 появилась возможность массированного редактирования аннотаций сразу на нескольких страницах - для этого задействовано контекстное меню миниатюр страниц (thumbnails)..  
Кроме того, при редактировании всех аннотаций на одной странице может возникать необходимость выделения всей площади страницы.. Для этого задействовано сочетание клавиш Ctrl+A.. Это работает только при предварительной установке на странице любого прямоугольного выделения.. Если данного предварительного выделения не будет, то сработает стандартное действие - выделение текста на всех страницах..
Также изменено поведение при удалении выделенных прямоугольным выделением экзотических аннотаций (овалы, линии, полигоны) - теперь удаляются только те аннотации, которые имеют пересечение с данным выделением (ранее могли удаляться аннотации, которые сами не попадали в выделение, но в выделение попадала прямоугольная область, описывающая эти аннотации)..
Ссылка на новую версию в шапке..

Всего записей: 1427 | Зарегистр. 26-07-2007 | Отправлено: 18:54 29-07-2022
amaid



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Я подумаю над данным предложением))

пока живая мысль течет, обдумайте, пожалуйста, еще одну фичу - массовую замену по ctrl+H, как в текстовых редакторах.
Нередко файн распознаёт текст со множеством одинаковых ошипок. Но особенно полезна массовая замена при редактировании ocr дореволюционных книг: убрать яти, сделать нормальные "и", "е" и пр., чтобы можно было искать/копировать нужный текст на современном русском. Файны делают это долго и коряво - текст смещается и слепляется.

Всего записей: 575 | Зарегистр. 25-01-2006 | Отправлено: 11:10 30-07-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amaid
пока живая мысль течет, обдумайте, пожалуйста, еще одну фичу - массовую замену по ctrl+H, как в текстовых редакторах.
 
Вообще эту мысль надо развернуть - не просто массовую замену, а даже ПАКЕТНУЮ замену из tsv/csv Unicode файла с проверкой границ слов (об этом часто забывают при замене).
 
Собрал файл типовых ошибок распознавания конкретных документов и на следующих похожих документах просто его сразу прогоняешь. и всё

Всего записей: 3670 | Зарегистр. 17-09-2001 | Отправлено: 14:04 30-07-2022
amaid



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
niccolo
а я не рискнул озвучить эту мысль, чтобы не автор не осерчал
не так много народу воспользуется, но я бы лично обработал все дорев. книги, которые делал сам и брал в сети.

Всего записей: 575 | Зарегистр. 25-01-2006 | Отправлено: 23:20 30-07-2022
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amaid
niccolo
Массовых неконтролируемых замен я делать не буду.. Кому надо как в текстовом редакторе - скрытый текст легко импортируется в текстовый файл и можно творить с ним всё что хочется, я здесь не помощник.. массовый поиск в программе есть, можно всё найти и нужное отредактировать.. мне единственное чего не хватает сейчас - так это хоткея на быстрый переход от выбранного слова на странице к его элементу в дереве, а м.б. и сразу к его редактированию.. это скорее всего сделаю, а то, что предлагается - нет.. по крайней мере не в обозримом будущем..  
В моей программке Headworder (которая так и не вышла в народ) есть автоматическая замена одних буквосочетаний на другие - связано это было с тем, что программа работает со словарями, а там зачастую ставят ударение и файн неправильно их распознаёт.. например, буквосочетаний НЙ, КЙ и т.п. в русском языке нет - в программе я делал возможность замены на НИ, КИ, а также другие пары буквосочетаний, прописанных в отдельном файле.. Если дойдут руки до экспорта Хэдвордера в НМЭдитор, то возможно что-то подобное появится, но это будет нескоро, если вообще будет..
Я сейчас в отпуске далеко от компьютера, но есть ощущение, что по возвращению подвалит много основной работы и на программу совсем не останется времени, даже на те вещи, которые у меня запланированы как первоочередные.. про второстепенные я вообще даже думать сейчас не хочу))

Всего записей: 1427 | Зарегистр. 26-07-2007 | Отправлено: 23:26 30-07-2022
amaid



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NME
извлек текст (DjvuToy), отредактировал, как его вставить обратно в файл?
DjvuOCR отказывается, DjvuToy не умеет, есть другая утилита?
 
Добавлено:
или вы предлагаете редактировать в таком виде?
(word 1427 4390 1993 4566 "\320\244\320\270\321\210\320\265\321\200\321\212.\n")

Всего записей: 575 | Зарегистр. 25-01-2006 | Отправлено: 23:28 03-08-2022 | Исправлено: amaid, 23:29 03-08-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
В моей программке Headworder (которая так и не вышла в народ) есть автоматическая замена одних буквосочетаний на другие - связано это было с тем, что программа работает со словарями, а там зачастую ставят ударение и файн неправильно их распознаёт.. например, буквосочетаний НЙ, КЙ и т.п. в русском языке нет - в программе я делал возможность замены на НИ, КИ, а также другие пары буквосочетаний, прописанных в отдельном файле..

 
У файна много таких косяков
 
пый вместо ный, слов с пый раз-два и обчёлся  (...лапый, глупый...)
ыю вместо ьно
сочетания 4-5 согласных подряд и т.п.
С ударениями частая проблема о/б...., которая между двух согласных в русском встречается нечасто - обычно между звонких на стыке корня и приставки......
 
В принципе - если бы в Абби думали головой - уже давно бы добавили функцию настраиваемой постобработки текста (сюда же и табуляторы в экспорте можно отнести) и формат словарей открыли бы, чтобы пользователи могли пополнять не слишком богатые словари Абби, и кольцевой пакетный поиск/замену сделали...  
 
Поэтому тут в других темах народ и ищет способы автоматизации работы с распознанным текстом.
В принципе сейчас в Emeditor появилась возможность фильтров из файлов и пакетной замены из TSV. Так что можно сказать что для голого текста проблема эта хоть так, но решена.А вот с другими форматами проблемы, хотя функция эта больше нужна именно для более корректного поиска в распознаваемых книгах.....
 

Всего записей: 3670 | Зарегистр. 17-09-2001 | Отправлено: 23:50 03-08-2022
amaid



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Для пакетной замены в массивах текстовых файлов пользую старую добрую программку Словогрыз с максимально простыми и гибкими масками. Старорусский текст превращается в новорусский одним кликом. Сделал такой макрос и для ворда. Но в случае с djvu всё это бесполезно из-за невозможности внедрить текст.

Всего записей: 575 | Зарегистр. 25-01-2006 | Отправлено: 07:50 04-08-2022
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
DjvuOCR отказывается, DjvuToy не умеет, есть другая утилита?

Утилита djvused с опцией -u  
ей можно извлечь текст, отредактировать/заменить в любимом редакторе текста и записать с помощью ее же текстовой слой обратно.

Всего записей: 883 | Зарегистр. 14-12-2005 | Отправлено: 08:29 04-08-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
вот только координаты уедут. несильно, но это  иногда бесит.

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 09:44 04-08-2022
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Каким образом координаты  word уедут?  Они останутся такими же как и были.  Поменяется только текст внутри блока word.

Всего записей: 883 | Зарегистр. 14-12-2005 | Отправлено: 11:03 04-08-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235
при выделении. Сходу не соображу, как пример показать. Суть: выделяешь-то по графическому изображению, а копируется ocr-слой. Иногда расхождение очень даже в глаза бросается. На переносах это точно заметно.

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 11:13 04-08-2022
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Выделяются ведь прямоугольники с координатами word (а они не меняются),  независимо от того что внутри, одно слово или полное собрание сочинений Пушкина. И визуально никак не определить, что скопируется в буфер. Вот если сделать вставку из буфера в текстовой редактор, только тогда становится понятно.

Всего записей: 883 | Зарегистр. 14-12-2005 | Отправлено: 11:38 04-08-2022
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
amaid

Цитата:
извлек текст (DjvuToy), отредактировал, как его вставить обратно в файл?
DjvuOCR отказывается, DjvuToy не умеет, есть другая утилита?

DjvuToy умеет извлекать и внедрять текст с помощью кнопок Export XML \ Import XML на вкладке Hidden Text.. Вот только и DjvuToy, и djvused окончание зон свои ставят, поэтому, если текст с параграфами, то для исправления окончаний зон кратч нужно задействовать..
Несовпадение графики и текста в djvu-книгах наблюдается у любителей 8ки вследствие невозможности отключения улучшалок в ней.. TurnTheText исправляет ситуацию, в некоторых случаях DjVu Text Mover нужно задействовать.. Либо фр11-15 + кратч или нмэдитор..
 

Всего записей: 1427 | Зарегистр. 26-07-2007 | Отправлено: 11:59 04-08-2022
amaid



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NME
спасибо! действительно, просто я не разобрался поначалу в этой вкладке Hidden Text
в случае со старорежимным русским файн 15 дает лучший результат, чем файн 8, так что TurnTheText не требуется
 
TelecomUral
координаты вроде пока никуда не едут, по графике выделяется слово целиком, даже если в нем отсутствует, скажем, ять
 
Добавлено:
переносы пока не менял, но тут без кратча по-любому не обойтись

Всего записей: 575 | Зарегистр. 25-01-2006 | Отправлено: 12:20 04-08-2022
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

Компьютерный форум Ru.Board » Компьютеры » Программы » Утилиты для DjVu: DjVuNMEditor, FR11 DTL Crutch и др.


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru