Формат DjVu и программы для работы с ним - [27] :: Программы :: Компьютерный форум Ru.Board
Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Формат DjVu и программы для работы с ним

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

Открыть новую тему     Написать ответ в эту тему

73



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору


Формат DjVu и программы для работы с ним


Программы для печати (виртуальные принтеры в djvu):
Caminova DjVu Virtual Printer 6.5
Two Pilots DjVu Printer Pilot (freeware)
Распечатка в djvu под Suse Linux через Kprinter
Программы для просмотра и редактирования:
Саminova Document Express with DjVu - пакет приложений для создания и просмотра файлов в формате DjVu. Включает DjVu Plugin, DjVu Editor (Pro) и виртуальный принтер. Document Express Еnterprise - для пакетной обработки файлов.
Текущий официальный сайт: Cuminas & Старый офсайт & Бывший владелец
LizardTech DocumentExpress Enterprise 5.1.0.946
Качать по линку с японского сайта http://www.lizardtech.co.jp/download/djvu/modules/windows/enterprise/5.1/
DocumentExpressEnterprise_5.1.0.zip
(201 метр, пароль на архив: enteval). В дистрибутив входят плагин для браузера, виртуал-принтер, IFilter, GhostScript.
 
LizardTech DjVu Editor DocumentExpress Professional 5.0.0.16
Вариант максимум - качать по линку с японского сайта http://www.lizardtech.co.jp/download/djvu/modules/windows/editor/5.0/ProfessionalEditor.zip (55 метров, пароль на архив: editoreval). Ни плагин, ни виртуал-принтер в этот дистрибутив не входят.
 
Если надо, для русификации Эдитора положите файл DjVuEditorRes_0419.dll от Arcand (берем здесь: http://clubrus.kulichki.com/rus/d/Document%20Express%20Editor%205.0.0.16%20.zip <-Качать даунлоадером!) в папку \Program Files\LizardTech\Lizardtech Document Express Editor 5.0\bin.  
По ссылкам на японский сайт LizardTech идет переадресация на японский же филиал Celartem; ссылки на обе версии DocumentExpress с японских серверов не работают.
 
Вариант минимум - неинсталлируемый рип без Iris-OCR и help, русифицированный Arcand, берем здесь (около 2 метров, bmp->rar).
http://www.djvu-soft.narod.ru/DocExpress50016.rar
 
Если нужно только смотреть дежавю, то плагин к браузеру устанавливается без проблем с англоязычного сайта: http://www.lizardtech.com/download/dl_download.php?detail=doc_djvu_plugin&platform=win  
(иногда на сайте плагин обновляется с запаздыванием, последняя доступная версия 6.0.1, Released: 11.2005, Size: 900 Kb to 7.4 Mb)
Если надо, для русификации положите файл djvu0419.dll от Arcand (берем здесь: http://abab.front.ru/LizardTech_DjVu_Browser_Plug-in_6.0.1_rus.zip <-Качать даунлоадером!) в папку с плагином (\Program Files\LizardTech\Lizardtech DjVu Control\).

 
LizardTech DocumentExpress Pro 4.0.1.235 (30 MB) есть здесь: http://arhiv.org.ru/frikzona/programs/djvu/DocExpressPro4.0.exe RuIPs only. Включает в себя плагин и виртуал-принтер.  
 
Русский 4.1.0.333 без справки, слайд-шоу и распознавания, не требующий инсталляции, есть здесь (2.4 MB): http://hamradio.online.ru/ftp3/dw.php?DjVuEditor_Pro.zip
К нему еще бывают запускалки, брать здесь, bmp->rar.
 
Document Express Editor 6.0.1.1394
Document Express Editor 6.5.0.22420
LizardTech Virtual Printer Pro 4.1.7.1394 из Document Express with DjVu Professional Edition 6.0.1.1394 -- виртуальный принтер для создания DjVu-файлов из любого приложения имеющего функцию печати. Скачать. Serial от Document Express with DjVu Professional Edition 6.0 здесь [?].
PDF2DJVU 5.1 - конвертер из PDF в DjVu.   Читать обязательно! [?]
DjVuToy -- очень полезная DjVu утилита, включающая в себя DjVuMaker, Merger, Splitter, Bookmarker и т.д.
Сайт автора Jian Ma (китайский) - наиболее интересные софты: ComicEnhancer Pro, DjVuToy, FreePic2Pdf, PdgCntEditor, TiffToy Скачать
Для конвертирования DjVu в PDF служит связка из последних версий DjVuToy + PDG Cnt Editor - неплохие результаты, выходной файл pdf сравнительно небольшого размера. Новое место хранения дистрибутивов [?]
DjVuLibre -- open source реализация DjVu, включающая программу просмотра DjView, плагин для броузеров и утилиты.
WinDjView -- программа для просмотра DjVu-файлов на основе библиотек DjVu Libre.  
Обсуждение здесь [?], автор Андрей Жежерун (AndyZ)
Evince -- программа для просмотра файлов, в т.ч. DjVu. Часть проекта Gnome. Доступна под Windows.
Обсуждение здесь [?].
WinDjView c Sub Pixel Rendering  (Заметно улучшает отображение текста. Только для LCD мониторов) added by AciN
DjVuOCR -- программа для добавление текстового слоя в djvu-книги с помощью программы распознавания текста ABBYY FineReader версий 7-9.
Тема в Программах [?]
ScanKromsator -- программа для нарезки страниц и обработки отсканированных изображений, изготовления PDF и DjVu.
Тема в Программах [?]
ScanTailor -- программа для нарезки страниц и обработки отсканированных изображений.
Тема в Программах [?]
DjVu Small -- компактная программа для создания DjVu-файлов (Версия 0.4.4).  
DjVu Small Mod -- программа для создания и декодирования DjVu-файлов. Обсуждение здесь [?]
Sumatra Тема в Программах [?] - бесплатная программа для просмотра разных типов файлов с открытым исходным кодом, в том числе и DjVu. Может использоваться как отдельно, так и плагином, например, к Total Commander.  
pdf2djvu -- польская (от Jakub Wilk) программа для конвертирования PDF-файлов. Проект на гитхабе переведён в read-only с ноября 2022г. анонсирован OCR и поддержка конвертирования аннотаций/гиперссылок.
 • Скрипт правки съехавших гиперссылок [?] -- на Python и DjvuLibre  (Ссылка на ЯД).
 
Инструкции по сборке, для новичков [?]
 
Прочее [?]
 
Примечание
Топик был создан из варезного с аналогичным названием, поскольку там сплошной офтоп. Шапка скопирована с зачисткой всех варезных аспектов, которые остались в Варезнике. Здесь можно обсуждать любые темы DjVu, кроме варезных.  Для сканирования, обработки и всего прочего есть топик в eBookz [?] и не только.

Всего записей: 1397 | Зарегистр. 18-08-2012 | Отправлено: 15:33 01-11-2022 | Исправлено: TelecomUral, 09:55 08-05-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
потому что никак. это комбайн под перевод в джву корпоративных доков. во всяком случае я никогда там гуевого редактора не находил.

Всего записей: 3514 | Зарегистр. 15-07-2010 | Отправлено: 15:43 24-01-2025
Hifexar

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
потому что никак. это комбайн под перевод в джву корпоративных доков. во всяком случае я никогда там гуевого редактора не находил.  

 
Всё! Поставил 6.5 на 7ке заработало. Удаляет страницы норм.
 
Дома на 11й не знаю, будет ли работать.

Всего записей: 31 | Зарегистр. 22-07-2004 | Отправлено: 15:58 24-01-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Скачал книгу. А книга оказалась архивом. Внутри архива 643 отдельных небольших djvu-файла - типа 1 файл на страницу. С помощью DjVuToy собрал всё в один djvu-файл на 642 страницы. После сборки DjVuToy написал:  
00__0001.djvu     is an index file, can't merge it
Если запустить этот 00__0001.djvu в каталоге с остальными 642 djvu-файлами, то как будто открыл цельный djvu-файл на 642 страницы.
Если запустить отдельно, то, естественно, ничего не отображается.
Вопросы: что это за индексный файл, как посмотреть его структуру, как он получен, какая программа его сделала, зачем всё это если можно сразу собрать в один файл?
В архиве этот индексный файл, обложка и первая страница книги.
 
NME
Спасибо!

Всего записей: 967 | Зарегистр. 04-11-2019 | Отправлено: 20:05 27-02-2025 | Исправлено: jourmager, 20:42 27-02-2025
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager
все ответы есть в спецификации..

Цитата:
3.2.2 Indirect multi-page documents  
There are problems inherent to storing multiple pages in a single file. A viewer may not  
be able to utilize a byte-serving mechanism such that that available in HTTP1.1.  
Therefore any request for any page of such a file will necessarily result in the entire  
document being transmitted. Furthermore, a reasonable work pattern is to read the first  
few pages (perhaps a Table of Contents) and then navigate to a page much further into  
the document. However, in such a file, data for page 100 can not be viewed until after  
data for pages 1-99 have been downloaded.  
Indirect multipage documents address these problems. Such a document is composed of  
several files. The main file is named the index file. You can view document using the  
URL of the index file, just like you do with a bundled multi-page document. However, the  
index file is very small. It simply contains the document directory and the URLs of  
secondary files containing the page data. When you view an indirect multi-page  
document, the viewer only needs to download the files corresponding to the pages you  
are viewing.  
 

 
Добавлено:
а делать такие файлы могут и djvutoy, и утилитки из djvulibre..

----------
DjVu Utils

Всего записей: 1534 | Зарегистр. 26-07-2007 | Отправлено: 20:19 27-02-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
утилитки

вроде одна, djvmcvt.

Всего записей: 3514 | Зарегистр. 15-07-2010 | Отправлено: 07:48 01-03-2025
Jammee



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Каким образом DjvuToy при конвертации Djvu => Pdf сохраняет малый размер файла?
 
Есть бинаризированные страницы Tif, собираю их в PDF_1 с помощью Pdf-XChange, сжатие Jbig2. Размер, как и полагается, большой (20 МБ).  
Делаю Djvu в DjvuSmallMod (10 МБ), в Toy конвертирую в PDF_2 – размер остается 10 МБ. Смотрю в Xchange на размер изображений, некоторые весят 5 КБ вместо 50. Если их перепаковать в тот же Jbig2, размер увеличивается до 50 КБ (как в PDF_1). Само изображение никак не меняется, разницы в пикселях не нашел.
 
PDF_1 использует какой-то словарь, аналогичный Djvu? Что происходит?

Всего записей: 16 | Зарегистр. 27-05-2012 | Отправлено: 15:50 17-03-2025 | Исправлено: Jammee, 15:52 17-03-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Jammee say:
Цитата:
некоторые весят 5 КБ вместо 50.

В этом варианте используются межстраничные (обычно 10 страниц) словари. В другом варианте кодирование без межстраничных словарей.

Всего записей: 879 | Зарегистр. 18-05-2023 | Отправлено: 15:54 17-03-2025
esys

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
обычно 10 страниц

Я в настройках 2000 ставлю, размер прилично от этого снижается.

Всего записей: 562 | Зарегистр. 22-06-2016 | Отправлено: 19:04 17-03-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Jammee
Что происходит?

я несколько лет назад подсказал автору djvutoy чтобы он переносил словари из джву в пдф один в один. То есть не кодировал картинки заново, а перерисовывал их, используя готовый словарь и расположение блитов, описанное в дежавюшке.
Говорят, джву-словари намного технологичнее, чем словари jbig2, но на практике я проблем с этим не встречал пока.

Всего записей: 3514 | Зарегистр. 15-07-2010 | Отправлено: 21:05 17-03-2025
Jammee



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot
то есть, при конвертации скопировались словари из Djvu? Я не знал что pdf поддерживает словари для jbig. Почему это такой секрет, что даже не используется в том же Xchange? Вернее, когда-то знал про jbig2enc, но забыл.
Что будет оптимальным вариантом для lossy jbig кодирования черно-белых сканов в Pdf? Jbig2enc неплохо справляется. Я бы еще сделал скрипт для имитации pages-per-dict и последующей склейки, заодно больше одного ядра будет использоваться, а также и раздельное кодирование для илюстраций можно реализовать.
 
А если сжимать уже существующий Pdf, какие варианты софта? OCRmypdf вроде как может "оптимизировать" с --jbig2-lossy.  
 
TelecomUral
Спасибо, я так и подумал, ведь замен символов не было, все перенеслось до пикселя.  
Тогда какие отличия pdf/djvu, если в оба могут быть такого же размера при ~одинаковом качестве?
 
esys, слишком большой размер словаря делает рендеринг медленным даже на пк, и тем более на электронной книге. Я больше 50 редко ставлю.

Всего записей: 16 | Зарегистр. 27-05-2012 | Отправлено: 21:25 17-03-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Jammee
Тогда какие отличия pdf/djvu

их очень много. pdf-стандарт очень развесистый. дежавю проще на порядки, и по технологиям и по возможностям для пользователя. Но отсюда же быстрота рендеринга дежавю-страниц.
Я давно сделал выбор в пользу дежавю, потому что базу для запоминания информации что джву что пдф дают одинаковую. оцр-слой, гиперссылки, метаданные, оглавление, малоцветка/jpeg2000 - все одинаково или почти одинаково.
Но при этом я постоянно помню, что реально крутую книгу, с мультимедиа и электронными наворотами в дежавю сделать не удастся. Допустим, прописать на странице одновременно арабский оцр-слой в одном абзаце и европейский в сноске, да еще чтобы все скопипастилось корректно - увы. А в пдф пожалуйста. Свой объект, свои условия рендеринга, свой шрифт и языковые настройки.

Всего записей: 3514 | Зарегистр. 15-07-2010 | Отправлено: 21:45 17-03-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Jammee say:
Цитата:
Jbig2enc неплохо справляется.

Может и неплохо, но точно не хорошо. Почему нехорошо? Да потому что классификатор leptonica, который использует jbig2enc, просто-напросто плохой. И есть даже целый рецепт обхода этого плохого классификатора и использования классификатора minidjvu при кодировке в jbig2enc.
 
 PS: Рецепт предусматривает кодирование в jbig2enc 0.30, у которого верхнее значение порога символьного классификатора увеличено с 0.90 до 0.97.

Всего записей: 879 | Зарегистр. 18-05-2023 | Отправлено: 22:21 17-03-2025 | Исправлено: zvezdochiot, 11:32 18-03-2025
Jammee



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Оцените мой метод создания Djvu, предложите улучшения. Делаю всегда раздельным методом и собираю в DjvuSmallMod.
1. ScanTailor Advanced. Поля и выравнивание делаю так. Если исходник – фотографии с разным размером страниц, то беру STEX, но это только пару раз понадобилось.  
При выводе делаю апскейл в 1.25-1.5 раза, хотя бы до 4500px высоты, если исходник низкого разрешения.  
Бинаризация почти всегда методом EdgeDiv, window=15-20, coef=65-75, превосходно работает. На старые djvu с жирнющими буквами смотреть не могу.
Вывод иллюстраций раздельный. Автоматическая разметка ~нормально работает, но всегда надо проверять и поправлять.  
 
2. Пост обработка иллюстраций (или всех исходных изображений еще до работы в ST).
Lightroom – убрать сильный оттенок, полный спектр корекций. На исходниках можно легко исправить предсказуемые искажения (очень удобно если у всех одинаковая перспектива). FastStone Imageviewer – простая коррекция (контраст, гамма, резкость). В IrfanView тоже есть пакетный обработчик, даже с большим функционалом, но в FS удобнее интерфейс и есть предспросмотр результата обработки.  
 
3. Сборка в DjvuSmallMod.
После вывода ST текст находится в папке foreground, иллюстрации – в папке background. Переименовываю последние в 0001_bg.tif, перемещаю все в одну папку и закидаваю в DSM. Сегментация ручная, настройки такие.  
Профиль Bitonal, 600dpi, то есть без дополнительных апскейлов. Из настроек текста: сжатие Lossy, 25-50 страниц на словарь. Фон: target subsample = 1, bg subsample = 2-3 (в 2-3 раза понижаю разрешение), quality 45-70, зависит от типа, количества и исходного разрешения.
 
Оптимальный ли такой рецепт? Автоматическая сегментация не интересует, сжатие текста приветствуется.
 
Создавать Djvu можно и в Кромсаторе, там есть превью закодированных страниц (полезно для оценки приемлимой потери качества иллюстраций), но Кромсатор работает в ОДИН поток, то есть в 1/12 моего процессора. Это очень плачевно, так как ST и DSM загружают проц полностью.
DSM можно было бы заменить скриптом, тем более что единственные настройки, которые я меняю – это вышеописинные сжатие картинок и размер словаря. Хотя и вручную запустить и две кнопки нажать много времени не занимает.

Всего записей: 16 | Зарегистр. 27-05-2012 | Отправлено: 21:53 19-03-2025
esys

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
25-50 страниц на словарь

Почему не больше или меньше? Я 2000 ставлю для большего сжатия.

Цитата:
собираю в DjvuSmallMod

Это лучше чем в DjVu Imager?

Всего записей: 562 | Зарегистр. 22-06-2016 | Отправлено: 22:34 19-03-2025
Jammee



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Меньше уже некуда, а если слишком много, то рендеринг страниц замедляется. Максимального сжатия я не добиваюсь, но до 100-150 поднять можно.
 

Цитата:
лучше чем в DjVu Imager?

это, по крайней мере, возможно. Да и настройки удобные.

Всего записей: 16 | Зарегистр. 27-05-2012 | Отправлено: 23:44 19-03-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Jammee
Оптимальный ли такой рецепт?

от исходного материала зависит: что вы сделаете с такими примерами?
https://disk.yandex.ru/i/BMMRqcLE5V9q3A
https://disk.yandex.ru/i/71skDa-NQEH_Hg
понятно, что в графредакторе можно вывести многое. Но CLA сделать для DSM это геморрой.

Всего записей: 3514 | Зарегистр. 15-07-2010 | Отправлено: 05:38 20-03-2025
esys

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Jammee
У меня другой вид DjVu Imager.
 
Добавлено:
Где посмотреть как в DjvuSmallMod метод раздельных сканов (вклейки картинок) делается?

Всего записей: 562 | Зарегистр. 22-06-2016 | Отправлено: 07:14 20-03-2025
Jammee



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys
на Windows7 imager нормально выглядит, но у меня 10 и программа не справляется с масштабированием.
DSM настраиваете так: кнопка фильтра => https://ibb.co/S74vpwRx
Тогда файлы *_bg.tif распознаются как картинки и в списке файлов возле них меняется иконка.
Options => Segmenter => https://ibb.co/xKhp3dBs
Options => Background => https://ibb.co/5hpFJ57y
Bg Subsample - в сколько раз понижать разрешение для картинок.

Всего записей: 16 | Зарегистр. 27-05-2012 | Отправлено: 11:11 20-03-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Jammee say:
Цитата:
почти всегда методом EdgeDiv, window=15-20, coef=65-75

История создания и тестирования префильтра EdgeDiv к порогу Оцу. Данное комбо (EdgeDiv+Otsu) для конечного пользователя представляется в виде отдельного порога EdgeDiv без вдавания в подробности.
 

Всего записей: 879 | Зарегистр. 18-05-2023 | Отправлено: 13:33 20-03-2025
esys

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Jammee
Правильно я понял: в DSM за один раз конвертится ч/б и тоновые картинки способом вклейки? Или вклейка происходит в готовый ч/б джвю-файл?

Всего записей: 562 | Зарегистр. 22-06-2016 | Отправлено: 14:17 20-03-2025
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

Компьютерный форум Ru.Board » Компьютеры » Программы » Формат DjVu и программы для работы с ним


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru