Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)

Модерирует : gyra, Maz

Maz (10-01-2024 10:45): Scan Tailor (часть 3)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы

   

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части: Часть 1
Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ncraun) >>>  последняя версия
Scan Tailor Experimental (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода


Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:17 17-02-2010 | Исправлено: Maz, 10:43 10-01-2024
are



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
а кто будет дорабатывать minidjvu?
 
и почему он аккуратнее? (т.е. я видел когда-то явные ошибки в cjb2 -lossy, но minidjvu по-моему мало тестировался вообще)
 
далее, конечно не надо делать белую зону - надо заливать не белым, а локально доминирующим цветом фона.

Всего записей: 552 | Зарегистр. 06-03-2005 | Отправлено: 17:20 09-04-2010
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
are
 

Цитата:
и почему он аккуратнее?

 
Дело в том, что код, отвечающий за сжатие с потерями в djvulibre/cjb2, был предоставлен Ильей Межировым и взят не из какого иного места, как из старой версии minidjvu Так что minidjvu уже потому аккуратнее, что прошел с тех пор некоторый путь развития. В частности, значительная "работа над ошибками" была проделана мною при подготовке к последнему релизу.
 
Кроме того, в minidjvu есть алгоритм усреднения образцов, который, по моему опыту, существенно улучшает внешний вид знаков, т. к. позволяет сгладить случайные неровности.

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 18:09 09-04-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Говоря о недостаточной оптимизации в плане быстродействия minidjvu я имел в виду следующее: кодирование 240 чб страниц в режиме lossless, 20 стр/словарь, 600dpi -  
minidjvu 0.8 - 35мин, использование памяти 250 Мб
Djvu Small 0.4.2 (documenttodjvu) - 30сек, использование памяти 11 Мб.
anagnost96
как Вы считаете, есть ли возможность уменьшить этот гиганский разрыв между опенсорс и коммерческим jb2-кодировщиками (ведь в плане кодирования iw44 все более-менее приемлемо)?

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 19:33 09-04-2010 | Исправлено: StanFreeWare, 19:35 09-04-2010
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
Считаете ли Вы целесообразным введение дополнительной галки "Не выравнивать освещение в зонах" и для смешанного режима?

Зачем лишняя галка? Можно попробовать просто учитывать растр на этапе выравнивания освещения. Детектор растра в ST  есть, только, как я понимаю, сейчас он используется после выравнивания освещения.  
are

Цитата:
преимущество такое: на выходе программы будет не директория с большим количеством тиффов, а один готовый к просмотру джвю файл.

Я наоборот считаю, что набор тифов, как есть сейчас лучше, чем один djvu. Tiff - это уже фактически стандарт для изображений. Кодирование djvu это достаточно ресурсоемкая операция. Кроме того, не очень хорошо навязывание какого-то одного  формата для выходного файла. Может быть человеку pdf или многостраничный tiff понадобится, а не djvu, или хочется немного дообработать выходные файлы во внешнем редакторе.  
Лично меня устроил бы  пункт в меню Файл/экспорт/djvu(pdf).  
are

Цитата:
и почему он аккуратнее? (т.е. я видел когда-то явные ошибки в cjb2 -lossy, но minidjvu по-моему мало тестировался вообще)
 

Как я понимаю, основная цель у автора minidjvu при написании программы была  избежать ошибок замены символов. Поэтому у него и ниже скорость кодирования, из-за большей "аккуратности". Кстати, не советую кодировать в minidjvu с опциями -e и -l - буквы становятся слегка ступенчатыми.

Всего записей: 884 | Зарегистр. 14-12-2005 | Отправлено: 07:09 10-04-2010
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235
 

Цитата:
Как я понимаю, основная цель у автора minidjvu при написании программы была  избежать ошибок замены символов.  

 
Цель была сделать хоть какой-нибудь алгоритм сжатия с потерями, поскольку свободных аналогов на тот момент не было вообще. Собственно, их нет и сейчас, поскольку, как я уже сказал, соответствующий код в djvulibre заимствован из старой версии minidjvu.
 

Цитата:
Поэтому у него и ниже скорость кодирования, из-за большей "аккуратности".

 
Дело не в аккуратности, а в поддержке разделенных словарей. Если от них отказаться (сжимать файлы по одному), скорость кодирования возрастет на порядок.  
 
StanFreeWare
 
Разница в скорости по сравнению с коммерческим кодировщиком имеется (хотя я не уверен, что она столь значительна), но как с ней бороться, я по вышеуказанной причине не знаю. Естественно, что при обработке нескольких страниц приходится держать в памяти все символы с каждой из них, да еще и несколько раз пройтись по всему списку в процессе выявления однотипных. Есть какие-то идеи, как можно этот процесс оптимизировать?
 
 

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 10:41 10-04-2010
are



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
да, думаю что будет тяжело увеличить скорость работы minidjvu в разы. Коммерческие алгоритмы для многостраничных словарей чуть ли не запатентованы. Но во всяком случае, думаю, что надо планировать возможность того, что тифф-файлы после scantailor будут обрабатываться дальше уже без участия человека для перевода в какой-либо другой формат.  
 
 Следовательно, необходимо лишь поместить эти тифф файлы в надёжный контейнер, из которого потом легко будет извлечь изображения страниц без каких-либо искажений и полностью автоматически. Вариантов три: lossless djvu, PDF, или просто архив zip.  
 
Очевидно, что кодирование цветных страниц в djvu сопряжено с проблемами (оно не совсем lossless, т.к. происходит сегментация). zip архив нельзя сразу просматривать. Поэтому PDF кажется наиболее оптимальным вариантом как контейнер.
 
 Перевод тиффов в пдф - операция несложная, не требующая кодирования, и сводящаяся лишь к копированию тифф-streams и заворачиванию их в какой-нибудь примитивно организованный пдф. Единственное, что нетривиально - указать правильные размеры страниц в пдф, чтобы получалось правильное разрешение, а то будут проблемы потом. Но это не слишком сложно, т.к. на выходе всегда все тиффы одинакового размера.

Всего записей: 552 | Зарегистр. 06-03-2005 | Отправлено: 13:13 10-04-2010 | Исправлено: are, 13:16 10-04-2010
VladEMO

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
anagnost96
 

Цитата:
Естественно, что при обработке нескольких страниц приходится держать в памяти все символы с каждой из них, да еще и несколько раз пройтись по всему списку в процессе выявления однотипных.

 
Первое что пришло в голову это создать алгоритм вычисления хешей похожести символов и хранить в памяти их, будет требоваться дополнительное процессорное время на их вычисление, но сравниваться они будут быстрее. Кроме того вычисление все один раз производится, а сравнений много как я понял, в этом случае можно вообще пренебречь временем затраченным на вычисления. Плюс меньшие затраты по памяти. Другой вопрос где взять алгоритм, возможно стоит посмотреть в сторону алгоритма поиска дупликатов фото.
 
Еще вариант более приземленный, хранить уменьшенные копии образцов, строить списки похожих, подгружать по-очереди и сравнивать в полном объеме. Если сравнение меньших изображений будет быстрее протекать, то некоторое увеличение будет и по памяти меньше затраты. Его недостаток в том, что по сути это костыль и выше описанный метод будет работать еще быстрее и меньше затрат по памяти.

Всего записей: 2 | Зарегистр. 28-01-2010 | Отправлено: 13:26 10-04-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235

Цитата:
Зачем лишняя галка? Можно попробовать просто учитывать растр на этапе выравнивания освещения. Детектор растра в ST  есть, только, как я понимаю, сейчас он используется после выравнивания освещения.  

Потому что он наровит тень в области корешка принять за картинку.

----------
Вопрос: как насчет вот такой фичи для ST?
Ответ: не сейчас, когда - не знаю, и стоит ли вообще?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 15:04 10-04-2010
are



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
 
по поводу экспорта в пдф. Нашёл, что экспорт любого количества тиффов в корректный пдф (сжатие lzw) происходит так: (стандартная библиотека libtiff)
 
tiffcp *.tiff result.tif
tiff2pdf -z result.tif -o result.pdf
 
и всё.

Всего записей: 552 | Зарегистр. 06-03-2005 | Отправлено: 21:23 10-04-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
По поводу технологии создания малоцветных книг из проекта СТ, пройденного в режимах mixed и color.  
Цветной текст бинаризуется, а раскрашивается уже потом, цвет берется из папки вывода color.  
 
Получил первый результат.  
 
Пока что привожу к чистым цветам по простой пороговой формуле
Есть намерение вставить эту логику в Separator.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 22:05 10-04-2010 | Исправлено: StanFreeWare, 22:06 10-04-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
are

Цитата:
архитектуру я понимаю так:  
- на входе - пачка тиффов
- во время обработки на всех этапах, кроме последнего, с этими тиффами ничего не делается, т.е. не производится никаких промежуточных тиффов,  а происходит только предварительная обработка (детектирование зон и т.д.) и запоминание всех операций, которые надо будет потом с этими тиффами проделывать. Генерируются на диске только временные thumbnails для показа в правой полосе.  В центральном окне каждый раз генерируется некая временная картинка, которая никуда не идёт и забывается при переходе на следующую страницу. (поэтому и некоторая задержка при листании - каждый раз считывается тифф файл, декодируется и т.д.)
- и только на последнем шаге наконец проделываются с каждым тиффом все запомненные операции (все шаги с первого до последнего) и пишется выходной файл в out/  

Именно так все и есть.
 
Добавлено:
StanFreeWare

Цитата:
По поводу технологии создания малоцветных книг из проекта СТ, пройденного в режимах mixed и color.  
Цветной текст бинаризуется, а раскрашивается уже потом, цвет берется из папки вывода color.  
 
Получил первый результат.  

Выглядит впечатляюще.  Правда если сделать зум на обычные черные буквы, то можно заметить у них на границе цветные пиксели.  Кстати чем кодировали в DJVU?

----------
Вопрос: как насчет вот такой фичи для ST?
Ответ: не сейчас, когда - не знаю, и стоит ли вообще?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 22:29 10-04-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Правда если сделать зум на обычные черные буквы, то можно заметить у них на границе цветные пиксели.  Кстати чем кодировали в DJVU?

Видимо, слабовато условие по 10 градациям яркости. Слишком простая формула. Буду думать дальше.
 
Кодировал в FSD 1.2 (именно данную книгу, обычно используемая связка Small + Imager для малоцвета не подходит).  
 
Кстати, так и не понял, какова лицензионная чистота его jb2-кодека, в том числе и с позиции упоминания утилиты в wiki к ST.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 01:00 11-04-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Убрал из логики определение зеленого и синего цвета. Поднял порог до 30. И, самое главное - убрал ветку, закрашивающую белым цветом - это абсолютно недопустимо.
Второй (и, видимо, окончательный) результат
Мусор не чистил сознательно, чтобы не удалить тонкие штрихи. По той же причине не бинаризовал часть каллиграфического текста.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 07:17 11-04-2010 | Исправлено: StanFreeWare, 10:22 11-04-2010
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
 
На с. 131 черно-красные буквы почему-то ушли в фон.

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 11:39 11-04-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
anagnost96
Это сделано специально, как и на с.130. Там очень тонкие линии, которые при бинаризации исчезают. Поэтому вывел как фотозону.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 12:24 11-04-2010 | Исправлено: StanFreeWare, 12:25 11-04-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В версии 0.9.8 обнаружился баг, из-за которого аггрессивность деспеклинга зависит от полуслучайных факторов.  Баг исправлен, из-за чего аггрессивность в среднем понизилась. Просьба потестировать новую сборку на тему следующих вопросов:
1. Найдутся ли такие страницы, где средний веник уладяет лишнего?
2. Найдутся ли такие страницы, где малый веник бесполезен - не удаляет почти ничего, в то время как большой веник работает хорошо?
 
Новая сборка: http://www.onlinedisk.ru/file/404023/
 
 
Добавлено:
anagnost96
Я так понимаю вы один из разработчиков minidjvu?  Если так, то хотелось бы поднять вопрос о перелицензировании его под GPL2+.  Сейчас он под GPL2 only, а ST - под GPL3+, то есть лицензии несовместимы.  С djvulibre проблем не будет, если вы с ней линкуетесь или заимствуете код, так как ее какое-то время назад уже перелицензировали под GPL2+.

----------
Вопрос: как насчет вот такой фичи для ST?
Ответ: не сейчас, когда - не знаю, и стоит ли вообще?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 18:10 11-04-2010
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
 
Я не то что бы разработчик: просто приложил определенные усилия к тому, чтобы полнее реализовать потенциал проекта и заодно адаптировать его к моим собственным нуждам В результате этого появилась версия 0.8.
 
Я так понимаю, проблема с лицензией только в том, что автор изначально поленился загнать уведомление о копирайте в болванку всех исходных файлов. В результате единственным упоминанием о лицензии в дереве проекта оказался файл COPYING, содержащий GPL2. Пееделывать это теперь, пожалуй, будет довольно долго и скучно. Достаточно ли просто положить в корень еще и файл COPYRIGHT, в котором будет написано, что, дескать, this software is subject to, and may be distributed under, the GNU General Public License, either Version 2 of the license, or (at your option) any later version?

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 19:33 11-04-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
anagnost96

Цитата:
Я так понимаю, проблема с лицензией только в том, что автор изначально поленился загнать уведомление о копирайте в болванку всех исходных файлов. В результате единственным упоминанием о лицензии в дереве проекта оказался файл COPYING, содержащий GPL2. Пееделывать это теперь, пожалуй, будет довольно долго и скучно. Достаточно ли просто положить в корень еще и файл COPYRIGHT, в котором будет написано, что, дескать, this software is subject to, and may be distributed under, the GNU General Public License, either Version 2 of the license, or (at your option) any later version?

Основная проблема не в том, что менять каждый файл сложно, а в том, что менять лицензию можно только с разрешения владельца копирайта (всех владельцев - если их несколько).  Например в архиве исходников djvulibre лежит PDF email'а от LizardTech, в котором они разрешают поменять лицензию с GPL2 only на GPL2 or above.
И прописать лицензию и авторство в каждом файле - дело тоже весьма желательное.

----------
Вопрос: как насчет вот такой фичи для ST?
Ответ: не сейчас, когда - не знаю, и стоит ли вообще?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 21:13 11-04-2010
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
 
Ну так авторов всего двое: Илья Межиров и отчасти я. Кроме того, кое-какой код заимствован из djvulibre, но с ним, как я понял, проблем нет.

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 21:32 11-04-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
anagnost96
Хорошо.  Давайте тогда совместными усилиями урегулируем этот вопрос.  Чтобы не грузить вас с Ильей, я сам сделаю необходимые изменения в исходниках и потом вышлю вам diff.
От вас мне понадобится следующая информация:
1. Какие из файлов содержат код от djvulibre?
2. Какие из файлов содержат ваш код?  В крайнем случае я могу это и сам узнать, просмотрев логи SVN для каждого из файлов.
3. Строчки копирайта вашего и Ильи, что-то типа:
Copyright (C) 2005-2010  John Smith <john.smith@gmail.com>
Даты можно не писать - их обычно пишут если человек на совсем отошел от проекта.
 
Кроме того надо будет получить согласие от Ильи.  Идеальный вариант - ветка на форуме (списка рассылки я так понимаю у вас нет), в которой он и вы отпишитесь о своем согласии поменять лицензию на GPL2+.  Потом один из вас закоммитит изменения.
 
Так все будет по правилам.  А иначе получается даже, что вы сами нарушаете лицензию GPL, используя код от djvulibre без упомянания о его происхождении.
 
Добавлено:
Еще одна (решаемая) проблема будет в случае, если вы взяли код из djvulibre до того, как они сменили лицензию на GPL2+.  В этом случае придется этот код обновить.  Это я тоже могу взять на себя.

----------
Вопрос: как насчет вот такой фичи для ST?
Ответ: не сейчас, когда - не знаю, и стоит ли вообще?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 23:31 11-04-2010
   

Страницы

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)
Maz (10-01-2024 10:45): Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru