Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Активные темы » Scan Tailor (часть 2)

Модерирует : gyra, Maz

Maz (10-01-2024 10:45): Scan Tailor (часть 3)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части: Часть 1
Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ncraun) >>>  последняя версия
Scan Tailor Experimental (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода


Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:17 17-02-2010 | Исправлено: Maz, 10:43 10-01-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Для jpeg специальные тулзы есть:
  • jpeg-quantsmooth
  • libjpegqs
    Сначала их надобно применять, а уж после ST.

  • Применил
    Слева вверху - оригинал jpg 300 dpi HQ 8-bit DeviceGrey
    Справа вверху - оригинал после тулзов
    Слева внизу - оригинал после бинаризации в ScanTailor Advanced Otsu 0 (т.е. всё по умолчанию)
    Справа внизу - после тулзов после бинаризации
     
    Итого имеем:
    Оригинал - артефакты есть, но при чтении они незаметны, вполне читабельно, но большой размер - 800 кбайт на страницу.
    После чистки от артефактов тулзами - артефакты резко сократились по площади и количеству, но размер jpg вырос в 4 раза - с 790 килобайт до 3,1 мегабайт, обработка (почти) никак не повлияла на качество бинаризации. Я пока не вижу практического смысла в применении этих тулзов.
    После бинаризации размер tiff 600 dpi - 170 кбайт, если tiff сконвертировать в jb2 600dpi получим 112 килобайт.
    Пробовал Topaz (очень долго, чёткость повісилась, но криво), FineReader OCR text+image с подстановкой почти родных векторных шрифтов (файл вышел 9 (девять) килобайт), ещё что-то, завтра может сделаю в Adobe Clear Scan.  
    Рутина.
     
     

    Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 00:16 08-12-2023
    indifirent

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    jourmager
    Попробуйте g'mic. Там стопитсот шумодавов и примерно столько же шарперов.
    Из личного опыта, я такие артефакты давил Smooth Bilateral. Впрочем, вас ничего не удерживает от применения других.
    Простите что в этой теме.

    Всего записей: 176 | Зарегистр. 02-06-2018 | Отправлено: 00:27 08-12-2023
    VSHY

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    jourmager
    Цитата:
    P.P.P.S. Я вот думаю, писать [Feature Request] на гитхабы Advanced, Experimental, Deviant, или это только клавиши попусту тыцкать?
    Думаю, что если есть возможность, то писать надо! А там, глядишь, у кого-то и руки дойдут. А если в одном форке будет сделано, то перетянуть решение в другой будет легче.

    Всего записей: 1092 | Зарегистр. 19-05-2008 | Отправлено: 04:11 08-12-2023
    zvezdochiot



    Full Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    jourmager say:

    Цитата:
    оригинал jpg 300 dpi

    Ещё можно после jpegqs применить:
  • stbiscalenx - для поднятия dpi до 600. Основана на pixel-art-овском scale2x, но заменена концепция тождества на похожесть пикселей.
  • stbidespeckle - простенький despeckle.
  • knnimdenoiser - простенький, но щадящий шумодав для png.
     
    Ну и конечно же порог EdgeDiv с малыми окнами (10-50) и высокими коэффициентами (0.75-0.99) в ST для такого сырья просто необходим.

  • Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 07:16 08-12-2023 | Исправлено: zvezdochiot, 07:34 08-12-2023
    Archivist

    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    jourmager

    Цитата:
    Появился у меня pdf. Весом 555 МБ. Внутри 800 чёрно-белых страниц jpg 8-bit 300 dpi <...> Но jpg с кучей артефактов

    Что вы там давите, зачем? Для бинаризации ч/б страниц артефакты не имеют значения. Если цель остаться в четком grayscale 300dpi, достаточно пакетно применить уровни в Photoshop, или его аналогах.

    Всего записей: 332 | Зарегистр. 10-08-2018 | Отправлено: 11:40 08-12-2023
    jourmager

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Сорри за лонгрид.
    Archivist

    Цитата:
    Что вы там давите, зачем?

    ?
    Я ничего не давлю.
    Артефакты в jpg я упомянул, чтобы объяснить ситуацию, но похоже её только запутал.  
    Сейчас в меня шрифтовики будут кидать камнями.
    Шрифт (гарнитура) Школьная, которым набрана эта бумажная книга, имеет свои особенности в виде тяжёлых жирных массивных больших засечек. Подозреваю, что так было сделано в 60-х для технологического упрощения и удешевления многомиллионных тиражей учебников. Это более-менее нормально смотрится при размере шрифта 12 пунктов. Но при размере 10 пунктов начинается искажение пропорций - засечки надо оставлять массивными, а линейные размеры самого символа уменьшать. В результате имеем то, что видим. При размере 10 пунктов засечки слишком близко расположены друг от друга. Потом растеризация (сканирование) в 300 dpi и получаем ухудшение ситуации - засечки ещё ближе друг к другу. А потом кодирование в jpg и jpg-артефакты сцепляют засечки между собой ещё сильнее. Так что подавление jpeg-артефактов в данном конкретном случае бесполезно - из-за особенностей шрифта артефакты превратились в связки между засечками символов.
    А ещё ситуация усугубляют светлые пятна на штрихах символов, которые после манипуляций могут превратиться в белые дырки.

    Цитата:
    Для бинаризации ч/б страниц артефакты не имеют значения

    Ну да. я это и показал на сравнительном скрине в предыдущем посте.
    Применительно к этой теме: получается так, что фильтры подавления jpeg-артефактов в ScanTailor не имеют смысла.
     

    Цитата:
    Если цель остаться в четком grayscale 300dpi

    Цель была - уменьшить размер с 500 МБ до хотя бы 50 МБ при сохранении читабельности лично для меня. Я не собирался выставлять эту книгу на всеобщее обозрение. Я сегодня нашёл варианты этой книги на Л-гене в Adobe Clear Scan размером 29 МБ, и djvu 10 МБ, похоже, сделанный из Clear Scan (!?).
     
    Пост был написан для того, чтобы показать проблемы ScanTailor на конкретном примере (юзер кейсе). Потому что очень часто, когда пишешь о проблеме, люди или не понимают, или хотят конкретного примера.

    Цитата:
    достаточно пакетно применить уровни в Photoshop, или его аналогах

    Применить можно, если знать как и для чего.
    Вот скриншот оригинала в Photoshop, вот скриншот после двиганья тремя ползунками без понимания куда смотреть и чем после этого двигать. Вот скриншот FineReader OCR Editor - Image Editor - Levels
    А пакетное применение это классно, но развивать эту тему сейчас не буду.
     
    Если я убираю перемычки между засечками, то начинают появляться (увеличиваться) серые проплешины на штрихах символов. Победить это (и многое другое) простыми фотошопными методами, рассчитанными на фотографии, а не на текст - наверное можно, но... ЕМНИП существуют алгоритмы, рассчитанные на закрашивание дырок в штрихах символов, и я даже догадываюсь в каких программах... Но я их никогда не применял на практике. Вот такой фильтр действительно был бы полезен в ScanTailor (если его там ещё нет).
     
    Применительно к данной теме: и в Photoshop и в FineReader движение ползунков происходит в реалтайме, естественно без скидывания масштаба. Отличие между ними в том, что применение изменения в FineReader происходит моментально, но с подёргиванием экрана, а в Photoshop выполняется после отпускания кнопки мыши на ползунке, но без подёргиваний. Данные особенности, вероятно, могут зависить от моей графической подсистемы и от конкретных настроек программ. В Photoshop ещё где-то пипетки есть, но с ходу не вспомнил.
    ИМХО что-то аналогичное хотелось бы видеть в Scan Teilor.
     
    И ещё один нюанс. Конечно, можно двинуть ползунки так, чтобы утончить буквы и убрать перемычки. В результате получить не оригинальный шрифт, а фиг знает что.

    Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 14:29 08-12-2023 | Исправлено: jourmager, 14:32 08-12-2023
    Archivist

    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    Применить можно, если знать как и для чего.
    Вот скриншот оригинала в Photoshop, вот скриншот после двиганья тремя ползунками без понимания куда смотреть и чем после этого двигать.

    Там все просто (хоть и не очевидно). Нужно зажать Alt и тащить белый ползунок влево, пока область не очистится от шума. Артефакты ушли, фон идеально белый. Затем подтянуть черный ползунок вправо, слегка не доводя до подножия "горки". Средний ползунок может понадобиться при наличии в книге серых картинок.

    Всего записей: 332 | Зарегистр. 10-08-2018 | Отправлено: 14:55 08-12-2023
    indifirent

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    zvezdochiot
    Ещё можно после jpegqs применить: <...>

    Зачем бегать по гитхабу если всё это, и не только, давно есть в gmic? Спасибо конечно за два денойзера в STEX'е но они там для каких целей, что именно ими денойзить? Или добавление этих модулей идёт по принципу "попался мне скан с такой проблемой, решил этим инструментом, дай думаю добавлю его в СТ"? Это крайне порочный путь для Тейлора.
    По поводу внешнего вида шрифта вообще  и погрызенных букв в частности. На память сходу приходит как минимум три фильтра с кучей настроек, что бы максимально улучшить внешний вид букв и не слизать засечки. (Мы всё ещё про gmic говорим).
    Добавить gmic в новый СТ дело полезное, в отличии от добавления кучи фильтров в сам STEX. Там и так места не ахти.

    Всего записей: 176 | Зарегистр. 02-06-2018 | Отправлено: 16:26 08-12-2023 | Исправлено: indifirent, 16:32 08-12-2023
    TelecomUral

    Silver Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    jourmager
    А потом кодирование в jpg и jpg-артефакты сцепляют засечки между собой ещё сильнее.

    это как же сжимать надо. на 50% ничего не слипается:
    https://disk.yandex.ru/d/J8WGgL7t2xoPQA
    чуть понизил порог и всё.

    Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 19:01 08-12-2023
    zvezdochiot



    Full Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    indifirent say:

    Цитата:
    давно есть в gmic?

    Так вот конкретно этих фитч в gmic нету. Есть похожие? Да не очень и похожие, да и вообще не те. Как минимум никакого аналога stbiscalenx в gmic и близко нет. Такие вот дела.
     

    Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 19:33 08-12-2023
    indifirent

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    zvezdochiot
    Есть похожие? Да не очень и похожие, да и вообще не те.

    Да ... похожие. Один медианный фильтр в одном графическом редакторе и в другом, названия и "шкуры" разные а вот итог работы один и тот же, а так да ... похожие)

    Цитата:
    Как минимум никакого аналога stbiscalenx в gmic и близко нет.

    Цитата: "stbiscalenx <...> Основана на pixel-art-овском scale2x" Теперь смотрим сюда.
    Насчёт других:
    stbidespeckle – https://discuss.pixls.us/t/remove-scratches-with-despeckle/30586
    knnimdenoiser – https://discuss.pixls.us/t/machine-learning-library-in-gmic/25746
    А вы точно знакомы с gmic?
     
    ПС. Чуть не забыл. Так а для каких проблемных сканов нужны эти два замечательных денойзера в STEX? Фон они не размывают или размывают, повышая при этом контраст букв? Может сглаживают покусанные буквы или залатывают в них белые "дыры"? Для каких целей эти два фильтра необходимы?

    Всего записей: 176 | Зарегистр. 02-06-2018 | Отправлено: 20:22 08-12-2023 | Исправлено: indifirent, 20:37 08-12-2023
    zvezdochiot



    Full Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    indifirent say:

    Цитата:
    медианный фильтр


    Цитата:
    Теперь смотрим сюда.

    Всё мимо. Ты хоть бы попробовал для приличия, чтоле.
    А то "не читал, но осуждаю" во всей красе.
     
    PS: "Основана на pixel-art-овском scale2x"" - несложно догадаться, что здесь есть подвох. Зачем нужен ещё один фильтр, ежели уже есть действующий и проверенный? Может область применения "слегка" иная?

    Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 20:44 08-12-2023 | Исправлено: zvezdochiot, 20:56 08-12-2023
    indifirent

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    zvezdochiot
    Всё мимо.

    "Мимо" – в твоей голове.  

    Цитата:
    Ты хоть бы попробовал для приличия, чтоле.

    Попробовал что, открыть gmic и в группе Repair выбрать Upscale [Scale2x]?

    Цитата:
    Может область применения "слегка" иная?

    Може хватит строить из себя загадочную гимназистку и не кокетничать в приличном обществе?
    А то так и останешся фриком который за каким то чёртом запихнул в СТ пару фильтров которые некому нафиг и не нужны. Равно как и 100500 трешхлодеров.




    Нарушение п. 2.12. главы VIII Соглашения по использованию

    Всего записей: 176 | Зарегистр. 02-06-2018 | Отправлено: 21:03 08-12-2023 | Исправлено: Maz, 21:08 08-12-2023
    zvezdochiot



    Full Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    indifirent say:

    Цитата:
    выбрать Upscale [Scale2x]?  

    А "это" случайно не только для малоцветки?
     

    Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 21:15 08-12-2023
    indifirent

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    zvezdochiot
    Ага, то есть уже никто не спорит о том есть ли в gmic Scale2x?

    Всего записей: 176 | Зарегистр. 02-06-2018 | Отправлено: 21:47 08-12-2023 | Исправлено: indifirent, 21:50 08-12-2023
    zvezdochiot



    Full Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    indifirent say:

    Цитата:
    уже никто не спорит

    Спорю. Ещё как спорю. Что именно непонятно в моём вопросе?
     

    Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 21:51 08-12-2023
    jourmager

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    Archivist


    Цитата:
    Там все просто (хоть и не очевидно). Нужно зажать Alt и тащить белый ползунок влево, пока область не очистится от шума. Артефакты ушли, фон идеально белый. Затем подтянуть черный ползунок вправо, слегка не доводя до подножия "горки". Средний ползунок может понадобиться при наличии в книге серых картинок.

    Ну вот. Идеальная инструкция в 3 строки. Спасибо.
     
    Отличие "Уровней", Levels, которые в Photoshop вызываются также по Ctrl+L с пипетками и в отдельном окошке, ещё и в том, что это стандартная функция, имеющиеся во многих графических программах. И найти кучу обучающих текстовых и видео-материалов очень легко.
    В отличие от специфических специализированных прибамбасов.
     
    TelecomUral

    Цитата:
    это как же сжимать надо

    А я откуда знаю? Размер файла соответствует High Quality, а на самом деле имеет качество 60, т.е. Medium. Как смыкаются засечки видно на предыдущем скриншоте, а на этом скриншоте в масштабе 1600% сверху ваш "стандарт", снизу кусок из "моей" книги. Хорошо видно, что при тех же 300 dpi пиксели между засечками на "моей" книге имеют более тёмный окрас.  
    Это буквы "и" "й" "п" если кто не понял.
    Почему так получилось - вопросы не ко мне, а к сканировщику, обработчику, издательству и Ярославскому полиграфкомбинату.

    Цитата:
    на 50% ничего не слипается. чуть понизил порог и всё.

    Угу.  
    Ваш tiff внизу, я тоже так могу, но мне так не надо. Мне надо как вверху.  
    И если в page to width вы не видите всех огрехов бинаризации "на 50% ничего не слипается. чуть понизил порог", то я вижу.

    Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 22:15 08-12-2023 | Исправлено: jourmager, 22:40 08-12-2023
    indifirent

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    zvezdochiot
    Что именно непонятно в моём вопросе?

    Непонятно как можно было утверждать отсутствие "аналога stbiscalenx в gmic" а потом внезапно перескочить на малоцвет.

    Всего записей: 176 | Зарегистр. 02-06-2018 | Отправлено: 22:26 08-12-2023 | Исправлено: indifirent, 22:28 08-12-2023
    zvezdochiot



    Full Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    indifirent say:

    Цитата:
    Непонятно

    1. Ну так примени свой scale2x к jpeg-у. Без предварительного порога и еже. С нуля. Вперёд.
    2. Потому и нет ответа, так как это совершенно разные денойсеры, а один и вовсе не денойсер и не медиан. А один (Wiener) и вовсе не мой, а был уже в STEX от Tulon-а.
     
    Ну и где же ваша "правда" ежели всё ложь?

    Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 22:33 08-12-2023
    indifirent

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    Ну и где же ваша "правда" ежели всё ложь?

    А что это вас так гражданин колбасит? И зачем мне надо применять "свой scale2x к jpeg-у"?
    Изначально про малоцвет и про jpeg не говорил не ты не я. Ты утверждал что "Как минимум никакого аналога stbiscalenx в gmic и близко нет." это оказалось мягко говоря неправдой, теперь ты обвиняешь меня в какой то лжи.

    Цитата:
    так как это совершенно разные денойсеры, а один и вовсе не денойсер

    Так там два или один денойзер? Потому что ранее ты говорил такое: "Wiener Denoiser - он грубый. У него и мат. описание примитивнее некуда <...> KNN Denoiser изначально был заявлен как быстрый, малотребовательный".

    Всего записей: 176 | Зарегистр. 02-06-2018 | Отправлено: 23:04 08-12-2023 | Исправлено: indifirent, 23:04 08-12-2023
       

    Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

    Компьютерный форум Ru.Board » Компьютеры » Программы » Активные темы » Scan Tailor (часть 2)
    Maz (10-01-2024 10:45): Scan Tailor (часть 3)


    Реклама на форуме Ru.Board.

    Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
    Modified by Ru.B0ard
    © Ru.B0ard 2000-2024

    BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

    Рейтинг.ru