Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
TelecomUral

Цитата:
при такой простой задаче я бы вообще определил и вбил размеры вручную.

Т.е. предлагаете просмотреть 300+ сканов и добросовестно записывать все увеличения размера (по ширине и длине)? Это развлечение для мазохистов
У меня сохранились какие-то смутные воспоминания о сортировке по возрастанию, м.б. это что-то другое?
А за "average size галку снять" спасибо.

Всего записей: 6972 | Зарегистр. 14-01-2005 | Отправлено: 14:50 13-03-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg
да, сортируете thumbs.

Всего записей: 3059 | Зарегистр. 15-07-2010 | Отправлено: 15:14 13-03-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
TelecomUral

Цитата:
сортируете thumbs

Если показать второе удалось, то отсортировать его это бином Ньютона

Всего записей: 6972 | Зарегистр. 14-01-2005 | Отправлено: 16:26 13-03-2023
MrLAG

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
если на одной pdf-странице несколько слоев (например, ч/б скан 600dpi) и зоны 300dpi, то экспорт из pdf в tif сольет все слои в один (пусть 600dpi), тем самым изменив цветность скана, а для зон еще и выполнив апсэмплинг (а оно вам надо?)

 
Согласен, удобно использовать в этом случае СК. И у меня как раз много таких случаев. Но в целом я и так на глаз вижу, какое было разрешение. Чаще всего у меня исходник книга ч/б 300 dpi c картинками 150 dpi. В ск потом просто обратно понижаю разрешение зон. На глаз серьёзной разницы качества не уловил. Во всяком случае мне было не так критично. Но в следующий раз попробую импорт в СК. Ибо так конечно удобнее. Если всё определится  правильно, то дальше только останется книжку сжать.  
 
Но я бы очень попросил добавить возможность сохранять импортированные СК страницы не во временную папку СК, а в папку с исходным pdf файлом. А то батники уже прописаны, да и файлы под обработку лежат на SSD.  
 
---
 
Попробовал. В исходном PDF картинки на вид явно 150 dpi, но  СК определяет их разрешение как 300dpi, т.е. апсэмпл им уже кто-то до меня сделал. Но самое потивное, что нижний слой - ч/б картинка содержит тот же рисунок, но ч/б. Если сразу делать djvu, не почистив страницу (т.е., например, прогнать файлы через СК и сделать clear image under zone), то ч/б рисунок при сжатии вылезает вперёд поверх цветного (это как-то лечится?). Ну и я не совем понял как отредактировать зоны, кроме как открыв сами файлы в новом окне СК. В общем в этом конкретном случае проще получается сначала получить объединённые слои экспортом в акробате, а потом самому расставить зоны.  
 

Всего записей: 70 | Зарегистр. 19-11-2008 | Отправлено: 16:55 13-03-2023 | Исправлено: MrLAG, 22:20 13-03-2023
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg
в whatsnew когда-то писал про reports, статистику по размерам страниц после обработки

Всего записей: 4442 | Зарегистр. 09-09-2002 | Отправлено: 18:08 13-03-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
bolega
Информация к размышлению:
Нашел у себя девственный СК версии 5.96.2, девственный в том плане, что в опциях не прописана ни одна программа. Попробовал запустить на проблемном скане и получить дежавю, но СК потребовал DjVuLibre. Прописал путь к djvumake.exe, который прописан в версии 6.71, и снова попытался сделать дежавю. На этот раз СК запросил параметр DEE. Прописал тот же путь, что и у 6.71, после чего в версии 5.96.2 был создан нормальный дежавю, в то время как на том же скане 6.71 благополучно вылетел.
К сожалению в полном логе версии 5.96.2 нет строчки DEE command line, которая передается в модуль DEE, но другого объяснения этому различию нет, как в разнице передаваемой строчки DEE command line.
Пробовал в 6.71 менять профили, отключив все свойства на шаге 2, но результат все равно был отрицательный.
 
P.S. Вылет на проблемном скане начался уже на версии 6.00.0

Всего записей: 6972 | Зарегистр. 14-01-2005 | Отправлено: 01:32 14-03-2023 | Исправлено: shch_vg, 01:47 14-03-2023
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg
Посмотрел все-таки код 5.96.2, в нем перед вызовом DEE из-за бага все файлы независимо от формата конвертировались в стандартный тиф. Потом я баг исправил, но теперь выяснилось, что тифы тоже надо конвертировать, если у них специфическое сжатие.
Так что причина действительно в СК. Это тот редкий случай, когда баг шел на пользу.

Всего записей: 4442 | Зарегистр. 09-09-2002 | Отправлено: 09:02 14-03-2023 | Исправлено: bolega, 09:03 14-03-2023
MrLAG

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg, bolega я как раз это заметил, но добавил исправление в своё старое сообщение - надо было наверное написать отдельно, что разгадка найдена. Действительно оказался удобный баг. Всем спасибо, за помощь с поиском разгадки!  
 
Я обратил внимание на появление deskew зон. По описанию "Если на странице имеется одна или более таких зон,   то СК будет определять угол перекоса страницы только исходя из содержимого указанных зон."  
 
Это очень удобно, когда картинка мешает или какой-то хитрый рисунок.  
 
Но бывает другой случай - последнее время часто попадалось - весь текст идёт ровно, а какой-то из абзацев сверху или снизу совсем под другим наклоном. Обычно я такие поворачиваю после обработки в VR (rotate selected area). Но когда страниц 500+ то исправлять прямо скажем надоедает. Может быть имеет смысл добавить к deskew зонам настройку, чтобы либо она работала как указано сейчас, либо автоматически разворачивался кусок текста? Я,  правда уже сразу вижу проблему: при развороте отдельного куска текста он может наехать на другой текст и это надо как-то отдельно отлавливать. В общем так к размышлению.

Всего записей: 70 | Зарегистр. 19-11-2008 | Отправлено: 16:20 14-03-2023
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
К сожалению у меня нет алгоритма определения базовой линии. Фича конечно полезная, но увы.  


Цитата:
Единственный надежный метод - использовать глифы, для которых вручную задана БЛ. Алгоритм мне в целом понятен. Осталось найти время все это реализовать.
 

 
Сижу, обложившись шрифтовыми каталогами, и пялюсь в них, как баран на новые ворота
часто образцы даны вот так:
   
 
мне кажется, что тут для бинаризованной страницы можно и автоматически разобрать на связные черные области, назначив их глифами, и перед этим базовую линию автоматически всем буквам сразу приписать, вычислив её по строке.
 
Что касается вычисления, то мне кажется, что эта картинка (рис №11 отсюда) как раз  об этом:
 
 

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 02:05 18-03-2023 | Исправлено: daa2013, 07:37 18-03-2023
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я вас умоляю, не надо тащить сюда умные статьи из журналов. То, что там описывают, на практике выливается в тысячи строк кода, месяцы исследований, обломов на большинстве реальных сканов и т.п. Говоря об алгоритмах, я имел ввиду готовый проверенный код, а не теоретические выкладки, между которыми и работающим кодом может быть в реальности целая пропасть. Да и нужно быть хорошим математиком, чтобы превратить абстракции, из которых как правило состоят статьи, в реальный код.
Журнальные алгоритмы, если и работают, то на каком-нибудь простом или частном случае. Если бы было так все просто (нашел статейку, закодировал, вуаля), то в мире были бы уже сотни и тысячи OCR-программ и программ по обработке изображений. Но увы, хорошо работающие сложные алгоритмы либо коммерческая тайна, либо в патентах.

Всего записей: 4442 | Зарегистр. 09-09-2002 | Отправлено: 11:25 18-03-2023 | Исправлено: bolega, 11:35 18-03-2023
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ну, хорошо. Руками линию задать/вставить для всех букв разбираемой на глифы образцовой строки. А вставить по букве "н".
 

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 16:32 18-03-2023 | Исправлено: daa2013, 16:32 18-03-2023
MrLAG

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Коллеги, посоветуйте, как лучше подходить к таким вот книгам: https://disk.yandex.ru/d/dRhDuLBUdjxqUA (пример 1 стр.)
 
Есть сжатый в цветах серого djvu (исходников нет), с достаточно чётким выделением текста и минимальными потерями в фон на картинках. Можно извлечь маску при помощи DjvuOCR и фактически готова ч/б книга. Но приходится просматривать страницы по одной и если что добавлять потерявшиеся в фоне элементы. Приходилось инога повозиться.
 
Другой вариант, извлечь страницы в цвете, а потом перевести в ч/б в СК. Новый алгоритм AutoW очень неплохо справляется. Но кое-где на картинках тёмные пятна превращаются в чёрный цвет, вместо того, чтобы отсеятся.  
 
Вероятно внимательной без проверки страниц всё равно не обойтись.

Всего записей: 70 | Зарегистр. 19-11-2008 | Отправлено: 20:59 19-03-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Коллеги, посоветуйте, как лучше подходить к таким вот книгам

искать бумажный оригинал и пересканировать заново. Трудозатраты на порядки меньше.

Всего записей: 3059 | Зарегистр. 15-07-2010 | Отправлено: 21:15 19-03-2023
MrLAG

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
 
Ну нет, всё не настолько запущено. У меня на очистку этой конкретно книги ушло максимум час. Там весь текст нормально в foreground слое лежит. Трудозатраты на поиски бумажного оригинала будут побольше.  Попадаются такие книги с разрешением 600dpi и вполне приличным текстом. После очистки книга вообще нормально смотрится.  
 
Безусловно, бывают и такие варианты, когда проще выкинуть.  
 

Всего записей: 70 | Зарегистр. 19-11-2008 | Отправлено: 00:47 20-03-2023 | Исправлено: MrLAG, 00:56 20-03-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
MrLAG

Цитата:
Вероятно внимательной без проверки страниц всё равно не обойтись.

Непонятно, что вы под этим понимаете, но за 17 лет работы в СК проверку страниц приходится проходить несколько раз всегда.
Опять же не знаю ваши критерии приличного текста, но, используя СК+СТ (для выравнивания строк), можно получить примерно такое.

Всего записей: 6972 | Зарегистр. 14-01-2005 | Отправлено: 01:07 20-03-2023 | Исправлено: shch_vg, 01:08 20-03-2023
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
MrLAG

Цитата:
Другой вариант, извлечь страницы в цвете, а потом перевести в ч/б в СК. Новый алгоритм AutoW очень неплохо справляется. Но кое-где на картинках тёмные пятна превращаются в чёрный цвет, вместо того, чтобы отсеятся.  

Ну так на таких сканах надо включать в СК опцию correct illumination, method=safe. Тогда и AutoW не понадобится

Всего записей: 4442 | Зарегистр. 09-09-2002 | Отправлено: 11:25 20-03-2023 | Исправлено: bolega, 11:48 20-03-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
bolega

Цитата:
Ну так на таких сканах надо включать в СК опцию correct illumination, method=safe.

А чем хуже Background cleaner?

Всего записей: 6972 | Зарегистр. 14-01-2005 | Отправлено: 13:20 20-03-2023
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А чем хуже Background cleaner?

Если есть ч/б иллюстрации или очень большие заглавные буквы, содержащие протяженные черные области, BC может их высветлить изнутри, safe CI - нет. В остальном очень похожи

Всего записей: 4442 | Зарегистр. 09-09-2002 | Отправлено: 14:52 20-03-2023 | Исправлено: bolega, 14:53 20-03-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
bolega

Цитата:
теперь выяснилось, что тифы тоже надо конвертировать, если у них специфическое сжатие.

Столкнулся с подобной проблемой при обработке исходного скана в режиме "Show source file", наблюдаемой в СК версии 6.ХХ и отсутствующей в 5.94.
Правда эффект этой проблемы обнаруживается не в СК, а в Ирфане.
Краткое ее описание.
В СК версии 6.ХХ обрабатывается в режиме "Show source file" скан, полученный из другой программы.
При правке скана и сохранения его СК продолжает нормальную работу с этим сканом.
Проблема возникает при просмотре сохраненного скана в Ирфане.
Вместо изображения скана в нем, появляется нечто, похожее на труд Малевича, только не квадратной, а прямоугольной формы, однако свойства этого невидимого скана в Ирфане просматриваются.
Вот пример такого скана.
При сравнении свойств скана до правки и после правки бросилось в глаза, что Ирфан показал в исходном скане "Original colors" = 32 BitsPerPixel, а "Current colors" = 24 BitsPerPixel, а уникальных цветов более 27 тысяч.
В файле после правки Ирфан увидел в обоих colors 96 BitsPerPixel, зато уникальный цвет 1 (один), откуда и прямоугольник имени Малевича.
М.б. стоит и сканы подобного типа включить в список "специфического сжатия", если не будет реализовываться предварительный перевод ВСЕХ сканов в нормальный вид?
 
ИМХО Вариант перевода всех сканов в нормальный вид выглядит предпочтительней в целях избежании правки программы при появлении какого-то левого файла нового типа.

Всего записей: 6972 | Зарегистр. 14-01-2005 | Отправлено: 16:44 21-03-2023 | Исправлено: shch_vg, 23:31 21-03-2023
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Добрый вечер. Вопрос возник.
 

 
В окне Result View в режиме очистки спеклов (Mouse-up-despecle mode) при выделении зоны и одновременном удерживании Ctrl+Shift белые «пятна» внутри черноты (букв и т.п.) окрашиваются черным.
У меня черным окрасились только мелкие точечки. Более крупные остались без изменений. Что нужно в опциях поменять, чтобы вся белизна внутри черноты окрашивалась черным?
Попробовал в ПКМ—Options—Закладка Despecle—Поле Specle size (fine) сильно увеличить размер, не помогло.
 
На всякий случай оставлю здесь тест-папку
Тест

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 23:52 21-03-2023
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru