Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Нет, распознанные FR ещё не публиковал.

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 18:19 01-06-2022 | Исправлено: daa2013, 18:33 01-06-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Опять я с книжками с Архива...
 
Граблю книжки, выдаваемые на час, скринами на 4К.
 
1. При чёрных полях у SK проблемы с авторасстановкой резаков... Часто захватывает чёрные полосы...
 
2. Непонятно, как вытянуть книгу потом в 600 DPI в реальный размер — программа всегда вытягивает в экранный размер....(а на таком размере SK подлагивает, книги получаются размерами со слона,  хотя распознаются почти идеально). Пытался выставлять примерно размер в пикселях (примерно в 2-2,5 раза меньше) - ерунда какая-то получается — с границами обрезанных зон на макете пустой страницы вообще какой-то треш начинается.... Лечится только перезагрузкой программы....
https://www.upload.ee/files/14197607/Video_2022-06-02_204645.wmv.html
 
Единственный пока найденный путь - обман программы подбором входного DPI.
 
Кстати TIPS and TRICKS для создателей книг — создаём чисто текстовые файлы и распознаём их в ФР 8 (именно в этой версии, в более новых версиях надо писать макрос для переименования каждого файла и подмены в подпапках)..... После вклеиваем картинки на странице, заменяем первоначальные страницы в пакете FR на новые и для сохранения в PDF перераспознаём (иначе будут ошибки), и сохраняем........ Получаем чистый текст без мусора ошибочного распознавания картинок для дальнейшей работы в в ВОРД или сохранения в PDf.....
 
3. В обработке картинок обойдён такой простой вопрос - а как лучше работать с перекошенными страницами с ортогональными картинками на них... Полагаю, без out-task c выпрямленными страницами, нормально, никак...
 
4. Выставить надпись - например название книги на 1/4 от верхнего края можно только отключением Automargin с примерным выставлением верхнего поля и переобработкой, или есть другие способы центрирования, отличные от LCR-TB.
 
5. Может кто нибудь знает способ создания OCR pdf c вклейкой цветных зон вместо их вклеивания на страницы для FR (размеры отдельных страниц получаются сопоставимыми с размерами книги)  

Всего записей: 3670 | Зарегистр. 17-09-2001 | Отправлено: 22:24 03-06-2022 | Исправлено: niccolo, 13:28 04-06-2022
VladoKV

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Who can help?
This is my picture taken with ScanKromsator. Here is problem with cleaning picture... I need someone who knows how to clean this picture very nicely.
Thanks.
https://ibb.co/W3h7J93
Here is original...
https://ibb.co/Dtc38Zv

Всего записей: 3 | Зарегистр. 14-11-2012 | Отправлено: 12:06 04-06-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
try  b/w  output
 
 

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 13:13 04-06-2022 | Исправлено: daa2013, 13:14 04-06-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Интересная картинка получается в SK последней версии при импорте вот этого файла
 
https://www.upload.ee/files/14199222/DEF05-2005.pdf.html
 
ВСЕ ФАЙЛЫ ПУСТЫЕ
 
При просмотре в папке импорта обычными смотрелками - половина файлов с текстом..
ЧЯДНТ.
 
Такое чувство, что импорт PDF - что-то такое само в себе, не сильно понятное непродвинутым пользователям.
 
Пришлось вычищать пустые фоны из папки и подгружать картинки в новый пакет.
 
В дополнение - на этой же книге - ни на одной странице с однозначным номером - 1-9 нижняя граница не была установлена верно... Как-то странно это, учитывая то, как часто боковые границы захватывают всякие точки и прочий мусор на полях.

Всего записей: 3670 | Зарегистр. 17-09-2001 | Отправлено: 13:55 04-06-2022 | Исправлено: niccolo, 14:20 04-06-2022
slava_kry

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
niccolo
Файло глюкавое.

----------
Вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом

Всего записей: 4307 | Зарегистр. 18-09-2003 | Отправлено: 16:49 04-06-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А смысл это импортировать ?  
сохраните пдф как тиффы

Всего записей: 1014 | Зарегистр. 13-06-2013 | Отправлено: 17:43 04-06-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А смысл это импортировать ?  

 
смысл у всех разный...  
 
Полагаю, в данном файле слой текста наложен поверх....
Проблема в том, что в SK постоянно какая-то ерунда с импортом многослойных ПДФ и в самой программе если и есть способы борьбы с этим, они не очевидные и даже не логически вытекающие....
 
И даже с разрешением нельзя кратно уменьшить размер выходных файлов - надо изменять входное dpi.
 
Понимаю, что мои примеры не самые распространённые. Но они реально встречаются и по опыту 99% программ сыпется на таких примерах  без предупреждения о том, что надо исправить входные файлы....

Всего записей: 3670 | Зарегистр. 17-09-2001 | Отправлено: 23:39 04-06-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
niccolo

Цитата:
Проблема в том, что в SK постоянно какая-то ерунда с импортом многослойных ПДФ

это не проблема Кромсатора, ведь bolega часто писал тут, что ему важен только импорт картинок, обычно упакованных сканов. Какой смысл закладывать в прогу все варианты применения стандарта, да ещё и ошибки отрабатывать. А вам здесь на это указывать как на косяк СК.  
 
+
Если вы заранее признаёте, что с вашим pdf проблемы, то исправьте pdf, а не шифруйте свои цели использования именно данного pdf в СК.

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 04:38 05-06-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
 
Указывать на недостатки наверное надо, тем более, что несмотря ни на что Болега всё таки внёс кое какие исправления в импорт ПДФ таких файлов и теперь количество страниц в пакете SK равняется количеству страниц в ПДФ.....
 
По сути такие файлы представляют нефинализованный результат обработки - текстовые и картиночные блоки наложены на подложку страницы..... В идеале это и хотелось бы видеть при импорте для чего Болега уже сделал много....
 
Для предотвращения ситуации, подобной приведённой, нужно либо удалить пустые подложки при или после импорта или переместить их вниз бутерброда страничных блоков, чтобы можно было создать аут-таск... Не исключаю, что подобная ситуация - это просто баг алгоритма сложения в бутерброд многоблочных страниц...
 

Цитата:
Если вы заранее признаёте, что с вашим pdf проблемы

 
ПДФ это не мой.... К сожалению с первого взгляда на любой ПДФ не скажешь, будет он проблемным или нет. Но если моё подозрение о наложении текста поверх верно - то, думаю, таких файлов в сети достаточно.

Всего записей: 3670 | Зарегистр. 17-09-2001 | Отправлено: 10:19 05-06-2022
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
niccolo
PDF-XChange Editor в помощь. Можете с его помощью скопировать текст, или изображения со всех страниц в новый документ, избавившись от контейнеров. И делать с ним что угодно в СК.

Всего записей: 326 | Зарегистр. 10-08-2018 | Отправлено: 12:26 05-06-2022
medvedik

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
niccolo
 
Некоторый оффтопик. Я давно не брал книги на archive.org, но раньше все, выдаваемое на ограниченное время, имело простой Adobe DRM, который легко снимался при помощи calibre и плугина.

Всего записей: 919 | Зарегистр. 18-11-2005 | Отправлено: 17:23 05-06-2022
slava_kry

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
niccolo
Ответ Болега
На руборде не могу писать, отвечу niccolo тут: никаких пустых страниц после импорта СК нет, просто во всех зонах (туда попал текст) включилась раскраска белым цветом (почему так, надо разбираться). Если ее убрать, все станет видно.
Есть и более простой способ для этого pdf: при его импорте в опциях импорта поставить галку на do not use zones и отключить галку на use original pdf size

----------
Вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом

Всего записей: 4307 | Зарегистр. 18-09-2003 | Отправлено: 21:01 05-06-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
niccolo, я о другом веду речь. Вы концептуально неверно подходите к Кромсатору.  
Поясняю.
Вы берёте произвольный пдф и при наличии кажущихся косяков импорта в СК заявляете что-то типа "а в данном случае надо чтобы СК сделал так-то, потому что я в других программах вижу то-то и то-то". Это порочный подход для импорта. Потому что pdf стандарт штука сложная, и на все комбинации код писать трудоёмко. Вам же сказали выше - перевели в тиффы и успокоились. А вы хотите чтобы сложноустроенный файл "был понятен непродвинутому пользователю".  
Это и есть противоречие, на которое я указываю.
Вот вам болега отвечает "там раскраска белым". А вы-то почему сначала сами не разобрались? Чего сразу "какая-то ерунда с импортом"? ВЫ сами сначала разберитесь. Вникните в логику, найдите проверочный пример, тщательно оттестируйте и убедившись что реально есть недоработка в СК, тогда уже и пишите здесь.
 
Я к чему это всё пишу: если вы будете заваливать разработчика такими непроверенными заявками, он вообще уберёт фичу импорта pdf. Был ведь уже прецедент, и не один. Глупые раздражающие вопросы - ну и "а чтоб больше не спрашивали я фичу вообще убрал". Вы всем можете "нагадить". Запросто.
 

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 21:49 05-06-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Офтоппик.
Добрый вечер. Есть ли у кого-нибудь опыт создания словаря в формате hunspell?
Хотел бы иметь такой словарь (для осетинского языка) для работы в новой версии СканКромсатора.

Всего записей: 525 | Зарегистр. 04-05-2016 | Отправлено: 01:14 06-06-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
niccolo, я о другом веду речь. Вы концептуально неверно подходите к Кромсатору.  
Поясняю.
Вы берёте произвольный пдф и при наличии кажущихся косяков импорта в СК заявляете что-то типа "а в данном случае надо чтобы СК сделал так-то, потому что я в других программах вижу то-то и то-то". Это порочный подход для импорта. Потому что pdf стандарт штука сложная, и на все комбинации код писать трудоёмко. Вам же сказали выше - перевели в тиффы и успокоились. А вы хотите чтобы сложноустроенный файл "был понятен непродвинутому пользователю".  
Это и есть противоречие, на которое я указываю.
Вот вам болега отвечает "там раскраска белым". А вы-то почему сначала сами не разобрались? Чего сразу "какая-то ерунда с импортом"? ВЫ сами сначала разберитесь. Вникните в логику, найдите проверочный пример, тщательно оттестируйте и убедившись что реально есть недоработка в СК, тогда уже и пишите здесь.
 
Я к чему это всё пишу: если вы будете заваливать разработчика такими непроверенными заявками, он вообще уберёт фичу импорта pdf. Был ведь уже прецедент, и не один. Глупые раздражающие вопросы - ну и "а чтоб больше не спрашивали я фичу вообще убрал". Вы всем можете "нагадить". Запросто.

 
TelecomUral
Поясняю....
1. С каких пор подход по аналогии с другими программами стал концептуально неверным? Интересно, если производитель авто вдруг решит поменять местами педали тормоза и газа, и в ответ на понятные претензии начнёт говорить - вы концептуально неверно подходите к нашей машине - вы не покрутите пальцем у виска?
2. Я понимаю трудоёмкость импорта - но в данном и в других случаях можно подойти немного по другому - из полученного пакета удалить пустые файлы.
3.
Цитата:
Вам же сказали выше - перевели в тиффы и успокоились.
Я когда-то писал про проблему растра при сохранении в tiff из-акробата. Если бы PDF не было вообще в опциях импорта - всё было бы понятно и единообразно. А то вроде функция импорта есть, но одни PDF берёт, а с другими заморочки...
4.
Цитата:
А вы-то почему сначала сами не разобрались?
 С очевидным? А что с ним разбираться. Если разбираться, то с причинами.
5.
Цитата:
Вы всем можете "нагадить"
. Понял. Постараюсь больше не задавать вопросы.

Всего записей: 3670 | Зарегистр. 17-09-2001 | Отправлено: 10:35 06-06-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
niccolo

Цитата:
Постараюсь больше не задавать вопросы.

Раньше большое количество репортов о багах, реальных и кажущихся, меня действительно сильно расстраивало. Сейчас я уже к этому спокойно отношусь. Так что вопросы лучше озвучивать.  
При этом надо понимать, что структура pdf бывает так сложа, что для нее просто нет аналога в концепции СК. У СК простая концепция: страница-подложка (как правило ч/б), сверху зоны. В pdf все намного сложнее, и иногда ее невозможно воспроизвести адекватно в СК. Т.е. страницу pdf проще нарисовать (на экран, в tif-файл), чем сэмулировать подложкой и зонами. Из-за разных подходов в pdf и СК. Простой пример: FR сохраняет чб скан в pdf. Казалось бы, берем тиф, кодируем в jbig2, задаем размер полотна страницы (в размер тифа) и располагаем тиф на нем. На самом деле FR делает по другому (и не только он): задается полотно,  задается черный цвет фона, тиф внутри pdf-страницы накладывается на фон как трафарет, где прозрачные области соответствуют буквам и сквозь них как бы проглядывает тот самый черный цвет фона. Если бы СК в лоб импортировал такой файл, то пришлось бы поступать так же, т.е. делать абсолютно черную страницу-подложку, а поверх помещать текст как прозрачную зону. Но СК понимает, что для такого отображения существует более адекватный, привычный способ, при котором можно обойтись без черных подложек и прозрачности. Внутри pdf бывают намного сложнее комбинации слоев, с которыми СК уже может адекватно не совладать.
В вашем случае СК абсолютно корректно извлек изображения, но ошибся с раскраской текста: покрасил его в белый цвет, и он как бы исчез. Я посмотрел из-за чего это произошло. Не скажу, что pdf некорректный, все там корректно, просто сделан не совсем логично. Перед помещением скрытого ocr-текста там зачем-то выставляется белый цвет текста и после работы с текстом обратно в черный он не восстанавливается. В этом нет ошибки, но это просто дурной тон так делать (специально проверил как делает FR для цветного текста: перед работой с текстом активирует заданный цвет, а после - возвращает дефолтный, т.е. черный). СК не-черный цвет  трактует как указание раскрасить картинку. Хотя здесь СК явно ошибся, сделав это для картинки, которая не объявлена как трафарет. Просто за все время мне такого ранее не встречалось, обычно генераторы pdf корректно оперируют с цветом, возвращая его всегда в дефолт. Постараюсь это учесть. Так что польза от вашего примера несомненно есть.
 

Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 11:09 06-06-2022 | Исправлено: bolega, 11:12 06-06-2022
niccolo

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Так что польза от вашего примера несомненно есть.

 
Спасибо bolega. Я как-то тоже надеялся, что что-то полезное да будет. И хотелось бы понять - а что за поведение на предпросмотре обрезки - когда рамка обрезанного белая и уменьшая её под ней видишь текст. И как от него избавиться без перезагрузки. Второй раз ловлю.
 
medvedik

Цитата:
 Я давно не брал книги на archive.org, но раньше все, выдаваемое на ограниченное время, имело простой Adobe DRM, который легко снимался при помощи calibre и плугина.

 
Занятые книги, выдаются на час и только просмотреть онлайн.... Я как-то попытался ждать одну такую книгу, пока освободится, но не дождался....

Всего записей: 3670 | Зарегистр. 17-09-2001 | Отправлено: 11:28 06-06-2022 | Исправлено: niccolo, 13:47 06-06-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega а можно ли в СК сделать функцию поиска слов? Раз уж есть подключенный из Файнридера текстовый слой и в самом ФР редактировать распознанный текст категорически не рекомендуется, то было бы здорово дополнить СК поиском букв, слов, фраз.

Всего записей: 525 | Зарегистр. 04-05-2016 | Отправлено: 14:06 06-06-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku
поддерживаю. перед выходными пришла в голову эта же мысль.

Всего записей: 3011 | Зарегистр. 15-07-2010 | Отправлено: 14:10 06-06-2022
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru