Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
е могли бы Вы просто указать ссылку, чтобы можно было почитать как такие книги скачивать и тому подобное.
 

где-то внутри ветки  "Электронные книги: сканирование, обработка, сборка",
ищите в режиме "Версия для печати"

Всего записей: 1017 | Зарегистр. 13-06-2013 | Отправлено: 19:10 18-04-2023
SVK2I

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg

Цитата:
но точно знаю, что при включении всех 6 ядер (мой вариант) процесс обработки сканов идет заметно быстрее...

Провел повторное тестирование СК 6.9 на ядра. Лично я при проверке работы одного или 2-х ядер, запускал секундомер, а также диспетчер задач, отлично показывающий загрузку всех имеющихся ядер. Я проводил тестирование на цветной книге про грибы, изобилующей картинками с выделенными picture zones. Предыдущее тестирование было ошибочным потому, что оказывается, чтобы реально происходило переключение количества ядер, следует после каждого переключения производить перезагрузку программы, тогда переключение вступает в силу. Я этого прошлый раз не делал, потому и получил ложный результат. Сегодня результат таков: на одном ядре – время процесса 3 мин. 41 сек.; на двух ядрах – 2 мин. 1 сек., загружаются одинаково оба ядра на все 100. Качество результата одинаково отличное, никакие зоны не съезжают! Нравится опция thining!

Всего записей: 92 | Зарегистр. 16-04-2023 | Отправлено: 19:28 18-04-2023 | Исправлено: SVK2I, 19:37 18-04-2023
SVK2I

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Я с интересом ознакомился с Вашим примером по ссылке https://disk.yandex.ru/d/6sHsHNBu3A6R5T
И вот что забавно. В описании Вы рекомендуете, что исходит их общих принципов, выставлять DPI выходного файла 600. Вместе с тем, в настройках Вашего задания выбран DPI «Twice greater», что означает «Вдвое больше». Поясните, пожалуйста, почему фактически Вы выбрали именно эту опцию? Может быть, ее и надо выбирать во всех случаях, тогда при любом разрешении входного файла, на выходе получится файл с двойным разрешением, что и будет отвечать принципам работы программы на получение лучшего качества выходных файлов?
При работе с примером использовал СК 6.9, версия превосходная!

Всего записей: 92 | Зарегистр. 16-04-2023 | Отправлено: 09:04 19-04-2023 | Исправлено: SVK2I, 09:24 19-04-2023
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
 

 
Вот здесь по умолчанию предлагаются три символа.
А можно ли как-то этот список расширить под себя?
Искал в файле sk_templates.txt и не нашел.

Всего записей: 535 | Зарегистр. 04-05-2016 | Отправлено: 10:25 19-04-2023 | Исправлено: asku, 10:26 19-04-2023
SVK2I

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Мне очень понравилось делать PDF через СК 6.9, усвоил, чтобы итог был минимальный по размеру, соединять картинки с текстом не следует (Merge zones), только финализацию, но я никак не могу понять, как при этом присоединить ОСR слой? Какого формата должен быть этот слой и как подставить его потом в СК при создании PDF в out-task? Можно ли OCR создавать FR 8 и как потом результат извлечь для вставления в СК при создании PDF? В известной Хрестоматии ответа не нашел, там вовсе нет про создание PDF, а только про DjVu. Заранее благодарю тех, кто подскажет.

Всего записей: 92 | Зарегистр. 16-04-2023 | Отправлено: 11:09 19-04-2023 | Исправлено: SVK2I, 11:29 19-04-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
SVK2I
Какого формата должен быть этот слой и как подставить его потом в СК при создании PDF в out-task?

в шапке есть.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 11:51 19-04-2023
SVK2I

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
в шапке есть.  

Благодарю, удивительно, сколько открываю страничку, а этого и не заметил. Буду изучать...  
Внимательно прочитал все, что было по ссылкам даже, прочитал комментарии к ним, в итоге получилось, что вся эта информация мертвая!
Вопрос стоит проще: создать OCR в DjVu - не проблема, особенно, если создавал DjVu сторонней программой, да и через SK - все едино. Также легко извлечь OCR из DjVu (он извлекается как текстовый файл). Но кто-нибудь может подсказать, как этот текстовый файл вставить в PDF, создаваемый через SK, не используя тессеракт, подключенный к SK?
 
Добавлено:
Уважаемый bolega,
хорошо бы Вам предусмотреть возможность подстановки текстового слоя OCR, полученного иными программами, в создаваемый PDF через SK, как это сделал болгарин в известной программе DjvuOCR.
Тессеракт ошибается больше, чем FR 8, а Вы, по сути, привязали пользователей Вашей программы именно к Тессеракту.
 
Добавлено:
При попытке осуществить OCR на задании example от bolega выдается сообщение об ошибке: Access violation at address 0637A3AF in module 'ocr2.dll'. Read of address 00000000 File 1: 0001.tif

Всего записей: 92 | Зарегистр. 16-04-2023 | Отправлено: 11:54 19-04-2023 | Исправлено: SVK2I, 12:50 19-04-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
SVK2I
шапку надо изучать внимательнее. в разделе работа с автоглифами описано, как использовать FR.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 13:28 19-04-2023
SVK2I

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
шапку надо изучать внимательнее. в разделе работа с автоглифами описано, как использовать FR.

Не знаю как Вы, но если я буду все читать в шапке, которая стала как романы Толстого Л.Н., мне некогда будет заниматься иными, более важными делами. Так что уж простите, что спрашиваю, и благодарю за подсказки, это очень трогательно для меня.
Прочитал, и признаюсь, мало что понял. Не указано в какой версии FR создавать проект распознавания, зачем, если распознает страницы FR, надо в окне MW на закладке page -> кнопка special -> закладка More2 включить язык/языки распознавания (русский или русский+английский для всех страниц). Прошел все инструкции, но так и ничего не вышло. Пока СК будет для меня создавать PDF без OCR.

Всего записей: 92 | Зарегистр. 16-04-2023 | Отправлено: 17:49 19-04-2023 | Исправлено: SVK2I, 18:30 19-04-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп  
 
SVK2I
В справочном текстовом массиве не следует читать всё подряд, нужно искать специфические ключевые слова. В вашем случае FR|ФР|файн|fine.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 18:10 19-04-2023
SVK2I

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Спасибо, но я всегда читаю все, чтобы ничего не пропустить, тогда выходит толк.

Всего записей: 92 | Зарегистр. 16-04-2023 | Отправлено: 18:32 19-04-2023
SVK2I

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Уважаемые Мемберы (золотые, серебряные, продвинутые и прочие со знаниями)!
Требуется Ваша простая, доступная помощь.
Создал в SK 6.9 задание книги с грибами, до финализации проверил положение, отредактировал картинки, после чего все финализировал, но Merge zones не делал. В итоге в папке out получил странички без картинок и отдельно картинки.
Затем создал проект в FR12, сохранил его, и после этого вставил странички без картинок в этот проект. Распознал все отлично, закрыл проект. В папку data, сохраненного проекта, поместил ParserFR12.exe, кликнул на него, после чего получил отличный файл result.bookmarks очень похожий на текстовый файл OCR, получаемый с помощью программы болгарина DjvuOCR.
Вот теперь, пожалуйста, подскажите, куда надо этот файл result.bookmarks помещать в программе SK 6.9 при создании с ее помощью PDF? И какие надо еще делать настройки, чтобы этот текстовый слой подключился при создании PDF?

Всего записей: 92 | Зарегистр. 16-04-2023 | Отправлено: 11:42 20-04-2023 | Исправлено: SVK2I, 08:11 23-04-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
SVK2I
результат
https://disk.yandex.ru/i/chCdDDwjMVoXDA
Всё делал строго по инструкции в шапке.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 12:45 20-04-2023
SVK2I

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
Всё делал строго по инструкции в шапке.

Результат отличный. Но, опять же, дайте конкретную ссылку на инструкцию, которой пользовались, ну не нашел я того, что мне понятно...
И еще, чем Вы распознавали: FR12 или Тессерактом?
Если распознавание было Тессерактом, то это не то, что нужно, во всяком случае мне.

Всего записей: 92 | Зарегистр. 16-04-2023 | Отправлено: 14:03 20-04-2023 | Исправлено: SVK2I, 14:16 20-04-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
SVK2I
не вижу ничего отличного, но дело ваше. Я бы поизвращался с распознаванием текста в зонах. Второй путь со слиянием зон бы делал, но ФР не распознает - кажется - цветной текст/текст на цветном фоне.
 
Итого рецепт, как копипаст из шапки с коррекцией по месту:
...
3. В подпапке data этого проекта запустить парсер (применил ФР15 portable), получить файл result.bookmarks
4. Поместить его в подпапку out\ocr  проекта СК
5. В окне MW на закладке page -> кнопка special -> закладка More2 включить язык/языки распознавания  
(например русский или русский+английский для всех страниц)
"На все страницы" параметр распространяется кликом ПКМ в ячейке и выбором Apply option to all marked. Либо, когда щелкаете первый раз галочку языка, удерживайте Ctrl.
 
* в меню File/Options СК на закладке Misc выбрать режим "OCR Mode" = "FR"
 
11. В окне MW из меню запустить команду Result -> OCR Output files -> All. Отсмотреть результат распознавания в окне VR. Чисто глазами убедиться что и на первой и на последней страницах текст совпадает с графикой.
...
11'. File > Create out task. Выбрать для версии 6.9 галочку "Set output format to PDF".
12. в out-task на закладке Files задаем имя выходного PDF - PDF Name :  myfirstOCR (или имя какое придумаем) .
13. так же в  вкладке Files задаем Output format : PDF   проверяем эту установку формата если нельзя вписать имя файла PDF
14. в вкладке PDF отмечаем обязательно галочку Add OCR проверяем её автовключение
15. Сохраняем task (не проверял есть ли автосохран)
16. Жмем уже "главную кнопку" в верхней морде "Process!"
и смотрим результат.
 
UPD
есть нюанс с jpeg2000 зон в PDF: потребуется kakadu. При проверке настроек перед кодированием выяснилось что у меня в out-task сжатие зон PDF в jpeg2000 было установлено, и я переключил на голый jpeg.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 14:22 20-04-2023 | Исправлено: TelecomUral, 14:43 20-04-2023
SVK2I

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
получить файл result.bookmarks, поместить его в подпапку out\ocr  проекта СК  

 
Это уже толково. Но вопрос: когда я создавал задание с грибами и затем все бинаризировал, то в папке out я не нашел подпапки ocr? Ее нужно самому создать?

Всего записей: 92 | Зарегистр. 16-04-2023 | Отправлено: 14:35 20-04-2023 | Исправлено: SVK2I, 14:36 20-04-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
SVK2I
Ее нужно самому создать?

угу

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 14:38 20-04-2023
SVK2I

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Знаете, принцип я понял, но при проведении команды Result -> OCR Output files -> All, стала выдаваться ошибка "Some files were not OCRed because they are not b/w, blank or not exists", хотя я загоняю в FR12 только BW тиффы. Не могу понять, в чем дело...
А объяснили Вы очень доходчиво, просто прелесть, из Вас отличный преподаватель вышел. Благодарю
 

Всего записей: 92 | Зарегистр. 16-04-2023 | Отправлено: 16:19 20-04-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
SVK2I
стала выдаваться ошибка ... blank ...  

первая страница в субтаске - чистая, blank. На неё и ФР ругался.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 16:29 20-04-2023 | Исправлено: TelecomUral, 16:34 20-04-2023
SVK2I

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Дело в том, что ругается не FR, а SK. FR отлично и спокойно все распознал и ему безразлично какие страницы пустые или с текстом, картинками... В этом его и прелесть. Дело в том, что болгарская программа построена на распознавании именно FR и его результат отлично вставляет в DjVu с идеальной точностью, даже если пустые или цветные. А здесь такие сложности...
 
Добавлено:
TelecomUral
Вообщем, получилось, но в итоге 5 страница осталась нераспознанной...
Но принцип понятен, и, как говорится, процесс пошел...
Еще раз благодарю Вас и дай Аллах Вам здоровья, Ваши инструкции сохраню, потому что они очень понятны!
И еще, все получилось на 6.9, на 6.8 - мрак, не знаю почему!

Всего записей: 92 | Зарегистр. 16-04-2023 | Отправлено: 16:58 20-04-2023 | Исправлено: SVK2I, 18:51 20-04-2023
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru