4lex4
Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Накопились некоторые вопросы по обработке, а именно как из СТА получить DjVu с цветным текстом или подготовить малоцветное изображение как передний слой для кодирования в DjVu Small mod. Делал на примерах, которые мне прислали в личку на рутрекере, кроме первого. Необходимые инструменты: STA, Photoshop c этими экшенами, которые я делал на ходу, когда сам занимался обработкой: https://files.inbox.eu/ticket/folder/293b772c39c5cff5da951029c703cfd05b38cd58 DjVu Small Mod с моими профилями, которые я сделал специально для этой мини-инструкции, обычно я ручками настраивал эти настройки кодирования, хотя с профилями удобнее: https://files.inbox.eu/ticket/folder/7bb466efdfae3943292d928256e82f91f0d12bbd Первые два случая полностью автоматические, необходимо только настроить инструменты и применить ко всем сканам, в третьем рассмотрен случай, когда необходимо ручное вмешательство. Настройка инструментов: DjVu Small Mod: 1) Бросить профили в папку ...\profiles\personal. 2) В настройках ручной сегментации указать следующие настройки: a) Включаем галочку Enable layers separation (Включить деление на слои) и ставим User defined (Пользовательское). b) Text (Текст): foreground\<name>.<ext> c) Background (фон): background\<name>.<ext> а) Случай с цветным текстом и картинками. ПРИМЕР И РЕЗУЛЬТАТ: https://my.pcloud.com/publink/show?code=kZYn5F7Z3PT6wAxDVaYtNa49a9B5EkqS2Fvy I. Обработка в СТА: 1) Обрабатываем скан как обычно. 2) На последней стадии выбираем: Раздельный выход -> Цветной передний слой. Выход должен быть 600 DPI. Получаем два цветных изображения: передний слой и задний слой 3) Обязательно сохраняем проект, чтобы если, допустим, мы испортим некоторые файлы выхода, сразу могли их востановить, просто открыв скантейлор и перейдя на стадии выхода к этому файлу. II. Photoshop 1) Открываем изображение переднего слоя из папки foreground в фотошопе. 2) Переходим Scanned docs -> Cleaning threshold [threshold] -> Threshold (Порог) -> щелкаем два раза. Настраиваем порог так, чтоб черным был только контент, а мусор убрался и стал белым. Точность тут особая не нужна, это еще не очистка. Я выбрал 195 для этого скана. 3) Делаем шаг назад (Ctrl+Z). 4) Воспроизводим Scanned docs -> Clean background (both modes) и смотрим результат c очищенным фоном. 5) Воспроизводим Scanned docs -> Auto levels. Серый текст должен стать черным. 6) Воспроизводим Scanned docs -> Gaussian smoothing. Применяем сглаживание букв, чтобы не было зазубрин, и повышаем детальность перед кодированием. 7) Смотрим финальный результат, и если все правильно, создаем рабочую задачу. 7.1) Переходим в историю и возвращаем изображение к состоянию открытия. 7.2) Создаем новый набор, назвав его "Задачи". 7.3) Создаем новое действие и включаем запись. 7.4) Повторяем шаги 4, 5, и 6. 7.5) Мы должны получить то, что получили после 6го пункта. 7.6) Закрываем изображение БЕЗ сохранения. 8) Применяем задачу ко всем изображениям в папке foreground: 8.1) Переходим Файл -> Автоматизация -> Пакетная обработка. 8.2) Выбираем Набор "Задачи" и наше действие из шага 7. 8.3) Указываем Источник - Папка, выбираем папку foreground. 8.4) Указываем Назначение - Сохранить и Закрыть. 9) [опционально] Делаем какие-нибудь действия с нашими картинками в папке background, например, авто-коррекцию цвета, контрастности, смарт блюр и т.п., что вы сами обычно делаете. III. DjVu Small Mod 1) Открываем Djvu Small mod (далее DSM) и выбираем профиль Foreground 600 (PS). Это промежуточный профиль, задача которого сделать нам готовый передний слой. Он настроен так, чтобы максимальное количество деталей шло в передний слой, то есть бинаризовывалось. 2) Кодируем с этим профилем всю папку foreground и получаем по djvu под каждый файл. 3) Переключаемся в режим декодирования, включаем галочку настроек, переходим в настройки -> декодирование DjVu -> ставим галочку "Cлой" -> foreground (передний). 4) Загружаем все наши DjVu в DSM, создаем в любом месте папку с названием "foreground" и сохраняем тифы туда. 5) [рекомендуется] Чтобы проверить, что все на месте, выводим из этих же djvu задние слои ("Cлой" -> background (фон)). Они не должны содержать ничего, кроме мусора. Если там есть текст или еще какая-то часть контента, то foreground данного файла необходимо перекодировать / поправить вручную. Обычно автомат справляется и ничего дорабатывать не приходится. Подсказка: чтобы ускорить поиск некорректных файлов, сожмите все изображения в zip архив и в архиваторе выставите сортировку по упакованному размеру, и смотрите самые большие файлы. 6) Переходим в режим кодирования и выбираем профиль Separated 600 (PS). 7) Кодируем все файлы из папки foreground (из шага III.4) и background (из шага I.2 или II.9). Для этого просто загружаем все файлы из обоих папок foreground и background в Djvu Small Mod и нажимаем кнопку Encode (Кодировать). б) Случай с цветным текстом без картинок. ПРИМЕР И РЕЗУЛЬТАТ: https://my.pcloud.com/publink/show?code=kZfn5F7ZzwoX1p9RUEBtXyN2R3E6g05UOvS7 Меняются только следующие действия: III. ... 6) Переходим в режим кодирования и выбираем профиль Colored text 600 (PS). 7) Кодируем все файлы из папки foreground. в) Ручная обработка. ПРИМЕР И РЕЗУЛЬТАТ: https://my.pcloud.com/publink/show?code=kZ2n5F7ZkDkr1iFvlPYXYiNfRh0Igmq3bGHV Перед загрузкой файла в СТ применяем Descreen. Я использовал СК для этой цели. I и III этапы те же, что и у случая а). II. Создаем папку foreground в любом месте и копирум туда файл из папки foreground из этапа I (полученный СТ). foreground: 1) Применяем шаги II.4,5,6, затем бинаризуем в СТА в смешанном режиме. Я использовал алгоритм Wolf. Круги метим как картинки для дальнейшей постеризации. 2) Я постеризовал круги в RasterID 2.1. Еще для этой цели можно использовать Vector Magic. А также графический редактор, но возникает проблема подавления шумов. 3) Востанавливаем цветные прямоугольники на фоне за текстом. a) Открываем файл и переходим в RGB режим (Изображение -> Режим). б) Накладываем сверху foreground из этапа I. в) Выделяем прямоугольник и пипеткой берем его цвет (или сами задаем цвет в палитре). г) Переключаем слой на Background. е) Воспроизводим Scanned docs -> Fill behind (Залить позади). Подсказка: Шаги выше с ручным выделением похожи на те, что делаются в СК. Но у фотошопа и гимпа есть волшебная палочка, и мы можем использовать это. Вместо ручного выделения прямоугольников, просто щелкаем волшебной палочкой по его области. Получаем выделенный прямоугольник с дырками на месте букв. Так как выделение представляет собой маску, к ней применимы морфологические операции, те же, то и для ч/б изображений. Зная это, я сделал действие Common -> Fill holes in selection (залить дырки в выделении). Воспроизводим и получаем выделение из оригинала в 2 клика вместо ручного выделения. 4) [опционально] Сохраняем в Indexed 8. Шаг не обязательный, так как DSM сам преобразует изображение переднего слоя в индексированое и строит палитру, но он позволяет убедиться, то у нас действительно малоцветное изображение, пригодное для кодирования как передний слой. В изображении для переднего слоя не должно быть плавных переходов тона, у всего должны быть резкие границы, т.к. каждая замкнутая цветная область преобразуется в свой шейп (фигурку) при кодировании. background: 1) Я применил только авто уровни и Smart blur (умное размытие). Примечание: Для второго результата я просто применил порог (бинаризацию) на background изображении, вырезал полученное из backround и перенес в foreground изображение. Сделано это для повышение четкости контуров. Мое мнение - я бы оставил первый результат, ибо второй дает увеличение веса страницы на 8кб, а четкость возрастает не сильно. Сделал просто для примера. Есть еще полезные действия, которые не описаны но могут пригодится: Scanned docs -> Colorize text - раскрасить выделенный ч/б текст. Выделяем область с текстом, выбираем цвет, и воспроизводим. Черный текст станет нужного цвета. Примечание: перед окрашиванием текста не забываем перейти в цветовое пространство RGB. г) Осталось рассмотреть только случай для сканов с цветным фоном, цветным текстом и картинками. ПРИМЕР: https://my.pcloud.com/publink/show?code=kZDn5F7Zlko3L7sJRtBtCwbrRb1IOLSk1XNk Добавлено: К версии 1.09 запилю фишку, чтоб СТ сам раскрашивал ч/б и делал малоцвет, поэтому промежуточный шаг с извлечением foreground из DSM можно будет пропускать. | Всего записей: 346 | Зарегистр. 27-01-2016 | Отправлено: 18:39 17-12-2017 | Исправлено: 4lex4, 03:02 04-01-2018 |
|