bolega
Silver Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору SVK2I Цитата: стала выдаваться ошибка "Some files were not OCRed because they are not b/w, blank or not exists", | Это не ошибка, а всего лишь предупреждение. Цитата: зачем после этого надо еще выставлять языки распознавания в SK, если Тессеракт использовать не будем? | Для FR действительно можно не задавать, но в СК предусмотрена еще возможность проводить проверку орфографии с использованием hunspell (команда Doubtfull words на закладке OCR>Words окошка Image adjustments). Без указания языков такая проверка невозможна В предоставленном примере часть грибов повреждена (выбелена) магической чисткой; как от этого защищаться, я показывал в ролике про обработку зон. TelecomUral Цитата: графический хелп по вставке ocr | Туда бы еще маленький скриншотик Reports после ocr, чтобы знать где увидеть более подробный результат процесса распознавания Цитата: прошу сделать в визарде дежавю параметр "при вставке слоя ocr добавить к имени суффикс", можно _ocr | Лучше "(T)". Сделаю. В принципе можно еще сделать, чтобы СК по команде копировал утилиту NME в папку проекта FR (запрос папки - через диалог), запускал ее и результат помещал в out\ocr. Добавлено: И еще дополнение к фразе "крайне не рекомендуется править орфографию в FR". Это так, и к тому же абсолютно бессмысленно: утилита NME не умеет извлекать исправленный текст, т.к. он хранится отдельно от первоначально распознанного. Добавлено: Еще дополнение: после OCR с помощью функционала СК Find/Replace желательно найти все дефисы-переносы (см. whatsnew) и заменить их на мягкий перенос (в понимании FR). В большинстве случаев FR сам переносы детектирует и расставляет, но не всегда. Наличие мягкого переноса (а не просто дефиса) гарантирует, что слова с переносом будут правильно искаться, что в pdf, что в djvu. |