bolega
Silver Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору niccolo Цитата: Постараюсь больше не задавать вопросы. | Раньше большое количество репортов о багах, реальных и кажущихся, меня действительно сильно расстраивало. Сейчас я уже к этому спокойно отношусь. Так что вопросы лучше озвучивать. При этом надо понимать, что структура pdf бывает так сложа, что для нее просто нет аналога в концепции СК. У СК простая концепция: страница-подложка (как правило ч/б), сверху зоны. В pdf все намного сложнее, и иногда ее невозможно воспроизвести адекватно в СК. Т.е. страницу pdf проще нарисовать (на экран, в tif-файл), чем сэмулировать подложкой и зонами. Из-за разных подходов в pdf и СК. Простой пример: FR сохраняет чб скан в pdf. Казалось бы, берем тиф, кодируем в jbig2, задаем размер полотна страницы (в размер тифа) и располагаем тиф на нем. На самом деле FR делает по другому (и не только он): задается полотно, задается черный цвет фона, тиф внутри pdf-страницы накладывается на фон как трафарет, где прозрачные области соответствуют буквам и сквозь них как бы проглядывает тот самый черный цвет фона. Если бы СК в лоб импортировал такой файл, то пришлось бы поступать так же, т.е. делать абсолютно черную страницу-подложку, а поверх помещать текст как прозрачную зону. Но СК понимает, что для такого отображения существует более адекватный, привычный способ, при котором можно обойтись без черных подложек и прозрачности. Внутри pdf бывают намного сложнее комбинации слоев, с которыми СК уже может адекватно не совладать. В вашем случае СК абсолютно корректно извлек изображения, но ошибся с раскраской текста: покрасил его в белый цвет, и он как бы исчез. Я посмотрел из-за чего это произошло. Не скажу, что pdf некорректный, все там корректно, просто сделан не совсем логично. Перед помещением скрытого ocr-текста там зачем-то выставляется белый цвет текста и после работы с текстом обратно в черный он не восстанавливается. В этом нет ошибки, но это просто дурной тон так делать (специально проверил как делает FR для цветного текста: перед работой с текстом активирует заданный цвет, а после - возвращает дефолтный, т.е. черный). СК не-черный цвет трактует как указание раскрасить картинку. Хотя здесь СК явно ошибся, сделав это для картинки, которая не объявлена как трафарет. Просто за все время мне такого ранее не встречалось, обычно генераторы pdf корректно оперируют с цветом, возвращая его всегда в дефолт. Постараюсь это учесть. Так что польза от вашего примера несомненно есть. | Всего записей: 4408 | Зарегистр. 09-09-2002 | Отправлено: 11:09 06-06-2022 | Исправлено: bolega, 11:12 06-06-2022 |
|