niccolo
Silver Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Поделюсь своим опытом использования новых фич... Для примера взял 5 язычный геологический словарь https://www.geokniga.org/authors/56221 Импортировал в SK - отмаркировал, сняв все галки, подсунул файлы в портативный FR15(!!!), распознал, скопировал букмарки - в общем всё по описанной схеме. 1. ВРОДЕ как бы получается - но только вроде..... Не знаю почему - но часть распознанных страниц не совпала с оригиналами. Выявить закономерность не удалось....То ли пустые страницы помешали, то ли цветные..... Ручные махинации с пакетом в FR15 - удаление картиночных блоков с цветной страницы и добавление пустого текстового блока на пустые страницы ухудшили ситуацию .... Учитывая частые проблемы у ФР с правильной расстановкой зон/блоков распознавания - для нормальной работы функции явно требуются более глубокие знания структуры пакета/выходных данных FR. IMHO FR8 с отдельными файлами распознавания для страниц кажется более простой альтернативой, если не касаться отсутствующих языков. Касательно вносимых искажений - поскольку ни от кого не слышал, что они заметны визуально - для OCR коррекции в качестве выходных можно использовать вместо пакетных файлы после распознавания FR8... Можно даже распознавать в FR только текстовые зоны до финализации..... Еще одной альтернативой может стать использование Abbyy FR Hotfolder отдельно для самых проблемных файлов...Но тут лучший порядок действий пусть подскажут те, кто интенсивно пользуется данной функцией.... 2. Опять я буду плакаться о том, что ручной набор глифов, охватывающих алфавиты, в СК - идея не самая здравая, точнее её трудоёмкость (минимум 2-3 гарнитуры по полному алфавиту красивых (т.е. часто требующих поиска) букв) оправдана лишь в исключительных случаях.... При наличии OCR информации собрать такую информацию из файла не проблема... Второй альтернативой остаётся использование шрифтов - большую часть которых наверняка можно будет подобрать в сервисах подбора шрифтов по картинкам.... 3. С точки зрения юзабилити - в текущем исполнении для функции FR-OCR разумнее забить Parser в настройки и просить у пользователя указать только расположение пакета FR. 4. После проблем с п.1 захотел создать субтаск только с польским индексом - как наиболее проблемным в части марашек.... Выбрать файлы в Windows-манере с нажатым SHIFT/CTRL - нельзя... Указать для субтаска поддиапазон страниц, как в типичном виндовом диалоге печати нельзя... Вроде мелочи - а раздражает.... |