bolega
Silver Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору TelecomUral Цитата: особенно U с двумя штришками сверху. 10я строка в списке l4_0031a.jpg | О, известный случай - список литературы на нескольких языках. Хуже не придумаешь. Я обычно задаю для таких страниц despeckle=fine-2. И все получается нормально. Попробовал ради интереса сделать ocr. Задал rus+eng+deu, получилось плохо, все немецкие диакритич. буквы распознались как английские. Задал rus+deu, получилось более-менее. daa2013 Цитата: т.е. в ячейке тессеракта помимо буквы есть еще какой-то штришок. Происходит замена, штришок пропадает. | Нет, СК делает не так. Все сложнее. Заменяется не ячейка тессеракта (это было бы слишком опасно), а ячейка глифа. Как правило, эти ячейки никогда не совпадают. Да и в любом случае размеры самих букв (эталона и реальной буквы скана) тоже не совпадают, после вклеивания по периметру в промежутке между ячейками глифа и тессеракта остается мусор. И вот здесь начинается самое интересное. Ранее надо было это мусор вычищать самому. Теперь есть режим, при котором СК сам чистит ошметки. Т.е. СК после замены буквы как бы прибирает в окрестностях замены, убирает спеклы и марашки. Размер спеклов используется тот же, что и при mouse-up-despeckle или подсветки. Если он стандартный, то потери маловероятны, но и чистка так себе. При оптимальном размере спеклов чистится намного лучше, но в примере Цитата: Ну, или наплыв сверху +20% | действительно, диакритика удалится, т.к. касается буквы. Чтобы СК не трогал мусор (или похожее на мусор), нужно, чтобы он был хотя бы на 1 пиксел отстоял бы от ячейки глифа. Все, что касается ячейки и имеет размер меньше предельного спекла, будет удалено. Я назвал такую авто-зачистку remove touching. Если есть опасения на этот случай, то можно включить режим подсветки remove touching. Тогда вместо удаления всего того, что я описал выше, оно будет просто подсвечено. В этом случае удаление станет полностью контролируемым. UPD Можно в принципе усложнить remove touching, приняв для пространства над буквой другой порог размера спекла, сделав его более безопасным. Можно сделать это только для гласных, знать бы только как их отличать для других языков. Но повторю, если между ячейкой глифа и спеклом будет хотя бы одна пустая строка, СК спекл не тронет. Например, буквы "ё" как правило безопасно заменять буквой "е", точки не пострадают. То же и для "й"-"и". | Всего записей: 4446 | Зарегистр. 09-09-2002 | Отправлено: 10:17 02-02-2022 | Исправлено: bolega, 10:37 02-02-2022 |
|