Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ABBYY FineReader (Часть 1)

Модерирует : gyra, Maz

Maz (20-12-2023 09:13): ABBYY FineReader (Часть 2)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

JediMaster_Dragon



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ABBYY FineReader
7, 8, 9, 10 (Pro, Corp, Home), 11 (Pro, Corp), 12 (Pro, Corp) и 14 (Pro, Corp, Ent)

 

 
Полный список языков распознавания для FR15
 

Русский интерфейс
 
Ответ на вопрос о сохранении проекта смотрим тут


Если  хотите, чтобы ваша проблема была рассмотрена, (решение не гарантируется), необходимо представить такие сведения:
1. Версия FineReader.
2. Версия Windows, версию пакета обновлений (SP), разрядность (для Vista и выше).
3. Если проблемы со сканированием, то называем ещё и модель сканера. Обновите драйвера своего сканера, до последней версии имеющейся на сайте поддержки вашего сканера.


Как можно получить церковнославянские тексты при помощи сканирования FineReader'ом
Как отключить "искусственный интеллект" FineReader
Как выбрать опции, чтобы FR10 распознавал простейшие формулы
FineReader не распознает сложные формулы и рукописный текст, не задавайте вопросов на эту тему.  
Версии FR для Linux пока не существует, только Engine, который вам явно не нужен.

Для понимания формата XPS программой FineReader нужен Framework 3.0. Только для XP и 2000.
Совет по распознаванию файлов DjVu Читать
Электронные текстовые книги - OCR, вычитка, оформление

Всего записей: 354 | Зарегистр. 18-01-2002 | Отправлено: 09:07 26-01-2003 | Исправлено: Maz, 19:24 26-01-2020
Asite3000

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ComboFZ
Да, это так. Но при этом размер получается в 2 раза больше оригинала.
Я пошерстил инет и нашел, что единственный выход - делать из pdf "псевдо djvu". Размер при этом остается 1:1 от оригинала + OCR.

Всего записей: 138 | Зарегистр. 21-04-2009 | Отправлено: 09:20 10-02-2012
Andy_Urb



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Может стоит добавить в шапку это
 
Добавлено:
Чутка ошибся - не глянул что там нету ссылок на скачивание этих языков.

Всего записей: 1171 | Зарегистр. 24-09-2003 | Отправлено: 12:01 10-02-2012
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Andy_Urb
Список языков распознавания добавлен в шапку, только ссылка на русскую страницу. Скачивать дополнительно ничего не нужно, все языки уже входят в дистрибутив.

----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 12:20 10-02-2012
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Asite3000

Цитата:
Да, это так. Но при этом размер получается в 2 раза больше оригинала.

Там картинки с беспотерьным сжатием, PDF потом можно оптимизировать в том же Акробате, больше настроек.

Всего записей: 2794 | Зарегистр. 31-05-2010 | Отправлено: 14:06 10-02-2012
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Asite3000
В настройках сохранения PDF:
1. Размер бумаги - "Использовать размер оригинала".
2. Качество изображения - "Пользовательское".
3. Внутри "Пользовательского"
- разрешение - исходное
- цветность - не менять цветность
- качество - потеря качества запрещена
 
Если получаются слишком большие размеры, разрешите потерю качества и подвигайте ползунком между 80% и 100%. Изображения при этом если и ухудшаются, то не очень.
Сторонними программами для уменьшения объема пользуйтесь с оглядкой. Бывает так, что после переужатия слетает текстовая подложка PDF .

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 17:48 10-02-2012 | Исправлено: Shangry, 17:53 10-02-2012
Asite3000

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shangry
Именно так и делал. Но размер уж очень большой получался.
Поэтому попробую в Акробате оптимизировать(как предложил ComboFZ), а если не получится,то сделать псевдо-DJVU.

Всего записей: 138 | Зарегистр. 21-04-2009 | Отправлено: 11:33 13-02-2012
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Asite3000

Цитата:
Именно так и делал. Но размер уж очень большой получался.  

Попробовал, как и вы, ставить запрет на потерю качества. Получались PDF, размера сравнимого со сканами в TIFF (раза в полтора поменьше). Так что наблюдаемое у вас удвоение размера оригинала вроде бы не должно получаться (на "беспотерьный" режим скорее всего навешено обычное LZW-сжатие).
 
Может быть выложите где-нибудь исходный PDF? Здесь явно надо оригинальный материал смотреть.
 

Цитата:
Поэтому попробую в Акробате оптимизировать(как предложил ComboFZ),

Акробатовская оптимизация обычно сводится к пересжатию картинок или в JPEG, или в JPEG 2000, плюс к манипуляциям с разрешением картинки. Это можно и без него сделать.
Разве что попробовать напустить на ваши сканы ClearScan, но тогда может слететь текстовый слой от FineReader.
 

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 16:50 13-02-2012 | Исправлено: Shangry, 16:56 13-02-2012
Asite3000

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shangry
Исходный файл "Палеолит СССР. 1984.pdf" (109 Мб).
Полученный "беспотерьный" - 261 Мб.
Самое грустное, что при этом картинки все равно немного мылятся!  
   
   
Разумеется, если пытаться привести размер к оригиналу, качество будет гораздо хуже.
Может есть какой-нибудь способ к исходному pdf прикрутить OCR без пережатия? Для DJVU это делается очень просто.
 
 
 

Всего записей: 138 | Зарегистр. 21-04-2009 | Отправлено: 10:57 14-02-2012
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Asite3000

Цитата:
Может есть какой-нибудь способ к исходному pdf прикрутить OCR без пережатия?

Любой PDF-софт с движком распознавания, начиная с Акробата. Там исходный файл не переделывается, а к нему просто добавляется текстовая подложка.
Но вычитки при этом, увы, не сделаешь. Как получится, так и будет.
 

Цитата:
Исходный файл "Палеолит СССР. 1984.pdf" (109 Мб).  

Что-то не везет мне с ним. Торренты у меня почему-то качаются с черепашьей скоростью, а на обычных ссылках то "Немедленно зарегистрируйтесь!", то Касперский панику поднимает.

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 18:10 15-02-2012
Asite3000

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shangry

Цитата:
Любой PDF-софт с движком распознавания, начиная с Акробата. Там исходный файл не переделывается, а к нему просто добавляется текстовая подложка.

Открыл pdf(109Мб) в Adobe Acrobat Professional 10.1.2, распознал(300dpi), сохранил как pdf - размер 238Мб.
Значит все-таки переделывается файл. Или я что-то не так сделал?

Всего записей: 138 | Зарегистр. 21-04-2009 | Отправлено: 13:42 16-02-2012
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Asite3000
Может все-таки выложите где-нибудь этот PDF?
Здесь для половины ответов подопытный материал нужен, а его как раз и нету.

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 15:25 16-02-2012
Asite3000

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Выложил Ссылка

Всего записей: 138 | Зарегистр. 21-04-2009 | Отправлено: 21:24 16-02-2012
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Asite3000
Забудьте про переделки этого ужаса. То есть, убрать серый фон и сделать черно-белое проблем нет, но восстановить нормальный вид букв уже не получится, перемычки слиты. Можно попробовать распознать в FR, но потом придется очень долго вычитывать.
Если есть желание попробовать, тогда откладывайте в сторону FR, от него в данном случае толку не будет, извлекайте графику из pdf, ресэмпл, обработка (deskew, despeckle и прочее), потом pdf CS и т.д.

----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 22:07 16-02-2012 | Исправлено: Astra55, 22:08 16-02-2012
Asite3000

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55
Мне не надо его переделывать, улучшать, фон убирать и т.д. Мне нужно только одно - добавить к PDF слой OCR без изменения качества самого PDF. Но это никакая программа не умеет, в отличие от DJVU, в котором добавить или убрать OCR без пережатия - элементарное дело.
В любом варианте(распознавание исходного PDF или сконвертированного постранично в tiff) и любой программой(FR или Acrobat) при сохранении идет пережатие документа с заметной потерей качества. Если сохранять без потерь, то размер получается в 2 раза больше.

Всего записей: 138 | Зарегистр. 21-04-2009 | Отправлено: 10:17 17-02-2012
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Asite3000
Только что взял несколько страниц, распознал в FR, сохранил в pdf, исходный размер был 2 575 245, после сохранения 679 576. Не нравится изменение исходного качества? Открывайте pdf файл в Acrobat X, обрабатывайте с опцией ClearScan, будет кое-какный OCR и практически исходный вид. Размер в этом случае 1 888 339.

Цитата:
Но это никакая программа не умеет

Это не программа не умеет, а Вы не умеете работать с программами и не знаете основ растровой графики, не говоря про OCR, PDF и более высокие материи.

----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 11:11 17-02-2012
Asite3000

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Astra55

Цитата:
Это не программа не умеет, а Вы не умеете работать с программами и не знаете основ растровой графики, не говоря про OCR, PDF и более высокие материи.


Цитата:
Не нравится изменение исходного качества? Открывайте pdf файл в Acrobat X, обрабатывайте с опцией ClearScan, будет кое-какный OCR и практически исходный вид. Размер в этом случае 1 888 339.

Не находите противоречий в своих высказываниях?
Несмотря на незнания основ растровой графики, я все-таки вижу, что в файл DJVU можно вставить OCR без изменения исходного качества, а с PDF такая штука не проходит никаким способом.
Наверное знание высоких материй позволяют считать, то исходный вид, и практически исходный вид - это одно и тоже.

Всего записей: 138 | Зарегистр. 21-04-2009 | Отправлено: 12:41 17-02-2012
Astra55



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Asite3000
Ладно, что я буду пытаться доказывать очевидное? "Тогда сам выбирай колор и сам крась!" (с)

----------
Per warez ad scientiam

Всего записей: 11717 | Зарегистр. 16-05-2003 | Отправлено: 12:52 17-02-2012
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Asite3000

Цитата:
Мне не надо его переделывать, улучшать, фон убирать и т.д. Мне нужно только одно - добавить к PDF слой OCR без изменения качества самого PDF.

FineReader 11: Original.pdf, в Опциях отключить предобработку изображений, распознанные области с картинками убрать, на выходе  - OCR+изображение с сильным сжатием с потерями но "Сохранив размер оригинала" и "Исходное разрешение" в пользовательских настройках (текст под изображением) -> FR.pdf
Ес-но качество OCR от такой необработанной графики (  
 
PDF-XChange Tools 4: получение "Перекрывающегося PDF" (FR.pdf + Original.pdf)
 
Adobe Acrobat X: удаление среднего "слоя" с графикой от FR, сохранение и оптимизация (не трогая изображения при оптимизации, убрав соответствующую галку)
 
50 первых страниц: http://rghost.ru/36625238  (ACRX_0-50_optimiz2.pdf)
Изображения jpeg совпадают побайтно и по CRC-суммам (md5) с вашим оригиналом: Палеолит СССР. 1984.pdf.
Оригинал из 50-ти страниц - 13.4MB, в итоге - 13.9MB

Всего записей: 2794 | Зарегистр. 31-05-2010 | Отправлено: 21:14 20-02-2012 | Исправлено: ComboFZ, 23:41 07-03-2012
Shangry

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
К сказанному ComboFZ могу добавить Акробат 8 --> Распознать --> Разрешение 400.
Вид получается примерно тот же, размер даже немного поменьше (на несколько Мб).

Всего записей: 474 | Зарегистр. 27-10-2006 | Отправлено: 19:46 21-02-2012
doSSia

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Есть вопрос по screenshot reader'у: нужна версия не сохраняющая файлы при работе (не использующая папку temp для временной записи, только буфер обмена) т.к. пользуюсь SSD-диском, важна так же высокая скорость обработки текста (сложность простая: четкие буквы русского-английского с цифрами). Что посоветуете? Может есть аналоги для этого дела? Сейчас пользуюсь 8 версией.

Всего записей: 1 | Зарегистр. 22-02-2012 | Отправлено: 14:19 22-02-2012
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ABBYY FineReader (Часть 1)
Maz (20-12-2023 09:13): ABBYY FineReader (Часть 2)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru