Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)

Модерирует : gyra, Maz

Maz (10-01-2024 10:45): Scan Tailor (часть 3)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части: Часть 1
Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ncraun) >>>  последняя версия
Scan Tailor Experimental (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода


Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:17 17-02-2010 | Исправлено: Maz, 10:43 10-01-2024
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Сообщение "Бинаризация JPEG и TIFF, отсканированных с различным dpi" перенесено в топик Электронные книги: сканирование, обработка, сборка - IV.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 13:50 25-03-2010 | Исправлено: StanFreeWare, 15:45 25-03-2010
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
Так в том то и дело, что делать какие-то выводы насчет бинаризации в ST по этим результатам совершенно невозможно:
Большинство символов в djvu на разных страницах одинаковые, в силу специфики кодирования со общим словарем.  
По графику можно предположить, что 150jpeg70 просто сильнее отличается от других страниц (больше несловарных символов).

Всего записей: 884 | Зарегистр. 14-12-2005 | Отправлено: 15:26 25-03-2010 | Исправлено: U235, 15:27 25-03-2010
Olive77

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon

Цитата:
Не воспроизвелось.  С одним файлом в проекте у вас воспроизводится?  

Да.
И, по-видимому, это как-то связано с 16-битностью.
При этом интересно, что для файла IrfanView пишет: Original colors -> 65536, current colors -> 256.
 
Пересканировал с 8 битами, эффект пропал.

----------
Believe it or not, every fool you meet is the end result of millions of years of evolution.

Всего записей: 1271 | Зарегистр. 26-12-2002 | Отправлено: 00:46 27-03-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В качестве эксперимента над LINQ+XML сделал патч для проекта ST, который обводит определенные СканТэйлором автозоны прямоугольными пользовательскими зонами. Может оказаться полезной если много фотоиллюстраций, и часть картинки определяется как черная или как белая область.  

Вследствие используемых технологий утилитка работает только под .NET 3.5  
ST Outliner 0.1

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 13:53 03-04-2010 | Исправлено: StanFreeWare, 21:12 03-04-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Выпустил версию 0.9.8.  Брать на оффсайте.
 
В последние дни правил мелкие проблемы - те, про которые вспомнил, и те, которые было несложно поправить.  Надеюсь ничего не сломал в процессе.  А вообще этот релиз должен быть очень стабильным.  По крайней мере от двух последних пре-релизов ни одного краш репорта не получил.
 
Собирался после этого релиза вплотную заняться исправлением кривизны строк (деварпингом), но передумал, так как нашел задачу поважнее.  Похоже, что Scan Tailor уже сделал пост-обработку достаточно простой для домохозяек*, и теперь осталось последнее для них препятствие - сборка страниц в DjVu или PDF.  Вот этим и планирую заняться - сделаю простую GUIную прогу для сборки обработанных ST файлов в DjVu.  Думаю за пару месяцев можно такую вещь сделать.
 
* Под домохозяйками в данном контексте я понимаю людей, которые не хотят заморачиваться.  К таковым отнесу и себя.

----------
Вопрос: как насчет вот такой фичи для ST?
Ответ: не сейчас, когда - не знаю, и стоит ли вообще?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 01:08 04-04-2010 | Исправлено: Tulon, 01:10 04-04-2010
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon

Цитата:
Вот этим и планирую заняться - сделаю простую GUIную прогу для сборки обработанных ST файлов в DjVu.

Это было бы замечательно, но как насчет того, чтобы встроить экспорт в djvu (pdf) в сам ST как еще один этап?
Я на днях изучал исходники djvulibre (cjb2), и понял, что многие функции уже есть в ST, например выделение связных компонент, очистка от мелкого мусора.  
Если делать экспорт в tiff, а затем кодировать, то будет делаться двойная работа, сначала в ST, затем в кодировщике djvu. Что, на мой взгляд,  не оптимально.

Всего записей: 884 | Зарегистр. 14-12-2005 | Отправлено: 06:08 04-04-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
В последние дни правил мелкие проблемы

А что именно, если не секрет?
На первый взгляд -  
1) поправлено управление наклоном резака при увеличенном масштабе.
2) по-умолчанию теперь маленький веник (за что отдельное спасибо - одну книжку средний веник сильно попортил - й заменил на и, а также переносы поудалял).
Жаль, что не прислушались к вращению по Ctrl+колесико.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 09:09 04-04-2010 | Исправлено: StanFreeWare, 09:14 04-04-2010
cnf



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon
Попробовал последнюю версию и уже воспользовался новыми возможностями регулировки бинаризации. Понравилось, спасибо.
С помощью вашей программы сделал уже более сотни книг. Мне очень не хватает вертикальной линейки, чтобы вручную точно регулировать высоту блока полезной области. Хоть и не часто, но попадаются книги, где линейка очень нужна. Знаю ваше отношение к фич-реквестам, но может когда-нибудь добавите...

Всего записей: 241 | Зарегистр. 09-07-2006 | Отправлено: 10:13 04-04-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235

Цитата:
Это было бы замечательно, но как насчет того, чтобы встроить экспорт в djvu (pdf) в сам ST как еще один этап?
Я на днях изучал исходники djvulibre (cjb2), и понял, что многие функции уже есть в ST, например выделение связных компонент, очистка от мелкого мусора.  

Сборка страниц плохо вписывается в модель ST.  Например в ST предполагается возможность повторной обработки одной страницы на любой стадии.  При сборке в DjVu такое не прокатит - придется переделывать всю сборку.  Также возможно придется отойти от модели, где любые операции над изображением отражаются в файле проекта и могут потом быть пройдены на автомате.
В плане повторного использования кода я практически ничего не проигрываю.  Почти весь код, который уже есть в ST, и понадобится для сборщика страниц, можно будет взять вообще без каких-либо изменений.  Дерево исходников у ST и сборщика страниц будет общим.
 
StanFreeWare

Цитата:
А что именно, если не секрет?

Смотрите ссылку "Последние изменения в дереве исходников" в шапке.
 

Цитата:
2) по-умолчанию теперь маленький веник (за что отдельное спасибо - одну книжку средний веник сильно попортил - й заменил на и, а также переносы поудалял).  

Наводит на мысль о неправильном DPI.  Выкладывайте пример, если еще не выкладывали.
 
cnf

Цитата:
Мне очень не хватает вертикальной линейки, чтобы вручную точно регулировать высоту блока полезной области. Хоть и не часто, но попадаются книги, где линейка очень нужна.

Ну вы хотябы объясните зачем.

----------
Вопрос: как насчет вот такой фичи для ST?
Ответ: не сейчас, когда - не знаю, и стоит ли вообще?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 11:48 04-04-2010
cnf



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Ну вы хотябы объясните зачем.

Выравнивание макета произвожу по номерам страниц. Привожу пример для номеров внизу страницы и выравнивания по нижнему краю.  
Бывает, особенно в конце глав, что номер страницы отсутствует, а текста на странице всего один-два абзаца. Соответственно, полезная область занимает только часть страницы и, если ничего не делать, то при выводе текстовый блок оказывается внизу страницы.  
Выходов два.  
Первый. На стадии макета найти конкретно эту страницу и применить выравнивание по верхнему краю.
Второй.  Т.к. автоопределение полезной зоны не всегда работает корректно, я ввел себе за правило перед этапом макета страницы просматривать постранично результаты автоопределения полезной зоны, и, при необходимости, исправлять неточности. Заодно с исправлением неточностей, на страницах без номера и с небольшой полезной областью я увеличиваю полезную область вниз до примерно нижней границы предыдущей (последующей) страницы, что позволяет мне применять выравнивание по нижнему краю сразу для всех страниц и экономить время, т.к. после этого на этапе макета уже не нужно выискивать страницы без номеров и переназначать выравнивание по верхнему краю.  Если таких страниц много, то экономится много времени.  
Именно здесь мне и нужна линейка, т.к. сейчас я увеличиваю полезную область "на глазок".
Прекрасно понимаю, что это мелочь и кому-то вообще не понадобится. Если сделаете - хорошо, решите не делать - тоже не беда. Обходился без линейки до сего дня, обойдусь и дальше.
 

Всего записей: 241 | Зарегистр. 09-07-2006 | Отправлено: 13:07 04-04-2010
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
cnf
 
В таком случае, линейка была бы гораздо полезнее на стадии макета, чтобы этот самый неполный кусочек страницы позиционировать на том же уровне, что и остальные. Собственно, я это пожелание когда-то уже высказывал.

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 13:11 04-04-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
cnf
ОК, понял.  Буду иметь в ввиду, но естественно ничего не обещаю.

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 17:00 04-04-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Выкладывайте пример, если еще не выкладывали.  

Это та же Горгона, с проблемами с выравниванием яркости. Я ее (и еще 15 аналогичных) вывел в режиме цветной-серый, добавил светло-серую рамку в цвет бумаги и прошел в отдельном проекте СТ - Горгона с рамкой до и после СТ (файл с выхода СТ для экономии места пережат в jpeg).  

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 19:50 04-04-2010 | Исправлено: StanFreeWare, 19:51 04-04-2010
cnf



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
В таком случае, линейка была бы гораздо полезнее на стадии макета, чтобы этот самый неполный кусочек страницы позиционировать на том же уровне, что и остальные.

На стадии макета линейка как раз уже и не нужна, т.к. имеется удобный инструмент регулировки полей.
В любом случае, если линейка появится, то показывать её можно и на стадии полезной области, и на стадии макета страницы. Это уже будет не принципиально.

Всего записей: 241 | Зарегистр. 09-07-2006 | Отправлено: 20:38 04-04-2010
Tulon

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare
Однако проблем с деспеклингом я там и не увидел.  В области текста средний веник ничего не удалил.

----------
Вопрос: как насчет вот такой фичи для ST?
Ответ: не сейчас, когда - не знаю, и стоит ли вообще?

Всего записей: 718 | Зарегистр. 07-05-2008 | Отправлено: 20:43 04-04-2010
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
cnf
 
Не такой уж он удобный. Во-первых, поля прибавляются к области контента, рассчитанной по самой высокой/широкой странице. Какую прибавку это дает к текстовой области данной конкретной страницы, в интерфейсе не видно. Во-вторых, выравнивать полезную область зачастую требуется не по ее краю, а по какому-то элементу содержимого внутри. Типичный пример -- страница с сигнатурой тетради: очевидно, что подгонять к заданной границе нужно не сигнатуру, а собственно текст. Насколько именно он отстоит от предполагаемой границы, мы опять же не увидим.
 
Собственно, еще более полезной, нежели линейка, мне видится возможность добавлять направляющие (общие для всего проекта), и по ним уже располагать содержимое на стадии макета. На практике, конечно, направляющие обычно используются в паре с линейкой, т. е. в идеале должно наличествовать и то, и то. Но это уже так, мечты.

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 20:59 04-04-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Tulon

Цитата:
* Под домохозяйками в данном контексте я понимаю людей, которые не хотят заморачиваться.  К таковым отнесу и себя.

Если под "нежеланием заморачиваться" понимать отказ от Dewarping (и BR-Lighting Correction) - то это плохо кончится - поскольку это просто де-факто пропаганда "делайте книги некачественно".
 
Пока что Ваша политика "не заморачиваться" на деле лишь приводит к созданию  объективно недостаточно качественных программ (СТ - яркий тому пример, т.к. СТ не допускает применение BR для промежуточной обработки своих сканов - а без этого не достигается должное качество).

Цитата:
сделаю простую GUIную прогу для сборки обработанных ST файлов в DjVu.

Собираетесь захватить весь "рынок" DjVu-книгосканирования? Своей недостаточно качественной продукцией ("не-заморачивательной")? А не слишком ли грандиозно?
Только не забывайте, что фриварных качественных DjVu-кодировщиков не существует (DjVu Solo 3.1 не в счёт, т.к. он не консольный). miniDjVu - это игрушка и баловство - крайне сомнительно, что его можно рекомендовать как серьёзное средство для массового дежавючения. Адекватность miniDjVu ещё предстоит доказать многочисленными тестами и исследованиями.
 
P.S. СканКромсатор,  при всех своих колоссальных недостатках, всё-таки гораздо более "честная" программа (без этой лживо-лицемерной "не-заморачивательности"), чем Ваш СТ.
 
P.P.S. В Вашей программе (СТ) нет даже ластика.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 21:31 04-04-2010 | Исправлено: monday2000, 21:33 04-04-2010
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000
 

Цитата:
miniDjVu - это игрушка и баловство - крайне сомнительно, что его можно рекомендовать как серьёзное средство для массового дежавючения.

 
Ну, лично я активно использую и полагаю, что усилия, затраченные на его доводку, для меня вполне окупились. Впрочем, здесь это оффтопик.
 

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 22:05 04-04-2010
C0USIN



Silver Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Tulon

Цитата:
Похоже, что Scan Tailor уже сделал пост-обработку достаточно простой для домохозяек*, и теперь осталось последнее для них препятствие - сборка страниц в DjVu или PDF.

А как же OCR? Распознавание текста никто не сможет сделать лучше FineReader. Из него же потом собирается PDF или Djvu. Зачем приделывать ST лишнюю функцию, которую он все равно не сможет делать качественно?

Всего записей: 2739 | Зарегистр. 18-07-2003 | Отправлено: 15:56 05-04-2010 | Исправлено: C0USIN, 16:01 05-04-2010
terminat0r



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Распознавание текста никто не сможет сделать лучше FineReader

Не знаю, не знаю, я не стал бы так говорить
Например www.cuneiform.ru  Если допилить, то будет ничем не хуже. Уже сейчас результаты достаточно хорошие.

Всего записей: 2084 | Зарегистр. 31-03-2002 | Отправлено: 17:38 05-04-2010
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)
Maz (10-01-2024 10:45): Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru