Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Рекурсивная загрузка веб-сайтов; оффлайн-браузеры (OfflineExplorer, TeleportPro, HTTrack)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

Открыть новую тему     Написать ответ в эту тему

Orlon



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Сравниваем возможности и недостатки оффлайн-браузеров:
OfflineExplorer - (Pro/Potable/Enterprise)
Teleport - (Pro-$50/Ultra-$200/VLX-$2000/Exec-$2500)
 
WebCopier, Webzip, SXBandMaster, WebTransporter, HTTrack, Wget, Wysigot...
Что лучше?
 
ТАБЛИЦЫ СРАВНЕНИЯ :
 
1. по версии разработчика OfflineExplorer цитата
2. по версии автора статьи на iXBT.com
 
Путеводитель по offline-браузерам подробная серия статей на iXBT.com
 
Родственные темы:
Web Organizer-ы (CyberArticle, NetCollector, etc.,)
Мониторинг обновления web-сайтов
RSS Feed Readers | News Aggregators
Сохранение составного flash
rutv.ru Скачиваем потоковое видео

Всего записей: 549 | Зарегистр. 08-01-2002 | Отправлено: 03:21 30-01-2002 | Исправлено: ASE_DAG, 02:41 08-09-2011
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подскажите парсер для сайтов напичканных рекламой - типа авакса или вот этого https://softarchive.la/
 
не нужно качатть все ссылки, нужна локально обозримая база контента!
(в качестве необязательного бонуса - чтобы можно было скачать "одним кликом" только нужное.)

Всего записей: 17149 | Зарегистр. 14-10-2001 | Отправлено: 21:05 10-01-2017 | Исправлено: LevT, 11:05 11-01-2017
ChernavinOleg

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
 
Тут просто - скачивать с начального сайта и разрешить два каталога загрузки:
 
/blogs/
/page-*/
 
Уровень - неограничен. Я бы посоветовал Offline Explorer - в диалоге Свойств Проекта все это настраивается. Список разрешенных каталогов - Фильтры URL - Каталоги.

Всего записей: 240 | Зарегистр. 13-06-2016 | Отправлено: 03:21 11-01-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ChernavinOleg
 
дык получится не локальная база контента - а-таки офлайновая копия сайта
 да ещё и без серверных фишек вроде поиска по бд
 
 
Добавлено:
 
Возможно, я в неправильной теме спрашиваю: пошлите в нужную.

Всего записей: 17149 | Зарегистр. 14-10-2001 | Отправлено: 11:09 11-01-2017
ChernavinOleg

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
 
А в каком именно виде нужен контент? Если бы были визуальные шаблоны, выделить кусок страницы и этот кусок складывать в колонку Excel таблицы. А другой кусок со страницы - в другую колонку. Что-то такое подошло бы?
 
Опишите свой идеальный вариант. Если можно подробнее.

Всего записей: 240 | Зарегистр. 13-06-2016 | Отправлено: 14:48 11-01-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Ну есть вроде бы категория софта: парсеры сайтов.
Кстати, я ею не пользовался, а оффлайн браузерами напротив пользовался, но очень давно.
 
насколько я понимаю, парсер создаёт локальную базу данных - а на оформление ему в принципе наплевать.
Мне тоже )

Всего записей: 17149 | Зарегистр. 14-10-2001 | Отправлено: 15:43 11-01-2017
ChernavinOleg

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
 
Так что же Вам нужно? Парсер сайтов или оффлайн браузер? Или гибрид этого?

Всего записей: 240 | Зарегистр. 13-06-2016 | Отправлено: 15:46 11-01-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ну то есть если будет возможность нахаляву отобразить оригинальную страницу без рекламы - пуркуа бы и не па?
Но главное нужна полноценная база данных - с теми же категориями, что в оригинале и всяческим поиском (но локальным).
 
Пожалуй, сойдёт и удалённый поиск (по сформированному локально запросу) - но освобождённый от навешеннной на результат рекламы.
 
 
Добавлено:
 
Итак, приоритетно:
1) не ходить по пронумерованным страницам обвешанным рекламой - а стянуть сразу всю базу.
2) искать в результатах, опираясь на максимум информации с оригинальных страниц (тут парсинг уже неизбежен: информации из URL в общем случае недостаточно)
 
Во вторую очередь:
3) Получить нужные части контента нужных оригинальных страниц.
(В качестве необязательного бонуса или бета-версии можно получать весь контент нужных страниц - но без попандеров и прочей мути.)

Всего записей: 17149 | Зарегистр. 14-10-2001 | Отправлено: 15:47 11-01-2017 | Исправлено: LevT, 16:11 11-01-2017
ChernavinOleg

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
 
Попробуйте скачать Offline Explorer-ом. Вот последняя версия:
 
http://www.metaproducts.com/download/betas/opsetup.exe
 
Настройки проекта я описал выше. В загруженных страницах рекламы нет. Поиск можно делать в программе - в окне Найти Содержимое.
 
Посмотрите, что необходимо улучшить под Ваши нужды.

Всего записей: 240 | Зарегистр. 13-06-2016 | Отправлено: 04:15 13-01-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ChernavinOleg
 
спвсибо, пробую
 - но первое что увидел это кракозябры вместо русского в верхней строке меню
Я с этой системой (2016 сервер) не каждый день работаю - но работаю плотно (правда, софтом с дефолтными русскими настройками не пользуюсь)
Локаль в ней русская.
 
 
Добавлено:
 
Начал с "карты сайта".
Триал скачал 2007 файлов и заткнулся.

Всего записей: 17149 | Зарегистр. 14-10-2001 | Отправлено: 07:44 13-01-2017
ChernavinOleg

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
 
Карту сайта нет смысла, сразу обычное скачивание. У триала лимит в 2000 файлов. Если недостаточно, напишите мне на support@metaproducts.com

Всего записей: 240 | Зарегистр. 13-06-2016 | Отправлено: 19:27 13-01-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
написал
 
Добавлено:
Интересно, как часто в Вашей практике встречаются серверные ограничения против офлайн-браузеров? Как к ним готовиться и что делать при встрече?

Всего записей: 17149 | Зарегистр. 14-10-2001 | Отправлено: 12:07 19-01-2017
ChernavinOleg

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
 
Да, ограничения бывают разных уровней. Кто-то отслеживает по IP адресу и банит, если слишком много запросов. Это можно обойти, поставив TOR и в Offline Explorer есть настройка через TOR прокси.
 
Есть более хитрые системы типа CloudFlare - тут можно сначала зайти через встроенный браузер в программе, ввести капчу, залогиниться и потом начать скачивать.
 
А если через скриптование ссылок, когда стьраницу загрузишь, а ссылки - увы. Отчасти это решается новым режимом скачивания в Offline Explorer Pro, когда страница грузится в браузере сначала, а потом сохраняется из него. И далее программа берет с нее все ссылки на другие страницы, по очереди их открывает и сохраняет.  
 
Получается дольше, чем обычным способом, но некоторые сайты только так, например, Facebook

Всего записей: 240 | Зарегистр. 13-06-2016 | Отправлено: 14:54 19-01-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

А "карта сайта" разве не может помочь? (в каких-то случаях)
Не качать всё сразу, а определить только нужный объём
А потом уже с этим ограничением предпринимать описанное Вами.

Всего записей: 17149 | Зарегистр. 14-10-2001 | Отправлено: 15:12 19-01-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ChernavinOleg
 
Вот такая хрень мне приехала с одним проектом
https@r3---sn-ufv3vh-n8ve.googlevideo.com\videoplayback@id=o-AHB_YQDHYWOu7Soog9MkS8wxXX32QmovwZJwqO2Glxvu&source=youtube&dur=3330.100&ip=46.188.124.60&keepalive=08F2D1C16D
 
занимает 483Мб из 1100Мб
 
было б это смотрибельное видео, я собственно не против...  а в таком виде лучше избежать.
Этого можно добиться настройками?
 

Всего записей: 17149 | Зарегистр. 14-10-2001 | Отправлено: 01:08 20-01-2017
ChernavinOleg

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
 
Это смотрибельное видео. Если открывать внутри Offline Explorer. Или сделать экспорт, чтобы добавилось корректное расширение.

Всего записей: 240 | Зарегистр. 13-06-2016 | Отправлено: 01:59 20-01-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Вот, наткнулся на блог за CloudFlare. Есть контент, зачем-то защищённый бесплатным "членством", до кучи используется Disqus (для комментов, а может и ещё для чего)
 
Есть более хитрые системы типа CloudFlare - тут можно сначала зайти через встроенный браузер в программе, ввести капчу, залогиниться и потом начать скачивать.
 
А как сказать программе, чтобы подождала, пока я войду под своей учёткой?
Включил радиокнопку "загружать через встроенный браузер" - но оно меня не ждёт.

Всего записей: 17149 | Зарегистр. 14-10-2001 | Отправлено: 20:29 20-01-2017 | Исправлено: LevT, 20:29 20-01-2017
ChernavinOleg

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
 
А просто войти во встроенном браузере на сайт и потом запустить закачку.

Всего записей: 240 | Зарегистр. 13-06-2016 | Отправлено: 00:37 21-01-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Спасибо.
Вот ещё чему научите, пожалуйста.
(Это мой пожалуй самый типичный сценарий)
 
http://onreader.mdl.ru/CephCookbook/content/VirtualizationExample.html
 
Хочу скачать всё с сайта плюс получить список сайтов, на которые ведут оттуда ссылки. (А потом возможно добавить их к проекту)
 
Слишком много мусорных внешних ссылок получается - всякая реклама и счетчики. Их можно исключить?  Напрашивается интеграция с фильтрами типа адблок.
 
С другой стороны, у меня почему-то вместо первой страницы скачалась "улыбка чеширского кота" - только контент с оглавлением, а оформления нету. И не только оформления, внутреннего извращённого типаменю тоже нету (ссылок на другие соседние книжки).
 
 
Добавлено:
 
Я всегда начинаю с карты сайта (почему-то рука сама тянется туда). И годы назад также делал - и ни тогда, ни сейчас это не приводило к успеху...

Всего записей: 17149 | Зарегистр. 14-10-2001 | Отправлено: 17:32 21-01-2017
ChernavinOleg

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
 
Не могу открыть сайт. Поэтому попробуйте разрешить закачку только с начального сайта и во всех Фильтрах Файлов выбрать Загружать Согласно Фильтрам URL в поле Расположение. Это в настройках проекта.
 
Чтобы оформление было нормальное, можно попробовать режим загрузки через браузер. Или после загрузки просмотреть сайт в режиме автосохранения.
 
Потом можно взять ссылки на другие сайты на вкладке Уровни и оттуда добавить эти адреса в проект.

Всего записей: 240 | Зарегистр. 13-06-2016 | Отправлено: 04:52 22-01-2017
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ChernavinOleg
ожил сайт
 
Добавлено:
 
Вы не пробовали сделать интеграцию со списками адблок и т.п.?
Всё же очень много мусора тянет, если "разрешить сторонние сайты".  
 
Времена изменились радикально, нужна автоматическая фильтрация шума, хотя бы заведомого.
Хотя... по стародавнему опыту и тогда тоже релевантные внешние сайты были в меньшинстве.

Всего записей: 17149 | Зарегистр. 14-10-2001 | Отправлено: 14:03 23-01-2017
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

Компьютерный форум Ru.Board » Компьютеры » Программы » Рекурсивная загрузка веб-сайтов; оффлайн-браузеры (OfflineExplorer, TeleportPro, HTTrack)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru