Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » HTTrack Website Copier

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10

Открыть новую тему     Написать ответ в эту тему

ShigaLex



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Рекурсивная загрузка веб-сайтов; оффлайн-браузеры — общая тема по вопросу; если вы еще не определились с выбором инструмента, то вам туда.

HTTrack Website Copier

 
HTTrack — свободное приложение для рекурсивной загрузки веб-сайтов, т.е. для той задачи, которую решают Wget в режиме зеркалирования (--mirror) и проприетарные Teleport Pro и Offline Explorer.
Основной интерфейс — неинтерактивный командный, но доступно и по меньшей мере две графические оболочки: виндовый WinHTTrack и браузерный WebHTTrack.

 

| Офсайт | Википедия | Фрешмит | Ман |

 
Документация:
Httrack Users Guide by Fred Cohen — довольно длинный учебник
FAQ & Troubleshooting — официальный FAQ
HTTrack Website Copier by Leto Kauler — годная смесь FAQ'а и мануала
 
Зачатки FAQ'а:
Q: Я хочу загрузить сайт, который требует авторизации. Что делать?
A: Кинуть в текущую директорию файл cookies.txt с нужными (но лишние не помешают) куками в нетскэйповском формате, HTTrack его подхватит. У Файрфокса куки в требуемом виде можно получить, воспользовавшись расширением «Export Cookies»; у Хрома — «Cookie.txt export».
 

Смело правьте и дополняйте шапку, однако не забывайте отписываться об исправлениях и сохранять исходный вариант.

Всего записей: 18 | Зарегистр. 30-07-2007 | Отправлено: 21:34 30-07-2007 | Исправлено: Maz, 15:54 01-04-2019
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> через граф.интерфейс  HTTrack Website Copier не все функции доступны или работают?
Я не знаю. Говорю же, что не знаком ни с тем, ни с другим гуем. Вообще такое вполне может быть, но в данном случае, скорее всего, вы просто не нашли, как это сделать через гуй, а я и не искал. :-)
 
> при установке Цигвин какие пакеты выбрать чтобы можно было запустить HTTrack?
Кроме тех, что выбраны по умолчанию — только собственно httrack. И это общее правило — существует же разрешение зависимостей (dependencies resolving): вы выбираете только нужный вам пакет, а пакетный мэнэджер добавит и все остальное, что нужно еще.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 18:36 08-09-2012 | Исправлено: ASE_DAG, 18:37 08-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В HTTrack в   по умолчанию стоит принимать куки. И есть поля для адреса сайта, логина и пароля. Вроде все просто. После ввода логина и пароля в строке адреса появляется http://xxx:yyy@www.traderacademy.ru/forum/  где x логин y пароль как Вы ASE_DAG указывали в одном из постов. Но что не идет
 

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 19:13 08-09-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> В HTTrack в по умолчанию стоит принимать куки.
Я знаю.
 
> http://xxx:yyy@www.traderacademy.ru/forum/
Это HTTP basic authentication. А вам нужна авторизация POST-запросом (сделаете браузером) с сохранением состояния в куках — скормите полученные браузером куки сабжу.
 
Ну как, вы там поставили Цигвин?

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 20:24 08-09-2012 | Исправлено: ASE_DAG, 20:24 08-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Цигвин поставил. Пакеты выбрал по умолчанию скачалось 3,5 гига после установки получилось 7.  
Лучше дальше потихоньку буду осваивать линукс.
У меня второй операционной системой стояла Ubuntu я ее реанимировал.  
Запустил HTTrack через терминал из папки где лежали куки загрузка пошла но авторизации не произошло. Подскажите пожалуйста в чем может быть дело?

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 19:29 13-09-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> в чем может быть дело?
Гм. Архизабавно. Лишние куки таки мешают, если их слишком много. Отфильтруйте предварительно нужные:
 
$ grep 'traderacademy.ru' cookies.txt > cookies.txt.tmp
$ mv cookies.txt{.tmp,}
$ httrack 'http://www.traderacademy.ru/forum/'

 
Надо поправить шапку, подыскав иное расширение — которое экпортитирует только куки для текущего сайта.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 20:33 13-09-2012 | Исправлено: ASE_DAG, 20:34 13-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Лишние куки я удалил. Оставил только www.traderacademy.ru там шесть строчек

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 21:04 13-09-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> www.traderacademy.ru
Нет, неправильно. Не $ grep 'www.traderacademy.ru' cookies.txt > cookies.txt.tmp, а $ grep 'traderacademy.ru' cookies.txt > cookies.txt.tmp.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 21:15 13-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо за команду! Вырезал я ей нужные куки но что все равно не произошла авторизация. Может я не правильно запускаю HTTrack?

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 22:01 13-09-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> Может я не правильно запускаю HTTrack?
Я не знаю, как вы его запускаете. Вы этого не сообщили.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 00:08 14-09-2012 | Исправлено: ASE_DAG, 00:15 14-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ASE_DAG
Подскажите пожалуйста с какими настройками вы запускаете HTTrack  и какая у вас версия программы? у меня 3.43

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 20:27 14-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Тут нашел про авторизацию через граф. интерфейс http://httrack.kauler.com/help/CatchURL_tutorial  url захватывается закачка идет но авторизация не происходит. Через веб интерфейс в линуксе не работает. А команды я не знаю
ASE_DAG Вся надежда на Вас

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 13:25 15-09-2012 | Исправлено: Andreykhv, 18:37 15-09-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> А команды я не знаю  
А я ее уже говорил:
$ httrack 'http://www.traderacademy.ru/forum/'
 
Тем не менее, пока мы тут с вами канителились, они немного поменяли механизм авторизации, чтобы об’единить авторизацию на форуме с авторизацией на сайте. Во-первых, перелогиньтесь браузером (заодно воочию увидите, что форма логина поменялась), снова сохраните (Tools › Export Cookies...) и отфильтруйте ($ grep 'traderacademy.ru' ...) куки. А во-вторых, теперь они проверяют юзер-агент, и его надо указывать отличным от дефолтного, тогда как не далее, чем позавчера это еще было не нужно.
 
$ firefox http://ifconfig.me/ua
скопировать вывод
$ UA='<сюда вставить>'
$ httrack -F "$UA" 'http://www.traderacademy.ru/forum/'


----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 18:41 15-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ASE_DAG
Большущее Вам спасибо. Процесс пошел, авторизация прошла.  
 
Куки лишние я удалял и в текстовом редакторе и командой $ grep 'traderacademy.ru' cookies.txt > cookies.txt.tmp. которую вы подсказали еще до смены механизма авторизации но результата не было. Видимо причина была в том что я по другому запускал HTTrack.
 
Подскажите пожалуйста а какой командой можно будет продолжить закачку?
 

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 21:33 15-09-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> Процесс пошел, авторизация прошла.
Ну слава богам, наконец-то.
 
> а какой командой можно будет продолжить закачку?  
А как вы ее остановили? ^C? Ну тогда $ httrack -i ($ httrack --continue).

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 22:56 15-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Форум загружался всю ночь. Но часть страниц не доступна, нужна авторизация.  
Прервал загрузку, возобновил, стали не доступны уже загруженные страницы.
Что то не пойму, у них на сайте модернизация какая то проходит?
Заново запустил командой:
 
UA='Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:15.0) Gecko/20100101 Firefox/15.0.1'
httrack -F "$UA" 'http://www.traderacademy.ru/forum/'
 
предварительно обновив куки и отфильтровав файл cookies.txt авторизация не произошла
Что то не пойму в чем причина? То ли я вчера каким то непостижимо случайный образом запустил как надо, то ли идет какая то модернизация на сайте?  

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 10:07 16-09-2012 | Исправлено: Andreykhv, 08:30 01-10-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ASE_DAG
Повторно спустя время запустил с теми же настройками, авторизация произошла началась загрузка, но загрузились только первые страницы тем разделов а сами темы и последующие страницы с темами нет. Нужна авторизация
Подскажите пожалуйста в чем может быть причина?

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 08:25 01-10-2012 | Исправлено: Andreykhv, 08:28 01-10-2012
dyarsleau

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Мой HTTrack 3.46 говорит что есть ограничение одновременных коннектов - только 4! А мне надо хотя-бы 10 ! Задаю -с8 он отвечает: Warning:     * security warning: maximum number of simultaneous connections limited to 4 to avoid server overload.
Чего делать?
 
И ещё вопрос. Как вызывать httrack.exe из bat-файла. Из-под FAR-а всё нормально, но если записать ту же командную строку в bat-файл она интерпретируется неправильно (наверно из-за %" и т.п. символов). Как с этим бороться?
 
спасибо.

Всего записей: 15 | Зарегистр. 22-01-2003 | Отправлено: 19:44 29-11-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
dyarsleau
> security warning: maximum number of simultaneous connections limited to 4
--disable-security-limits, не?
 
 
> Из-под FAR-а всё нормально, но если записать ту же командную строку в bat-файл
> из-за %" и т.п.
Да, если я правильно помню, в виндовом шелле есть какой-то маразм, связанный с различием синтаксиса интерактивных команд и скриптов. Только никакого отношения с сабжу это не имеет, спросите у ваших товарищей по командной оболочке.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 20:00 29-11-2012
dyarsleau

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Да я в принципе знал про экранирование % в bat-файлах, просто очень давно пользовался (ещё под ДОС-ом) и хотел чтобы за меня вспомнили на халяву, так что сорриии... Сейчас проблема решена (надо удваивать % (% -> %%)).
 
А вот с --disable-security-limits возник вопрос. Дело в том что я стал поиском искать в документации ( в httrack\html\*.* ) стринг "disable-security-limits"  и ничего не было найдено! Тогда, понимая что если это опция командной строки, она должна быть в .dll или .exe файле, я её всё-же нашёл в libhttrack.dll !
Закономерный вопрос: Дайте линк на ПОЛНОЕ описание для httrack.
спасибо .

Всего записей: 15 | Зарегистр. 22-01-2003 | Отправлено: 18:17 30-11-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
dyarsleau
Описание синтаксиса, к которому можно обращаться как к справочнику — это всегда ман.
$ man httrack
Но на Винде он у вас, конечно, в таком виде не присутствует, поэтому Гугль в помощь, и первая же ссылка.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 00:41 01-12-2012 | Исправлено: ASE_DAG, 00:59 01-12-2012
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10

Компьютерный форум Ru.Board » Компьютеры » Программы » HTTrack Website Copier


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.Board 2000-2020

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru