Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » HTTrack Website Copier

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11

Открыть новую тему     Написать ответ в эту тему

ShigaLex



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Рекурсивная загрузка веб-сайтов; оффлайн-браузеры — общая тема по вопросу; если вы еще не определились с выбором инструмента, то вам туда.

HTTrack Website Copier

 
HTTrack — свободное приложение для рекурсивной загрузки веб-сайтов, т.е. для той задачи, которую решают Wget в режиме зеркалирования (--mirror) и проприетарные Teleport Pro и Offline Explorer.
Основной интерфейс — неинтерактивный командный, но доступно и по меньшей мере две графические оболочки: виндовый WinHTTrack и браузерный WebHTTrack.

 

| Офсайт | Википедия | Фрешмит | Ман |

 
Документация:
Httrack Users Guide by Fred Cohen — довольно длинный учебник
FAQ & Troubleshooting — официальный FAQ
HTTrack Website Copier by Leto Kauler — годная смесь FAQ'а и мануала
 
Зачатки FAQ'а:
Q: Я хочу загрузить сайт, который требует авторизации. Что делать?
A: Кинуть в текущую директорию файл cookies.txt с нужными (но лишние не помешают) куками в нетскэйповском формате, HTTrack его подхватит. У Файрфокса куки в требуемом виде можно получить, воспользовавшись расширением «Export Cookies»; у Хрома — «Cookie.txt export».
 

Смело правьте и дополняйте шапку, однако не забывайте отписываться об исправлениях и сохранять исходный вариант.

Всего записей: 18 | Зарегистр. 30-07-2007 | Отправлено: 21:34 30-07-2007 | Исправлено: Maz, 15:54 01-04-2019
ArJ

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подробнее... [/more] [/more]

Всего записей: 1 | Зарегистр. 24-05-2012 | Отправлено: 20:52 24-05-2012 | Исправлено: ArJ, 23:12 24-05-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ArJ

Цитата:
Привет всем!
 
Столкнулись с такой проблемой, используя wget:
 
Например, есть файл на сайте site.com/Files/LibFiles/80.wmv Парсинговый скрипт ищет его как login:pasword@live-st.ru/Files/LibFiles/80.wmv. В таком же виде по умолчанию он кладет его в кеш прокси.  
 
2. Сайт написан так, что пользователь зайдя в свой кабинет открывает этот файл как l site.com/Files/LibFiles/80.wmv Но такого объекта в кеше прокси нет.  
 
Раньше мы устанавливали редирект прокси с login:pasword@site.com/Files/LibFiles/80.wmv на  site.com/Files/LibFiles/80.wmv, но проблема была в корректном создании списка редиректа.  
 
Сейчас хотим пойти другим путем, необходимо, чтобы он по умолчанию обращался без пароля, а пароль возвращал только в случае запроса сервера. Как-то так. И да, бежать должно в командной строке.
 
Часть файлов под паролем, часть нет.
 
Можно ли решить данную проблему при помощи HTTrack? И вообще как ее можно решить (под Юниксом в командной строке)?  

 
И вам привет. Может быть, я просто туго соображаю, но я не понял, ни что вы вообще делаете, ни какое место у вас занимают Вэ-гет и кэширующий прокси.
Отвечая на конкретный вопрос: можно ли указать сабжу отправлять аутентификационные данные только после отлупа анонимного запроса, скажу, что не видел такой странной опции, ни у него, ни у какого-либо другого HTTP-клиента. В первую очередь, полагаю, потому не видел, что это и так дефолтное поведение; в том числе и у Вэ-гета.
Замечу также, что если у вас есть некий «парсинговый скрипт», т. е. вы используете Вэ-гет не в рекурсивном режиме, то нет никаких проблем реализовать еще один уровень проверки, дописав пару строчек.
 
P. S. Милый слоненок. ;-)

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 21:42 24-05-2012 | Исправлено: ASE_DAG, 22:11 24-05-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ASE_DAG  
Подскажите пожалуйста можно ли выкачать закрытый форум http://www.traderacademy.ru/forum/   ?
Почему то ввод логина и пароля не помогает.
Файл cookies.txt с нужными куками куда кидать в папку с программой или в папку где сохраняется форум?

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 14:20 06-09-2012 | Исправлено: Andreykhv, 14:55 06-09-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> можно ли выкачать закрытый форум http://www.traderacademy.ru/forum/
Можно. По крайней мере у меня никаких проблем с авторизацией по кукам не возникло.
 
> ввод логина и пароля не помогает
Не очень понятно, куда вы их там вводили.
 
> cookies.txt с нужными куками куда кидать
> в папку с программой или в папку где сохраняется форум
Ни то, ни другое. «Кинуть в текущую директорию» — это в ту директорию, в которой вы будете находится, отдавая команду. Т. е. если вы приказываете так:
you@yourpc:~/mydownloads$ httrack 'http://www.traderacademy.ru/forum/'
то куки должны быть в файле ~/mydownloads/cookies.txt.
 
> с нужными куками
Вот еще что. Я не зря указал в шапке, что лишние не помешают. Возможно вы выбирая нужные, ненароком забыли какую-то. Я выслал вам личкой достаточный перечень кук с действительными значениями — сопоставьте со своим.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 19:59 06-09-2012 | Исправлено: ASE_DAG, 20:20 06-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ASE_DAG
Спасибо Вам за готовность помочь.
Логин и пароль ввожу нажимая кнопку добавить URL  в соответствующие поля.
Все настройки программы по умолчанию.
У меня windows. Программу запускаю ярлыком.
Файл cookies.txt  программа создала в папке где сохраняется форум но он отличается от вашего. Файл cookies.txt который я извлек с помощью расширения «Export Cookies» он отличался от файла программы и от вашего и ситуацию не изменил. Подскажите пожалуйста в чем может быть причина.

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 21:35 06-09-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> нажимая кнопку добавить URL  в соответствующие поля
Т. е. вы пользуетесь каким-то из двух граф. интерфейсов, а не просто httrack’ом. К сожалению, мне из них не знаком ни один.
 
> У меня windows.
Это пока не проблема. httrack кроссплатформенен и может быть сам, безо всяких гуев, использован под Виндой точно так же, как я вам показал: cookies.txt в текущую папку и  
>httrack "http://www.traderacademy.ru/forum/"
 
Однако если коминтерпретатор Винды вам не нравится, то можете установить Цигвин (Cygwin) — с ним будет проще.
 
> Файл cookies.txt который я извлек с помощью расширения «Export Cookies»
> он отличался от ... вашего
> в чем может быть причина
Причина того, что он отличается? Ну во-первых, как вы заметили, «Export Cookies» сохраняет все куки, что помнит ФФ, для всех сайтов. А во-вторых, некоторые куки имеют временную или случайную составляющую.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 22:27 06-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ASE_DAG
куки которые создает программа выглядят так
 
# HTTrack Website Copier Cookie File
# This file format is compatible with Netscape cookies
www.traderacademy.ru    TRUE    /    FALSE    1999999999    SESS6666cd76f96956469e7be39d750cc7d9    d4nr4dnrhpeia5s2aghcvg1ma7
www.traderacademy.ru    TRUE    /    FALSE    1999999999    bbcalendar    b8424425aa5156d5a860deb8a5545e91f30f88fba-3-%7Bs-7-.calyear._s-4-.2011._s-8-.calmonth._i-12_s-8-.calview1._s-12-.displaymonth._%7D
www.traderacademy.ru    TRUE    /    FALSE    1999999999    bblastvisit    1346958244
www.traderacademy.ru    TRUE    /    FALSE    1999999999    bbforum_view    07af71d5f927c653434db2105f6b4ad07f5b44f8a-5-%7Bi-1_i-1346958248_i-2_i-1346958249_i-35_i-1346958257_i-38_i-1346958262_i-55_i-1346958270_%7D
www.traderacademy.ru    TRUE    /    FALSE    1999999999    bblastactivity    0
gyrlog.ru    TRUE    /    FALSE    1999999999    cuid    V/Ja0FBI9EeMtvHiE6AyAg==
 
а куки из мозиллы такие
 
www.traderacademy.ru    FALSE    /    FALSE    0    SESS6666cd76f96956469e7be39d750cc7d9    hkb2461oacp1f76916cg1q54r2
www.traderacademy.ru    FALSE    /    FALSE    0    bbsessionhash    729eb579f664cd70c16709ad951cf004
www.traderacademy.ru    FALSE    /    FALSE    0    bblastvisit    1346957784
www.traderacademy.ru    FALSE    /    FALSE    0    bblastactivity    1346957784
www.traderacademy.ru    FALSE    /    FALSE    0    bbuserid    115147
www.traderacademy.ru    FALSE    /    FALSE    0    bbpassword    8265cf847f5c03cc1328f8ad0ea5426f
www.traderacademy.ru    FALSE    /    FALSE    0    top_menu_slider_state    user_cabinet
www.traderacademy.ru    FALSE    /    FALSE    0    has_js    1
.traderacademy.ru    TRUE    /    FALSE    0    __utma    269248180.366057278.1346957767.1346957767.1346957767.1
.traderacademy.ru    TRUE    /    FALSE    0    __utmb    269248180.2.10.1346957767
.traderacademy.ru    TRUE    /    FALSE    0    __utmc    269248180
.traderacademy.ru    TRUE    /    FALSE    0    __utmz    269248180.1346957767.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)
 
 

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 23:38 06-09-2012 | Исправлено: Andreykhv, 00:05 07-09-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> куки которые создает программа выглядят так
Они вас, очевидно, не интересуют.
 
> а куки из мозиллы такие  
Мне кажется, что ничем, кроме собственно значений, зависящих от времени и от случайных величин, не отличаются от тех, что я вам высылал. Их и надо положить с именем cookies.txt в текущую директорию.
 
P. S. Что у вас с размером шрифта?

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 23:53 06-09-2012 | Исправлено: ASE_DAG, 23:54 06-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ASE_DAG
И подскажите пожалуйста что значит текущая директория? Это папка которая открыта? и как отдавать команду httrack "http://www.traderacademy.ru/forum/"  ?

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 23:59 06-09-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> что значит текущая директория? Это папка которая открыта?
Да.
 
> как отдавать команду httrack "http://www.traderacademy.ru/forum/"
Если это вопрос про то, как пользоваться командной оболочкой, доступной в вашей системе, то обратитесь к тем, кто с ней хорошо знаком — в ветку «Командная строка Windows», например. Мне вам это об’яснять не вполне сподручно.
Ну или, если не хотите мучаться с виндовым шеллом, поставьте, как я уже предлагал, Цигвин. Не забудьте только при установке выбрать в т. ч. и httrack.


----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 00:43 07-09-2012 | Исправлено: ASE_DAG, 00:49 07-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ASE_DAG
Получатся что через граф.интерфейс  HTTrack Website Copier не все функции доступны или работают?
Подскажите пожалуйста при установке Цигвин какие пакеты выбрать чтобы можно было запустить HTTrack Website Copier ?

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 10:08 08-09-2012 | Исправлено: Andreykhv, 11:14 08-09-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> через граф.интерфейс  HTTrack Website Copier не все функции доступны или работают?
Я не знаю. Говорю же, что не знаком ни с тем, ни с другим гуем. Вообще такое вполне может быть, но в данном случае, скорее всего, вы просто не нашли, как это сделать через гуй, а я и не искал. :-)
 
> при установке Цигвин какие пакеты выбрать чтобы можно было запустить HTTrack?
Кроме тех, что выбраны по умолчанию — только собственно httrack. И это общее правило — существует же разрешение зависимостей (dependencies resolving): вы выбираете только нужный вам пакет, а пакетный мэнэджер добавит и все остальное, что нужно еще.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 18:36 08-09-2012 | Исправлено: ASE_DAG, 18:37 08-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В HTTrack в   по умолчанию стоит принимать куки. И есть поля для адреса сайта, логина и пароля. Вроде все просто. После ввода логина и пароля в строке адреса появляется http://xxx:yyy@www.traderacademy.ru/forum/  где x логин y пароль как Вы ASE_DAG указывали в одном из постов. Но что не идет
 

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 19:13 08-09-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> В HTTrack в по умолчанию стоит принимать куки.
Я знаю.
 
> http://xxx:yyy@www.traderacademy.ru/forum/
Это HTTP basic authentication. А вам нужна авторизация POST-запросом (сделаете браузером) с сохранением состояния в куках — скормите полученные браузером куки сабжу.
 
Ну как, вы там поставили Цигвин?

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 20:24 08-09-2012 | Исправлено: ASE_DAG, 20:24 08-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Цигвин поставил. Пакеты выбрал по умолчанию скачалось 3,5 гига после установки получилось 7.  
Лучше дальше потихоньку буду осваивать линукс.
У меня второй операционной системой стояла Ubuntu я ее реанимировал.  
Запустил HTTrack через терминал из папки где лежали куки загрузка пошла но авторизации не произошло. Подскажите пожалуйста в чем может быть дело?

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 19:29 13-09-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> в чем может быть дело?
Гм. Архизабавно. Лишние куки таки мешают, если их слишком много. Отфильтруйте предварительно нужные:
 
$ grep 'traderacademy.ru' cookies.txt > cookies.txt.tmp
$ mv cookies.txt{.tmp,}
$ httrack 'http://www.traderacademy.ru/forum/'

 
Надо поправить шапку, подыскав иное расширение — которое экпортитирует только куки для текущего сайта.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 20:33 13-09-2012 | Исправлено: ASE_DAG, 20:34 13-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Лишние куки я удалил. Оставил только www.traderacademy.ru там шесть строчек

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 21:04 13-09-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> www.traderacademy.ru
Нет, неправильно. Не $ grep 'www.traderacademy.ru' cookies.txt > cookies.txt.tmp, а $ grep 'traderacademy.ru' cookies.txt > cookies.txt.tmp.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 21:15 13-09-2012
Andreykhv

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо за команду! Вырезал я ей нужные куки но что все равно не произошла авторизация. Может я не правильно запускаю HTTrack?

Всего записей: 15 | Зарегистр. 07-07-2009 | Отправлено: 22:01 13-09-2012
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Andreykhv
> Может я не правильно запускаю HTTrack?
Я не знаю, как вы его запускаете. Вы этого не сообщили.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 00:08 14-09-2012 | Исправлено: ASE_DAG, 00:15 14-09-2012
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11

Компьютерный форум Ru.Board » Компьютеры » Программы » HTTrack Website Copier


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru