Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » HTTrack Website Copier

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11

Открыть новую тему     Написать ответ в эту тему

ShigaLex



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Рекурсивная загрузка веб-сайтов; оффлайн-браузеры — общая тема по вопросу; если вы еще не определились с выбором инструмента, то вам туда.

HTTrack Website Copier

 
HTTrack — свободное приложение для рекурсивной загрузки веб-сайтов, т.е. для той задачи, которую решают Wget в режиме зеркалирования (--mirror) и проприетарные Teleport Pro и Offline Explorer.
Основной интерфейс — неинтерактивный командный, но доступно и по меньшей мере две графические оболочки: виндовый WinHTTrack и браузерный WebHTTrack.

 

| Офсайт | Википедия | Фрешмит | Ман |

 
Документация:
Httrack Users Guide by Fred Cohen — довольно длинный учебник
FAQ & Troubleshooting — официальный FAQ
HTTrack Website Copier by Leto Kauler — годная смесь FAQ'а и мануала
 
Зачатки FAQ'а:
Q: Я хочу загрузить сайт, который требует авторизации. Что делать?
A: Кинуть в текущую директорию файл cookies.txt с нужными (но лишние не помешают) куками в нетскэйповском формате, HTTrack его подхватит. У Файрфокса куки в требуемом виде можно получить, воспользовавшись расширением «Export Cookies»; у Хрома — «Cookie.txt export».
 

Смело правьте и дополняйте шапку, однако не забывайте отписываться об исправлениях и сохранять исходный вариант.

Всего записей: 18 | Зарегистр. 30-07-2007 | Отправлено: 21:34 30-07-2007 | Исправлено: Maz, 15:54 01-04-2019
ONEVZOR1

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
HTTrack Website Copier 3.47.25
 

Цитата:
+ New: support for IDNA / RFC 3492 (punycode) handling
+ New: openssl is no longer dynamically probed at stratup, but dynamically linked
+ Fixed: random closing of files/sockets, leading to “zip_zipWriteInFileInZip_failed” assertion, “bogus state” messages, or random garbage in downloaded files
+ Fixed: libssl.dylib is now in the search list for libssl on OSX (Nils Breunese)
+ Fixed: bogus charset because the meta http-equiv tag is placed too far in the html page
+ Fixed: incorrect \\machine\dir structure build on Windows (TomZ)
+ Fixed: do not force a file to have an extension unless it has a known type (such as html), or a possibly known type (if delayed checks are disabled)
+ Fixed: HTML 5 addition regarding “poster” attribute for the “video” tag (Jason Ronallo)
+ Fixed: memory leaks in proxytrack.c (Eric Searcy)
+ Fixed: correctly set the Z flag in hts-cache/new.txt file (Peter)
+ Fixed: parallel patch, typo regarding ICONV_LIBS (Sebastian Pipping)
+ Fixed: memory leak in hashtable, that may lead to excessive memory consumption
+ Fixed: on Windows, fixed possible DLL local injection (CVE-2010-5252)
+ Fixed: UTF-8 conversion bug on Linux that may lead to buggy filenames
+ Fixed: zero-length files not being properly handled (not saved on disk, not updated) (lugusto)
+ Fixed: serious bug that may lead to download several times the same file, and “Unexpected 412/416 error” errors
+ Fixed: images in CSS were sometimes not correctly detected (Martin)
+ Fixed: links within javascript events were sometimes not correctly detected (wquatan)
+ Fixed: webhttrack caused bus error on certain systems, such as Mac OSX, due to the stack size (Patrick Gundlach)
+ Fixed: bogus charset for requests when filenames have non-ascii characters (Steven Hsiao)
+ Fixed: bogus charset on disk when filenames have non-ascii characters (Steven Hsiao)
+ Fixed: 260-characters path limit for Windows (lugusto)
+ Fixed: non-ascii characters encoding issue inside query string (lugusto)
+ Fixed: HTML entities not properly decoded inside URI and query string
+ Fixed: URL-encoding issue within URI
+ Fixed: –timeout alias did not work
+ Fixed: more windows-specific fixes regarding 260-character path limit
+ Fixed: escaping issue in top index
+ Fixed: Linux build cleanup (gentoo patches merge, lintian fixes et al.)
+ Fixed: Fixed div-by-zero when specifying more than 1000 connections per seconds (probably not very common)
+ Fixed: Mishandling of ‘+’ in URLs introduced in 3.47-15 (sarclaudio)
+ Fixed: “Wildcard domains in cookies do not match” (alexei dot co at gmail dot com )
+ Fixed: buggy referer while parsing: the referer of all links in the page is the current page being parsed, NOT the parent page. (alexei dot com at gmail dot com)
+ Fixed: Russian translation fixes by Oleg Komarov (komoleg at mail dot ru)
+ New: Added .torrent => application/x-bittorrent built-in MIME type (alexei dot co at gmail dot com)
+ Fixed: unable to download an URL whose filename embeds special characters such as # (lugusto)
+ New: Croatian translation by Dominko Aždajić (domazd at mail dot ru)
+ Fixed: url-escaping regression introduced in the previous subrelease

 

Всего записей: 1436 | Зарегистр. 16-03-2010 | Отправлено: 22:33 01-09-2013 | Исправлено: ONEVZOR1, 22:34 01-09-2013
Viveda



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Добрый день всем.
Может кто сталкивался со следующей проблемой - при закачке сайта после определенного времени начинает отображаться такая страница:
"Приносим свои извинения...
... но Ваш компьютер отправляет запросы слишком часто. В целях защиты наших посетителей мы не можем обработать Ваш запрос немедленно.
Для продолжения работы, пожалуйста, введите символы, показанные на картинке:"

И стоит капча.
 
 
Попробовал с такими ключами:

Код:
 
viveda@SR528:~/websites$ httrack http://www.autoprospect.ru/volkswagen/golf2-jetta/ -W -O "~/websites/auto/golf"  -%v2 -c1 -%c1

 
Не помогло, пробовал играть с ключом -GN - тоже не помогает, если указывать слишком маленький размер, не грузит картинки, если большой - на html страницах опять много запросов.
 
Какие еще будут предложения?

Всего записей: 5 | Зарегистр. 14-07-2006 | Отправлено: 17:17 18-09-2013 | Исправлено: Viveda, 19:31 18-09-2013
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Viveda
А при чем здесь -GN? Там же не по об’ему ограничение, а по количеству соединений. Понижайте -%cN. Я взял 0.1 — вот уже двадцать минут загружает и пока не отшили. Но это, пожалуй, с большим запасом.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 04:22 19-09-2013
Viveda



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ASE_DAG
 
Спасибо за подсказку, что-то я стормозил сильно - не догадался про %cN < 1
 
Попробовал 0.3 (раз в 3 сек. получается) - отшивают.
Сейчас на 0.1 - вроде полет нормальный, докачаю, проверю - отпишусь.
 
UPD.
0.1 тоже много, пришлось качать на 0,05 - все скачалось удачно.

Всего записей: 5 | Зарегистр. 14-07-2006 | Отправлено: 10:04 19-09-2013 | Исправлено: Viveda, 23:21 19-09-2013
JekaKot



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Делаю зеркало сайта при помощи WinHTTrack последней версии.
Проблема в том, что сохраняет страницы в формате html, хотя сами страницы в "онлайн"-версии имеют формат htm. Соответственно, после создания зеркала переходы не работают:

Не подскажите, где что нужно подкрутить в настройках?

Всего записей: 2697 | Зарегистр. 10-03-2006 | Отправлено: 10:05 16-11-2013
darnMagus

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Добрый день!
Не подскажете, хочу сделать оффлайн версию сайта, но постоянно натыкаюсь на капчу ил на подтвержение, что я хочу зайти на сайт с данным логином паролем. Как это можно обойти?

Всего записей: 96 | Зарегистр. 24-03-2008 | Отправлено: 17:53 08-11-2014
AnTul

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подскажите, пожалуйста, как настроить, чтобы скачать только видео http://www.pravoslavie.ru/video/ за последние два года. Что-то у меня либо за несколько секунд заканчивает работать (понятно, что ничего не скачивает), либо, если внешние ссылки подцепляю, то долго начинает мусолить и скачивает всякий мусор, хотя в фильтрах я указал только видео. В общем, совсем запутался в этой программе. Впервые её запустил, раньше другой пользовался.

Всего записей: 5482 | Зарегистр. 13-07-2004 | Отправлено: 18:53 17-12-2014
Victor_VG



Tracker Mod
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
JekaKot
 
Я бы mv -fR *.html *.htm использовал. Он же есть и в MinGW сборке не требующей POSIX поддержки.

----------
Жив курилка! (Р. Ролан, "Кола Брюньон")
Xeon E5 2697v2/C602/128 GB PC3-14900L/GTX 1660 Ti, Xeon E5-2697v2/C602J/128 Gb PC3-14900L/GTX 1660 Ti

Всего записей: 33201 | Зарегистр. 31-07-2002 | Отправлено: 23:48 28-01-2015
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
AnTul, все видео же на Ютьюбе, нет? Тогда все просто: httrack не нужен, используйте youtube-dl.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 03:38 29-01-2015
AnTul

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ASE_DAG
- да, спасибо, мне это уже объяснили. Но вот подскажите, как скачать видеофайлы с http://www.andreytkachev.com/ начиная с этого года? И как потом обновлять - если появились свежие, то закачивать только их? Я не нашёл в программе фильтр по дате создания.

Всего записей: 5482 | Зарегистр. 13-07-2004 | Отправлено: 17:24 29-01-2015
Jean



Full Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Всем привет.
Не получается скачать сайт https://htmlacademy.ru
Кто спец по этой программке, можно ли скачать данный сайт?
В файле ошибок пишет:
HTTrack3.48-19+htsswf+htsjava launched on Tue, 17 Feb 2015 18:35:43 at http://evkrem%40ukr.net:f24e1@htmlacademy.ru +*.png +*.gif +*.jpg +*.jpeg +*.css +*.js -ad.doubleclick.net/* -mime:application/foobar
(winhttrack -qwr3C2%Pxs2u1%s%uN2%I0p3DaK0H0%kf2o0A100000%c10%f#f -F "Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)" -%F "<!-- Mirrored from %s%s by HTTrack Website Copier/3.x [XR&CO'2014], %s -->" -%l "ru, en, *" http://evkrem%40ukr%2enet:f24e1@htmlacademy.ru -O1 "D:\htmlacademy\htmlacademy_" +*.png +*.gif +*.jpg +*.jpeg +*.css +*.js -ad.doubleclick.net/* -mime:application/foobar )
Information, Warnings and Errors reported for this mirror:
note: the hts-log.txt file, and hts-cache folder, may contain sensitive information,
 such as username/password authentication for websites mirrored in this project
 do not share these files/folders if you want these information to remain private
18:35:43 Warning:  * security warning: maximum number of connections per second limited to 5.000000 to avoid server overload
18:35:43 Warning:  Moved Permanently for evkrem%40ukr.net:pasword@htmlacademy.ru/robots.txt
18:35:43 Warning:  Redirected link is identical because of 'URL Hack' option: evkrem%40ukr.net:f24e1@htmlacademy.ru/robots.txt and https://htmlacademy.ru/robots.txt
18:35:43 Warning:  Warning moved treated for evkrem%40ukr.net:f24e1@htmlacademy.ru/robots.txt (real one is https://htmlacademy.ru/robots.txt)
18:35:44 Warning:  Moved Permanently for evkrem%40ukr.net:f24e1@htmlacademy.ru/
18:35:44 Warning:  Redirected link is identical because of 'URL Hack' option: evkrem%40ukr.net:f24e1@htmlacademy.ru/ and https://htmlacademy.ru/
18:35:44 Warning:  File has moved from evkrem%40ukr.net:f24e1@htmlacademy.ru/ to https://htmlacademy.ru/
18:35:44 Warning:  No data seems to have been transferred during this session! : restoring previous one!

Всего записей: 520 | Зарегистр. 07-10-2001 | Отправлено: 19:40 17-02-2015 | Исправлено: Jean, 20:43 18-02-2015
3t

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Download HTTrack Website Copier 3.48-21... Windows 2000/XP/Vista/Seven/8 installer version... httrack-3.48.21.exe 3.99 MiB (4182560 B) (16/Mar/2015) WinHTTrack (also included: command line version)
http://www.httrack.com/page/2/en/index.html

Всего записей: 249 | Зарегистр. 28-12-2006 | Отправлено: 20:57 09-04-2015 | Исправлено: 3t, 20:58 09-04-2015
namlung



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Всем привет !  
Прблема следующая . Имеется сайт http://forum.santafe-autoclub.ru/  т.е форум .  
Каждый день по полдня лежит и работает нестабильно , так как переполнен, а расширить место у админов сайта денег нет . я боюсь что скоро он вообще ляжет с концами .  
Чем бы утянуть форум целиком , размер порядка 20 гигабайт .  
так как это форум то вложения очень глубокие есть картинки .  
Поможет ли данная прога мне в этом деле ? или нужно искать что то особенное ?  
В английском полный ноль . поэтому читать мануал на английском будет трудно . не могли бы сказать показать основные моменты что б настроил и пошло поехало .  
На сайте много нужного и ценного материала .  
заранее спасибо

Всего записей: 488 | Зарегистр. 17-10-2008 | Отправлено: 09:16 17-04-2015
AnTul

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Не нашёл в программе фильтр по времени. Чтобы скачать такие-то файлы с такой-то по такую-то дату. Неужели и в самом деле нет?

----------
Василий Великий: «Кто смотрит на зло без отвращения, тот скоро будет смотреть на него с удовольствием».

Всего записей: 5482 | Зарегистр. 13-07-2004 | Отправлено: 21:30 16-05-2015
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Всем привет.
Кто нибудь знает,  можно ли использовать данную программу для сбора url с определенного адреса (без скачивания самих файлов страниц)? просто все ссылки в файл txt.
 В справке сказано, что есть команда  

Код:
http://site.com/ -O /tmp -Y

Но что то такой вариант не работает, по крайне мере  в httrack-3.48.21 для win7

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 12:33 04-10-2015 | Исправлено: shveicar, 12:33 04-10-2015
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shveicar> для сбора url с определенного адреса (без скачивания самих файлов страниц)?
 
А как вы себе это вообще представляете? Откуда УРИ-то будут собираться, если не со страниц?
 
Добавлено:
А если вы имели в виду «не записывая на накопитель», то наверняка можно, но мне проще подсказать вам, как это сделать wget’ом и немного gawk’ом:
 
$ wget 2>&1 --mirror --spider --no-verbose "$URL" | gawk '/URL:/{ sub(/URL:/, "", $3); print $3 }'

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 12:49 04-10-2015 | Исправлено: ASE_DAG, 12:59 04-10-2015
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Цитата:
Добавлено:
А если вы имели в виду «не записывая на накопитель», то наверняка можно, но мне проще подсказать вам, как это сделать wget’ом и немного gawk’ом:
 
$ wget 2>&1 --mirror --spider --no-verbose "$URL" | gawk '/URL:/{ sub(/URL:/, "", $3); print $3 }'

Спасибо, это помогло.

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 00:33 05-10-2015
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Кто нибудь знает, как можно добавить нумерацию к имени файла при скачивании файлов из файла списка?
В справке есть варианты с добавлением к имени md5 например  

Код:
"%М-%n%k.%t"
 
но иногда это сильно удлиняет имя, а вариант с  

Код:
"%q-%n%k.%t"
 
работает далеко не всегда, иногда к имени добавляется просто -
Может хотя бы есть способ добавлять рандомное значение, - типа как в профиле N99 ?
 
И такой момент, - как можно избавится от создаваемого, каждый раз файла name.html.readme ?
Он генерируется автоматически после закачки каждого файла из списка..

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 14:19 30-10-2015 | Исправлено: shveicar, 14:45 30-10-2015
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shveicar> но иногда это сильно удлиняет имя
 
Что значит «иногда»? У MD5-суммы фиксированная длина — 32 символа.
 
> вариант с  "%q-%n%k.%t" работает далеко не всегда, иногда к имени добавляется просто -
 
Это баг, рапортуйте. (Разумеется, убедившись, что он еще не озвучен или даже не исправлен.)
 
> как можно избавится от создаваемого, каждый раз файла name.html.readme?
 
Удалить его. Мне сложно понимать комментированный на французском текст на Си, но, кажется, он создается безусловно.

----------
Dmitry Alexandrov <321942@gmail.com> [PGP] [BTC]

Всего записей: 9272 | Зарегистр. 12-05-2005 | Отправлено: 22:21 30-10-2015
shveicar



Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
ASE_DAG

Цитата:
Что значит «иногда»? У MD5-суммы фиксированная длина — 32 символа.  

Я говорил о варианте аналогичному %q small query string MD5 (16 bits, 4 ascii bytes)  
но видимо это не предусмотрено.
 

Цитата:
Удалить его. Мне сложно понимать комментированный на французском текст на Си, но, кажется, он создается безусловно.

Это плохо, - когда по 80 тысяч файлов качается, это вызывает распухание папки.. Считай что вместо 80 выходит 160.. У меня скрипт настроен, что после загрузки из одного списка происходит удаление этого мусора, но может стоит попробовать удалять name.html.readme после загрузки каждого файла из списка..
 Вроде есть параметр  
 
Код:
- V execute system command after each files
но я им не пользовался..
 

Всего записей: 333 | Зарегистр. 26-09-2010 | Отправлено: 06:15 31-10-2015 | Исправлено: shveicar, 06:34 31-10-2015
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11

Компьютерный форум Ru.Board » Компьютеры » Программы » HTTrack Website Copier


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru