Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Wget

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178

Открыть новую тему     Написать ответ в эту тему

GaDiNa



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
[ UNIX Shell ] || [ Рекурсивная загрузка веб-сайтов ] — родительские ветки.
 
GNU Wget

GNU Wget — это свободная неинтерактивная утилита для скачивания файлов по HTTP, HTTPS, FTP и FTPS (и только), обладающая самым базовым функционалом загрузки одиночных файлов и рекурсивной загрузки сайтов (HTTP) и директорий (FTP).
 

| Офсайт | Википедия | Фрешмит | Опен-хаб (бывш. Охлох) | Мануал | Ман | Ман (русск., устар.) | --help (русск.) |

 
Где взять.
Под GNU — уже стоит. Под FreeBSD — есть в портах. Под [Mac] OS X — собрать ванильный.  
Под Windows есть варианты: Cygwin | GNUWin32 (учитывайте зависимости) | Wget + OpenSSL by GetGnuWin32  | by TumaGonx Zakkum (он же osspack32 и The Moluccas  |  by Jernej Simoncc (32 и 64 бит отдельные пакеты) | Wget2.
.
 
Литература.
Popkov. Параметры программы wget
В. А. Петров. Wget — насос для Интернета
 
FAQ
 
Q: Можно ли простым перебором загрузить страницы (допустим) с первой по сотую, если их адреса:  
http://example.org/index?page=1
http://example.org/index?page=2
...
http://example.org/index?page=100
A: Вэ-гет не умеет делать инкрементальный перебор, поскольку это умеет делать любая командная оболочка. На Баше это делается так:
$ wget -E "http://example.org/index?page="{1..100}
Еще раз отметьте, {1..100} — это синтаксическая конструкция Баша, а не Вэ-гета. Эквивалентной этой будет команда:
$ for i in {1..100}; do wget -E "http://example.org/index?page=$i"; done
Или для cmd.exe:
for /l %i in (1,1,100) do wget -E "http://example.org/index?page=%i"
 
Q: А как собственно сайт целиком-то загрузить?
A: $ wget -mpEk "http://example.org"
Это, наверное, самый ходовой набор ключей, но вам, может быть, более подойдут другие. Что значит каждый — легко узнать в мане.
 
Q: Я хочу загрузить с сайта, требующего авторизации. Что делать?
A: Проще всего кинуть куда-нибудь файл с нужными (но лишние не помешают) куками в нетскэйповском формате, затем воспользоваться ключом --load-cookies.
$ wget --load-cookies cookies.txt бла-бла # файл cookies.txt в текущей директории
У Файрфокса куки в требуемом виде можно получить, воспользовавшись расширениями «Export Cookies» либо «Cookie.txt»; у Хрома — «Cookie.txt export»
 
Q: Не-ASCII символы сохраняются в именах файлов как %D0%A5%D1%83%D0%B9 (или того хуже), хотя локаль юникодная.
A: Укажите ключ --restrict-file-names=nocontrol,unix или --restrict-file-names=nocontrol,windows соответственно.
Если у вас Windows и локаль не юникодная — используйте вариант от Alex_Piggy с ключом --local-filesystem-encoding=ENCODING, где ENCODING — имя кодировки локали в терминах iconv. Текущую локаль cmd.exe можно проверить при помощи команды chcp. Для русской кириллицы в Windows обычно используется CP866.
 
Q: Известно, что можно приказать Вэ-гету обновить ранее загруженный файл, если на сервере новее или иного размера (ключ --timestamping, он же -N). Можно приказать учитывать только дату, но не размер (--timestamping --ignore-length). А можно ли учитывать только размер, но не дату?
A: При помощи одного только Wget’а — нет.  Возможна обработка получаемых заголовков файла при помощи средств командной оболочки. Пример для cmd.exe.
 
Q: Можно ли приказать Вэ-гету докачать файл, но только если он не изменился.
A: Нет, нельзя. Сочетание ключей -cN (--continue --timestamping), как можно было бы предположить, нужного эффекта не даст — «докачает» даже если файл изменился — получите в итоге мусор.
 
Q: Можно ли при рекурсивной загрузке ограничится только ссылками, содержащими параметр lang=ru, т.е. грузить:
http://example.org/index?lang=ru
http://example.org/page?id=1001&lang=ru
http://example.org/file?id=60&lang=ru&format=dvi
и не грузить:
http://example.org/index?lang=en
http://example.org/about?lang=fr
и т.д.
A: Для версий < 1.14 нет такой возможности.  
Общий вид URI: <протокол>://<логин>:<пароль>@<хост>:<порт>/<путь>?<параметры>#<якорь>. Так вот ключи -I (--include-directories) и -X (--exclude-directories) относятся только к пути, но не к параметрам.
В версиях > 1.14 возможно при использовании ключей --accept-regex / --reject-regex. Пример: --reject-regex "lang=[^r][^u]"
 
Q: Можно ли средствами Вэ-гета ограничить перечень загружаемых файлов по дате модификации (новее чем, старше чем)?
A: Нет такой возможности.
 
Q: Можно ли при рекурсивной или множественной загрузке произвольно задать целевые пути и/или имена файлов на основе пути/имени по-умолчанию (применить транслитерацию, отбросить хвостовую часть) или хотя бы независимо (сгенерировать случайно или по счетчику)?
A: Нет.
 
Q: То — нельзя, это — невозможно. Почему все так плохо?
A: Потому что Вэ-гет на настоящий момент — базовая программа, предоставляющая только самый базовый функционал. Если вы уперлись в потолок ее возможностей, просто смените ее на другой инструмент. Из неинтерактивных свободных программ наиболее функциональными будут:
aria2c — для загрузки одиночных файлов по HTTP(S), FTP, бит-торренту;
httrack — для рекурсивной загрузки («зеркалирования») веб-сайтов;
lftp — для работы по FTP, FTPS, SFTP, FISH, а также с листингами, отдаваемыми по HTTP(S) (пример).
curl — для работы с одиночными файлам по HTTP(S), FTP(S) и многими другими протоколами на более низком уровне.
wput — клон wget для аплоада файлов на удаленные FTP(S) сервера.
axel — клон wget для многопоточной загрузки одиночных файлов по протоколам HTTP(S) и FTP(S). Порты для Windows: 2.4, 2.16.1
 
Разное.
GUI для Wget’а
 

Смело правьте и дополняйте шапку, однако не забывайте отписываться об исправлениях и сохранять исходный вариант под #.

Всего записей: 1551 | Зарегистр. 17-06-2003 | Отправлено: 13:39 08-11-2003 | Исправлено: anynamer, 11:40 25-12-2023
MENNENN



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Victor_VG
Спасибо за подсказку, почитал справку и сохранил в режиме перебора. Прекрасная программа, помогла до утра не сидеть, за час сохранила больше тысячи картинок.


Всего записей: 49 | Зарегистр. 26-04-2009 | Отправлено: 02:07 10-02-2022 | Исправлено: MENNENN, 02:13 10-02-2022
penguen



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Комрады, такая тема. Скачиваю сайт, все льется как на сайте, т.е. зеркальная копия, но файлы bin не скачивает. Никаких флагов запрещ. скачивать bin нету.

Всего записей: 451 | Зарегистр. 04-03-2005 | Отправлено: 13:36 09-03-2022
Pasha_ZZZ



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
penguen
Возможно они лежат на отдельном домене, в такой ситуации нужны дополнительные ключи комстроки

Всего записей: 12403 | Зарегистр. 11-03-2002 | Отправлено: 13:48 09-03-2022
penguen



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
penguen
Возможно они лежат на отдельном домене, в такой ситуации нужны дополнительные ключи комстроки

 
Нет, все в пределах одного хоста. В корне лежат, все скачивает вгет, кроме бин файлов
И еще, на другом сайте так же все скачивает но кроме папки внутри которой есть файлы *.json

Всего записей: 451 | Зарегистр. 04-03-2005 | Отправлено: 16:47 09-03-2022
Pasha_ZZZ



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
penguen
1. Попробовать
Цитата:
-e robots=off

2. Если с п.1 не выйдет - то искать в логе про эти файлы.

Всего записей: 12403 | Зарегистр. 11-03-2002 | Отправлено: 16:49 09-03-2022
penguen



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
penguen
1. Попробовать
Цитата:
-e robots=off
 
2. Если с п.1 не выйдет - то искать в логе про эти файлы.

 
Данный параметр прописан изначально. Как лог посмотреть?

Всего записей: 451 | Зарегистр. 04-03-2005 | Отправлено: 17:21 09-03-2022
Pasha_ZZZ



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
penguen
Запустить с параметром
Цитата:
-o file.log

Всего записей: 12403 | Зарегистр. 11-03-2002 | Отправлено: 17:25 09-03-2022
penguen



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
penguen
Запустить с параметром
Цитата:
-o file.log

Лог файл ничего существенного не показывает.
 
Хочу данный сайт спарсить,  
 

Цитата:
http://prb123.ir/leefultrainer/  
там есть папка games в вложен. в нее файлами *.json
 

Цитата:
 
http://prb123.ir/leefultrainer/games/*.*
 

 
Вот содержимое папки геймз не сливает на ПК
 

Цитата:
 
Мой код
 
set wget=c:\bin\wget_v1.20.3_.exe  
set link=http://prb123.ir/leefultrainer/
set path=c:\321\
 
%wget% -e robots=off -o file.log --user-agent="Mozilla/5.0 (PlayStation; PlayStation 4/9.00) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0 Safari/605.1.15" -R "*.zip" -r -l 5 -k -p -m -E -nc --tries=100 --mirror --convert-links --no-check-certificate %link% -c -P %path%
 


Всего записей: 451 | Зарегистр. 04-03-2005 | Отправлено: 17:33 09-03-2022
Pasha_ZZZ



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
penguen
Там кругом жабаскрипт и аякс

Всего записей: 12403 | Зарегистр. 11-03-2002 | Отправлено: 17:43 09-03-2022
penguen



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
penguen
Там кругом жабаскрипт и аякс

 
Т.е. не стянет?

Всего записей: 451 | Зарегистр. 04-03-2005 | Отправлено: 17:50 09-03-2022
Pasha_ZZZ



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
penguen
Никак нет

Всего записей: 12403 | Зарегистр. 11-03-2002 | Отправлено: 17:52 09-03-2022
Habib2302



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Доброе время суток. Имеется допустим проект на PCBWAY и при попытке сделать заказ печатное платы происходит подгрузка файла из сервера PCBWAY Вот ссылка. Подробности. Возможно ли скачать файл через wget?

Всего записей: 529 | Зарегистр. 09-05-2012 | Отправлено: 10:39 14-04-2022
king_stiven

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Habib2302
По вашей ссылке открывается просто страница.

Всего записей: 2229 | Зарегистр. 17-07-2006 | Отправлено: 13:36 18-04-2022
Habib2302



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
king_stiven
У меня происходит подгрузка zip архива из сервера сайта вот по этой ссылке
 
   
 
Вот видео

Всего записей: 529 | Зарегистр. 09-05-2012 | Отправлено: 03:55 26-04-2022 | Исправлено: Habib2302, 04:05 26-04-2022
Mavrikii

Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Habib2302

Цитата:
У меня происходит подгрузка zip архива из сервера сайта  

так загрузка то не к вам на компьютер.
что, как и в каком виде сервер передает в https://pcbwayfile.s3-us-west-2.amazonaws.com/gerber/20/09/09/0150233124682.zip - неизвестно.
потому что напрямую выдает  

Цитата:
<Code>AccessDenied</Code>
<Message>Access Denied</Message>

то есть есть какой то способ авторизации, может по IP (что с сервера запрос), может еще какие параметры передаются - нам это неизвестно.

Всего записей: 15117 | Зарегистр. 20-09-2014 | Отправлено: 04:12 26-04-2022
Fenrizz



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Habib2302
Попробуйте этим скачать - https://s3tools.org/s3cmd

Всего записей: 677 | Зарегистр. 12-09-2017 | Отправлено: 07:16 26-04-2022
JekaKot



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Всем привет.
В текущих реалиях есть проблема доступа к некоторым сайтам без VPN. Соответственно, возникла мысль сделать оффлайн-зеркало для комфортного просмотра на тех машинах, где нет возможности настроить VPN.
Можно ли сделать зеркала таких сайтов с помощью wget или посоветуете другой инструмент?
Пример сайта - https://communities.bentley.com/products/plant/w/plant_design_and_engineering__wiki

Всего записей: 2697 | Зарегистр. 10-03-2006 | Отправлено: 19:01 18-05-2022
vzhik777

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Всем прт.
Тоже руки зачесались сию приблуду заюзать.
Имеем ввиду винду 8.1, в ней встроенный дефендер. И бесплатно и винду не вешает. Понравился в общем.
Нашел как с отключенными обновлениями винды только его базы обновлять.. но вручную
https://www.microsoft.com/en-us/wdsi/defenderupdates - Microsoft Defender Antivirus for Windows 10 and Windows 8.1
х64 дает такую ссылку: https://go.microsoft.com/fwlink/?LinkID=121721&arch=x64
Но так как база обновляется, реальные ссылки разные:
 

Цитата:
https://definitionupdates.microsoft.com/download/DefinitionUpdates/VersionedSignatures/AM/1.367.299.0/1.1.19200.6/amd64/mpam-fe.exe
    https://definitionupdates.microsoft.com/download/DefinitionUpdates/VersionedSignatures/AM/1.367.303.0/1.1.19200.6/amd64/mpam-fe.exe

 
Захотелось все-таки заавтомастизировать хотя бы при запуске винды, состряпал батничек:
 

Код:
wget -c "https://go.microsoft.com/fwlink/?LinkID=121721&arch=x64"
start mpam-fe.exe
Timeout 60  
del mpam-fe.exe
pause

 
А оно мне воно шо выдоёт:
 
 

Код:
C:\bat>wget -c "https://go.microsoft.com/fwlink/?LinkID=121721&arch=x64"
--2022-05-22 18:28:26--  https://go.microsoft.com/fwlink/?LinkID=121721&arch=x64
 
Resolving go.microsoft.com (go.microsoft.com)... 104.75.59.137
Connecting to go.microsoft.com (go.microsoft.com)|104.75.59.137|:443... connecte
d.
HTTP request sent, awaiting response... 302 Moved Temporarily
Location: https://www.microsoft.com/security/encyclopedia/adlpackages.aspx?arch=
x64 [following]
--2022-05-22 18:28:26--  https://www.microsoft.com/security/encyclopedia/adlpack
ages.aspx?arch=x64
Resolving www.microsoft.com (www.microsoft.com)... 104.73.93.171
Connecting to www.microsoft.com (www.microsoft.com)|104.73.93.171|:443... connec
ted.
HTTP request sent, awaiting response...
 

висит, висит... потом бац и  
 

Код:
 
Connecting to www.microsoft.com (www.microsoft.com)|104.73.93.171|:443... connec
ted.
HTTP request sent, awaiting response... 403 Forbidden
2022-05-22 18:30:27 ERROR 403: Forbidden.
 

 
Скачивал само лучшее/последнее отседлва https://eternallybored.org/misc/wget/ со всякими тама вкусняшками.. и ни але..
 
Еще пробовал хромом через батник, но почему то виснет при скачивании и дальше батник не отрабатывает..  
 
Добавлено:
Нашел вот такое: Сервер запрещает доступ к файлу. Если это не навороченная защита и для скачивания файла не нужно предварительно авторизовываться, то думаю будет достаточно поменять useragent wget'у
--user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:21.0) Gecko/20100101 Firefox/21.0"
 
Но у меня хром. Че тады вписать?
 
Добавлено:
Еще вот такое, но тут ваще ничо нипоняль:
 
Google Chrome и Mozilla Firerfox предоставляют возможность скопировать ссылку для скачивания специально для cURL. Эта опция сгенерирует cURL со всеми необходимыми вещами, такими как пользовательский агент для загрузки вещей со стороны. Чтобы получить это,
 
Откройте URL-адрес в любом из браузеров.
Откройте параметры разработчика с помощью Ctrl+ Shift+ I.
Перейдите на вкладку Сеть.
Теперь нажмите на загрузку. Сохранение файла не требуется. Нам нужна только сетевая активность, пока браузер запрашивает файл с сервера.
Появится новая запись, которая будет выглядеть как « download.aspx?... ».
Щелкните правой кнопкой мыши и выберите « Копировать» &#8594; «Копировать как cURL» .
Вставьте скопированный контент непосредственно в терминал и добавьте --output file.extension, чтобы сохранить контент в файле.расширение, поскольку терминал не может отображать двоичные данные.
Пример команды:
 
curl 'https://company-my.sharepoint.com/personal/path/_layouts/15/download.aspx?SourceUrl=
%2Fpersonal%2Fsome%5Fpath%5Fin%2Ffile' -H 'User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux  
x86_64; rv:73.0) Gecko/20100101 Firefox/73.0' -H 'Accept: text/html,application/xhtml+xml,
application/xml;q=0.9,image/webp,*/*;q=0.8' -H 'Accept-Language: en-US,en;q=0.5'  
--compressed -H 'DNT: 1' -H 'Connection: keep-alive' -H 'Referer: https://company-my
.sharepoint.com/personal/path/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Fagain%5Fa%5Fpath%2F
file&parent=%2Fpersonal%2Fpath%5Fagain%5Fin%2&originalPath=somegibberishpath' -H  
'Cookie: MicrosoftApplicationsTelemetryDeviceId=someid;  
MicrosoftApplicationsTelemetryFirstLaunchTime=somevalue;  
rtFa=rootFederationAuthenticationCookie; FedAuth=againACookie; CCSInfo=gibberishText;  
FeatureOverrides_enableFeatures=; FeatureOverrides_disableFeatures=' -H  
'Upgrade-Insecure-Requests: 1' -H 'If-None-Match: "{some value},2"' -H 'TE: Trailers'  
--output file.extension

Всего записей: 680 | Зарегистр. 03-03-2007 | Отправлено: 18:36 22-05-2022 | Исправлено: vzhik777, 18:38 22-05-2022
Pasha_ZZZ



Platinum Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
vzhik777
"%ProgramFiles%\Windows Defender\MpCmdRun.exe" -removedefinitions -dynamicsignatures
"%ProgramFiles%\Windows Defender\MpCmdRun.exe" -SignatureUpdate

Всего записей: 12403 | Зарегистр. 11-03-2002 | Отправлено: 18:43 22-05-2022
vzhik777

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Pasha_ZZZ

Цитата:
Нашел как с отключенными обновлениями винды...

Твой способ знаю, мне не ок..  

Всего записей: 680 | Зарегистр. 03-03-2007 | Отправлено: 19:07 22-05-2022
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178

Компьютерный форум Ru.Board » Компьютеры » Программы » Wget


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru