MAGNet

Silver Member | Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору Paromshick, ну.. начнем с того, что я поднял тему, которая касается моей конкретной ситуации с вполне определенными вводными и по сему продолжаю обсуждать её, свою конкретную ситуацию, где Керио - это интересующая меня служба, которая запущена под линуксом в виртуальной машине, что, как вы понимаете, несколько отличается от табуна ваших "коней в вакууме" )) По сути вы предлагаете правильное решение с убиванием процесса виртуальной машины и мне оно более чем подходит в отличии от вендовых виртуальных машин, потому что они просто так на ровном месте не виснут и после холодного рестарта с ненулевой вероятностью окончательно встают раком. Далее вот это: Цитата: Соответственно, гипер знает, что ОСь встала колом. | Это не так. Именно поэтому они до сих пор не запилили того самого watchdog'а, о котором я здесь и начал. Увы, но нет инструментария, дающего четкий однозначный ответ, что "гость висит", ибо слишком сложная это система и что-то в ней может "висеть", а что-то - нет. Именно поэтому Цитата: интересны службы, которые она предоставляет | я сам неоднократно наблюдал намертво зависшую венду, которая не смотря ни на что продолжала предоставлять некоторые сервисы, например NTP; если от системы требовалось только это, то нет никаких предпосылок её ребутить. Теперь перейдем вот сюда: Цитата: Насчёт того, что гиперу нужно пинговать машину для понимания того, что она отвалилась это не верно, а уж в случае Windows внутри Windows, не верно в корне. | Это верно, потому что, читаем выше, нам насрать на душевное здоровье машины и работают ли там сервисы - это нам тоже неинтересно - нам нужен результат работы этих сервисов. Если у вас в сервере сгорела сетевая карта, то какой прок вам от того, что сервер работает и службы там активны? Если отваливается транспортный узел, то до самих сервисов уже нет никакого дела и если в случае с физическим сервером вам приходится менять сгоревшую сетевую карту, то в случае с виртуальным, его нужно просто перезагрузить, а это значит, что определение недоступности сервиса по отсутствию пинго - верно. Если пинга нет, то сервис недоступен - это как бы очевидно. Понимаю, что именно подобная ситуация натолкнула вас на мысль написать следующую "гениальную" мысль: Цитата: Если же гостевая ОСь в порядке, то неужели она сама не может что-то пинговать, ближнего своего, и по событию делать shutdown -r -f -t 000 | Дело же в том, что сама идея watchdig'а заключается в том, что это отдельная сущность, которая следит за вверенным объектом снаружи и, если что, начинает "лаять", или "гавкать", как вам больше нравится )) Потому что чаще всего бывает, что удаленная система виснет наглухо и сама себя перезагрузить не может. Цитата: Надо вешать шелезяку перед всё этой поляной. Но нужен еще один IP | Вот это совершенно верно в случае с "железным" оборудованием, для виртуальных серверов такой "железякой" служит сам хост, который и проверяет их жизнеспособность. Ну и ещё в завершение про неверность пингов - сетевые устройства перезагружаются "сторожем" как раз по отсутствию пинга, что дает им понимание, что устройство зависло и сервисы не предоставляет. Мой сервис, Керио, как раз-таки является сетевым и вполне подходит под такое условие. Вам это может вполне не подходить, потому что сервисы, оказываемые вашими серверами, могут вообще не пользоваться ethernet-интерфейсами, а передавать информацию по iSCSI, например, или через астрал, так что беру вот эти свои слова обратно. Цитата: Думаю, что в вашем случае пойдёт та же схема - если служба недоступна снаружи, то вам должно быть всё равно, работает она или нет | Для этого во всех уважающих себя серверах с IPMI есть независимый аппаратный сторож-таймер, который принудительно перезагрузит сервер, если его не сбросить вовремя. Критическая служба просто раз в минуту посылает по шине сигнал сброса и таймер возвращается в исходное состояние, если же этого не происходит, то когда счетчик таймера дойдет до нуля - он перезагрузит сервер. Добавлено: Цитата: если же этого не происходит, то когда счетчик таймера дойдет до нуля - он перезагрузит сервер | кстати, уважающие себя террористы делают так же, как и уважающие себя серверы, но только - тсссс! - я об этом не говорил и вы меня не слышали  |