Intereting Posts
Существует ли эквивалент PPA-сервиса в мире Fedora? Давайте зашифровать – Apache – сшивание OCSP grub2-mkconfig не показывает Windows Проблема с установкой Gnome Debian Не удается выйти из i3, потому что не установлен разумный эмулятор терминала zsh завершение – показать больше параметров, чем просто псевдоним Проблема при установке адаптера беспроводной связи alink MT7601U на centos 7 Соединение с tigervnc немедленно закрывается Awk: печать последних N столбцов, где N передается через переменную Является ли /var/crash/.lock безопасным для удаления или его следует сохранить? Как изменить «изменение даты» нескольких папок, чтобы они были такими же .mkv, что внутри каждого, используя Cygwin Целое число после имени пользователя в клиенте OpenSSH, разделенное двоеточием Силовая линия Vim со сломанной кодировкой использование ssh-agent Медленная реакция клавиатуры в некоторых Distros

Может ли чрезмерное использование ресурсов фактически заставлять пользователей быть неспособными SSH к Linux?

Парни ночной поддержки, в которых я работаю, имеют тенденцию перезагружать машины, ссылаясь на то, что они не могут войти и выяснить, что происходит в первую очередь. Это в значительной степени против политики компании, чтобы сделать это (как лицо, ответственное за код на устройствах, это, по крайней мере, против моей политики)

Но, политики и политика в стороне, на самом деле никогда нет экземпляра, где чрезмерное использование ресурсов полностью калечит машину до такой степени, что вы вообще не можете ssh, не так ли? По моему опыту, вы получаете больно медленный терминал, но ssh получает один или два цикла каждые две минуты, и вы можете убить оскорбительный процесс и, возможно, получить дамп стека.

Может быть целесообразно просто перезагрузить машину, но я считаю, что «если мы ее убьем, мы не узнаем ничего». Итак, если кто-то может дать мне несколько боеприпасов, чтобы аргументировать, что перезагрузка – это не ответ и некоторые указатели на устранение неполадок, чтобы помочь перегруженным парням с ночной сменой в довольно много зашитых машинах, я мог бы использовать некоторую помощь.

Если сервер полностью потребляется, он не будет иметь циклы для обслуживания вашего запроса ssh .

Если он полностью потребляется по памяти, он не сможет fork новый процесс sshd для вас.

Я нахожу, что часто бывает, что ssh не работает, и это связано с чрезмерным использованием ресурсов.

Тем не менее, повторное использование режима кувалды при перезагрузке без выяснения основной причины кажется неразумным и недальновидным.

Это действительно просто комментарий, который слишком длинный для комментариев.

Короткий ответ на ваш вопрос:

Да. Переутомление ресурсов может убить все функциональные возможности сервера. Для каждого процесса требуется память. Когда память заканчивается, печальные времена.

Длительный ответ

Если вы не можете восстановить машину, пока она борется, найти основную причину будет труднее для вас.

В следующий раз, когда машина опустится, попробуйте ее сохранить. немедленно прекратите делать то, что вы уже знаете, что это делает. Не тратьте драгоценные секунды на попытку запустить диагностическую команду. Просто прекратите делать то, что вы знаете, что он делает в первую очередь. Это веб-сервер, немедленно уничтожить все процессы apache / nginx / lighttpd. Если он запускает электронную почту, немедленно уничтожьте все процессы электронной почты. Если это сервер базы данных, НЕ ОТПУСКАЙТЕ процессы БД напрямую, но сразу же дайте команду stop (если все запросы БД поступают через веб-сайты или какое-либо приложение, просто убивайте веб-сервер или службу, обслуживающую приложение).

Вам нужно отключить все, что подает все больше и больше процессов на ваш сервер, чтобы ваш сервер не слепо пытался ответить на все запросы и умереть из-за нехватки памяти.

Как только он находится под контролем, и если вы не найдете ничего с диагностикой, ваша единственная надежда – это журналы. Если это веб-сервер / адрес электронной почты / db, проверьте свои журналы на предмет количества запросов IP-адресов в течение определенного периода времени, сравните время, когда сервер не выполняет время, когда он работает плавно. Проверьте вид веб-страниц или запросов электронной почты, которые были получены непосредственно перед и во время проблемы с ресурсами. Проверьте количество запросов DB, ​​записывающих на ваш диск, проблемы с дисками ввода-вывода могут легко восстановить ситуацию до уровня вашего сервера. Вероятно, вы столкнетесь с проблемами с длинными работающими / записывающими БД запросами и / или оскорбительными почтовыми / веб-пользователями.

Кроме того, после того, как службы отключены, и вы хватаетесь за подсказки, проверьте список процессов для любых существующих процессов, которые работают как системные пользователи, которых не должно быть. Например, вы закрываете apache и запускаете его как «никто», посмотрите и посмотрите, работает ли какой-либо другой скрипт «никто». Иногда вы можете найти вредоносные оболочки и вещи, загруженные в tmp таким образом.

Используйте верх, чтобы найти что-нибудь, что есть много памяти, и если вы не уверены в этом процессе, исследуйте его. Используйте команды, такие как lsof и другие системные инструменты, чтобы узнать, от какой директории работает этот процесс, что может дать вам ключ к незаконному процессу.

Скорее всего, вы можете найти что-то вроде этого. Если вы не можете, потому что журнал отстой, тогда, по крайней мере, включите / включите ведение журнала, и у вас будет больше данных, если это произойдет снова. Если это файловый сервер (ftp, scp и т. Д.), Включите ведение журнала, чтобы вы могли видеть, когда файлы загружаются / загружаются. Люди в вашей сети делают массовые загрузки / загрузки одновременно?

Это всего лишь верхушка ледяного берга, вы можете сделать это, но относиться к нему как к расследованию, вам нужен ключ для работы.