Сервер Unix постоянно перезагружается

У меня есть сервер Unix, который перезагружается каждые несколько минут. Я попытался проследить источник проблемы, зарегистрировав дерево процессов в момент вызова reboot, как описано в ответе этого вопроса .

Однако я не понимаю, где искать дальше.

Журнал содержит эти строки (среди многих других):

root 1 0 0 16:49 ? 00:00:00 /sbin/init root 2894 1 0 16:53 ? 00:00:00 /bin/bash /sbin/shutdown -r now Control-Alt-Delete pressed 

Для меня это похоже на то, что процесс запуска сервера вызывает перезагрузку с shutdown -r . В системном журнале все, что я вижу, это строка:

 sshd[2433]: Received signal 15; terminating. 

Кроме того, это экземпляр Unix Amazon Web Service Unix, который разрешает подключения только с моего IP-адреса. Он также защищен закрытым ключом.

Каковы следующие шаги, которые я могу предпринять, чтобы найти источник проблемы?

Ну, что бы ни делал это, делайте это как root, так что загляните в /var/log/auth.log чтобы узнать, подписывается ли кто-то как root или admin в течение этого времени, или с помощью sudo для получения привилегий root. Возможно, вам придется увеличить уровень ведения журнала в /etc/ssh/ssd_config чтобы получить соответствующие данные.

Другие вещи:

  1. Посмотрите в /etc/passwd чтобы узнать, какие учетные записи являются root или admin, и имеют оболочки bash, определенные для их учетных записей. Если у них есть домашние каталоги, посмотрите, есть ли что-то нечетное в своих файлах .bashrc.
  2. Посмотрите, какие демоны появляются при запуске на вашем ящике. Подробнее см. В этом сообщении . Любая причина, по которой кто-либо из них перезагружается?
  3. Войдите в систему под root и проверьте свои пакетные задания через crontab -e . В вашем примере перезагрузка начинается через 5 минут. Есть ли что-нибудь из этого файла crontab примерно в этот интервал? Все в этой очереди получает корни независимо от того, откуда исходит исходный код.
  4. Чтобы устранить возможность аппаратных ошибок, вы можете попробовать запустить экземпляр этого сервера в другом регионе Амазонки, чтобы убедиться, что это происходит на другом оборудовании.
  5. Был ли этот случай всегда таким, или это началось через некоторое время? У вас есть резервные копии (Amazon AMI от всего этого, чтобы вы могли вернуться к предыдущим версиям, чтобы убедиться, что они все еще демонстрируют это поведение? NB: никогда не может быть достаточно резервных копий AMI !