Что может привести к чрезмерному замедлению кэширования кэша в большом кластере?

Я пытаюсь во время ввода / вывода файлов на своих дисках. Чтобы убедиться, что все операции ввода-вывода происходят с жестких дисков, а не с ram, прежде чем я прочитаю какое-либо время, я запустил команду кэширования. В частности, я вызываю fprintf в программе на C для записи 3 в /proc/sys/vm/drop_caches . Вот источник:

 FILE *f = fopen("/proc/sys/vm/drop_caches", "w"); if (!f) { perror("Opening of /proc/sys/vm/drop_caches failed"); return 1; } fprintf(f, "3"); fclose(f); 

Код фактически работает на многих машинах в большом кластере, и у большинства из них возникла странная проблема. Для запуска кода выше иногда требуется несколько часов. Рабочий процесс здесь Read → Drop Cache → Repeat. Мое чтение занимает около 5 минут, поэтому в течение небольшого количества времени не должно быть много кэширования.

Машины почти идентичны в программном и аппаратном обеспечении, но из примерно 20 из них только одна машина, у которой никогда не возникает проблем с ее кэшем.

Есть ли причина, по которой это должно длиться так долго? В некоторых случаях я думаю, что программа просто замерзает. Любые советы по устранению неполадок?

Изменить: ================================================================================================= ==========

Я немного потрудился по этому вопросу, и я просто хотел каталогизировать то, что смог найти, если кто-то еще столкнется с этой проблемой в будущем. Долгое и короткое это, мы думаем, что это как-то связано с Hadoop и HDFS.

1) Я смог запустить мою программу C вручную на машине, в то время как другой экземпляр команды был повесил трубку, и в некоторых случаях она вернется перед витой программой. То есть фактическое падение кэша, вероятно, не так долго, потому что другой экземпляр программы смог сбросить кеш и вернуться

2) Причина, по которой одна из машин не беспокоилась, заключается в том, что хаоп или, возможно, какая-то другая программа рушится на этом узле, что не позволяет использовать его для hadoop. Вот почему мы думаем, что это связано с HDFS.

Interesting Posts

восстановление раздела ext4 после dd'ing над запуском HD

Дать время сценария для выполнения, если оно превышено, остановить его

Является ли это перенаправление на / dev / null?

как заставить rsync связывать идентичные файлы с параметром -link-dest, если старый файл уже существует?

cronjob для автоматического резервного копирования БД на сегодняшний день с префиксом файла

Список mimetypes, который по умолчанию соответствует заданному файлу .desktop

GNU / Linux: автоматическое клонирование системы с разделами, зашифрованными с помощью LUKS + dm-crypt

Redhat: «статус громкости gluster» показывает NFS-сервер на локальном хосте как N / A и Offline

Использование времени для функций bash (не команд)

Уязвимость призраков – перекомпилируйте программы C / C ++?

Пробелы как разрывы строк из команды inline for loop

Относительные символические ссылки не разрешаются в подкаталоге

«Ifconfig -a» не показывает никаких интерфейсов

Что такое эквивалент KDE сценария Nautilus?

udhcpc, начиная с PHY

Linux и Unix - лучшая ОС в мире.