CentOS 5.5, TORQUE 2.5.4, Maui 3.3, OpenMPI 1.4.3 Собственно проблема. Один из вычислительных узлов вышел из строя (аппаратные проблемы, сейчас не загружается, на устранение неполадок нужно несколько дней) во время выполнения задания, его приходится исключать из кластера. qdel, ясное дело, теперь эту задачу не снимает и (поскольку она занимала все процессорные ядра), запуск других задач теперь не возможен, в том числе после перезагрузки. Единственное, что приходит в голову - прописать большее количество процессоров для узлов в /var/spool/torque/server_priv/nodes на управляющем узле, но это как-то нехорошо, имхо. Есть ли другие варианты?
|