PARALLEL.RU

Дискуссионный клуб по параллельным вычислениям
Текущее время: 21 июл 18 16:26

Часовой пояс: UTC + 4 часа [ Летнее время ]




Начать новую тему Ответить на тему  [ Сообщений: 2 ] 
Автор Сообщение
СообщениеДобавлено: 10 июн 11 12:58 
Не в сети

Зарегистрирован: 10 дек 10 18:42
Сообщения: 4
CentOS 5.5, TORQUE 2.5.4, Maui 3.3, OpenMPI 1.4.3
Собственно проблема. Один из вычислительных узлов вышел из строя (аппаратные проблемы, сейчас не загружается, на устранение неполадок нужно несколько дней) во время выполнения задания, его приходится исключать из кластера. qdel, ясное дело, теперь эту задачу не снимает и (поскольку она занимала все процессорные ядра), запуск других задач теперь не возможен, в том числе после перезагрузки. Единственное, что приходит в голову - прописать большее количество процессоров для узлов в /var/spool/torque/server_priv/nodes на управляющем узле, но это как-то нехорошо, имхо. Есть ли другие варианты?


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 14 июн 11 12:52 
Не в сети

Зарегистрирован: 30 ноя 05 16:09
Сообщения: 130
Откуда: Ростов-на-Дону
Задача безусловно должна сниматься из решения
командой
qdel -p ID_задания


Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 2 ] 

Часовой пояс: UTC + 4 часа [ Летнее время ]


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB