Здравствуйте.
У меня проблема с запуском GROMACS на GPU. Если запускать на одном узле:
sbatch -N1 -p gputest -t 10 impi mdrun_mpi
то всё работает, за исключением потерь производительности из-за использования только одной GPU карты. Это можно поправить, вопрос в другом. Если запускать на двух узлах:
sbatch -N2 -p gputest -t 10 impi mdrun_mpi
то работает только первый (наверное). В логе SLURMа сначала идут сообщения об ошибках:
srun: error: slurm_receive_msgs: Socket timed out on send/recv operation srun: error: Task launch for 1031018.0 failed on node node6-155-10: Socket timed out on send/recv operation srun: error: Application launch failed: Socket timed out on send/recv operation srun: Job step aborted: Waiting up to 2 seconds for job step to finish. srun: error: Timed out waiting for job step to complete
далее следует обычный лог работы GROMACS на одном узле (в данном случае - node6-155-9).
Как можно запустить задачу на нескольких узлах?
|