Сначала некоторые пояснения. Я использую несколько тысяч процессорных ядер, на каждом по процессу, и они обмениваются через MPI. Использую компилятор Intel и Intel MPI.
В самом начале программы выполняются вызовы MPI_Init, MPI_Comm_size и MPI_Comm_rank. Сразу после этого процесс 0 через printf выводит дату и еще некоторую информацию, т.е. еще никаких обменов нет и в помине. Статических массивов нет, все динамические. Объем памяти под массивы выделяется большой, но это происходит после printf. На всякий случай напишу, что до любых обменов стоит вызов MPI_Barrier.
Запускаю задачу #146557 на 1250 узлах с 10000 процессов: sbatch -N1250 -n10000 ... Жду 3 суток, пока задача запустится, но в результате файл slurm-146557.out пуст, т.е. даже начальный printf не выполнился (!), а файл slurm-146557.err содержит в точности следующее:
[proxy@node1-029-02.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-029-02.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-123-17.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-123-17.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-050-14.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-050-14.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-126-18.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-126-18.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-027-18.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-027-18.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-050-12.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-050-12.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-066-21.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-066-21.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-033-12.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-033-12.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-051-29.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-051-29.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-042-15.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-042-15.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-116-02.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-116-02.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-066-24.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-066-24.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-052-27.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-052-27.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-116-30.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-116-30.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-025-25.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-025-25.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-081-21.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-081-21.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-025-14.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-025-14.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-101-18.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-101-18.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-107-20.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-107-20.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-037-24.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-037-24.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-099-24.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-099-24.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-037-26.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-037-26.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-117-23.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-117-23.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-002-12.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-002-12.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-127-15.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-127-15.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-121-12.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-121-12.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-046-22.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-046-22.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server [proxy@node1-034-08.lomonosov.parallel.ru] HYDU_sock_connect (./utils/sock/sock.c:151): connect error (Connection timed out) [proxy@node1-034-08.lomonosov.parallel.ru] main (./pm/pmiserv/pmip.c:228): unable to connect to the main server srun: error: node1-081-21: task 833: Exited with exit code 4 srun: Terminating job step 146557.1 srun: error: node1-025-14: task 192: Exited with exit code 4 [mpiexec@node1-001-15.lomonosov.parallel.ru] HYDU_sock_write (./utils/sock/sock.c:283): write error (Connection reset by peer) [mpiexec@node1-001-15.lomonosov.parallel.ru] send_exec_info (./pm/pmiserv/pmiserv_cb.c:523): unable to write data to proxy [mpiexec@node1-001-15.lomonosov.parallel.ru] HYD_pmcd_pmiserv_control_listen_cb (./pm/pmiserv/pmiserv_cb.c:588): unable to send exec info to proxy [mpiexec@node1-001-15.lomonosov.parallel.ru] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status [mpiexec@node1-001-15.lomonosov.parallel.ru] HYDT_bscu_wait_for_completion (./tools/bootstrap/utils/bscu_wait.c:81): error waiting for event [mpiexec@node1-001-15.lomonosov.parallel.ru] HYDT_bsci_wait_for_completion (./tools/bootstrap/src/bsci_wait.c:18): bootstrap device returned error waiting for completion [mpiexec@node1-001-15.lomonosov.parallel.ru] HYD_pmci_wait_for_completion (./pm/pmiserv/pmiserv_pmci.c:225): bootstrap server returned error waiting for completion [mpiexec@node1-001-15.lomonosov.parallel.ru] main (./ui/mpich/mpiexec.c:287): process manager error waiting for completion
Еще меня смущает строчка srun: Terminating job step 146557.1 Не должно ли быть следующее: srun: Terminating job step 146557.0
Раньше такая проблема тоже была. Но тогда я отследил запуск задачи, и как только она рухнула, запустил заново. Видимо в очереди было мало задач, моя задача повторно запустилась и все пошло нормально. Но не факт, что в другой раз задача, поставленная тут же повторно в очередь, сразу запустится. Да и контролировать все "вручную" не хочется. И ждать несколько суток и не получать никакого результата-тоже.
Помогите, пожалуйста, разобраться, в чем причина проблемы и какие есть пути решения.
Заранее спасибо!
|