PARALLEL.RU

Дискуссионный клуб по параллельным вычислениям
Текущее время: 18 ноя 19 23:53

Часовой пояс: UTC + 4 часа [ Летнее время ]




Начать новую тему Ответить на тему  [ Сообщений: 10 ] 
Автор Сообщение
СообщениеДобавлено: 19 апр 12 17:42 
Не в сети

Зарегистрирован: 13 сен 08 19:37
Сообщения: 6
Хотелось бы обсудить ситуацию с периодическим аварийным завершением пользовательских программ на СКИФ Ломоносов.

Обычно это происходит спустя несколько часов после того как задача пошла на счет. Причина сбоев не всегда очевидна. В большинстве случаев я обнаруживаю в выдаче программы такие ошибки:
Цитата:
[2:node1-020-14] unexpected disconnect completion event from [10:node1-032-30]

генерируемые по-видимому MPI библиотекой. Одной из вероятных причинин этих сбоев является нестабильная работа "железа" либо системного ПО узлов кластера.

Иногда в выдаче появляются и такие сообщения:
Цитата:
srun: error: Node failure on node1-079-18
srun: Job step aborted: Waiting up to 2 seconds for job step to finish.
srun: error: node1-070-23: task 3: Terminated
srun: error: node1-070-22: task 2: Terminated
srun: error: node1-072-18: task 5: Terminated
srun: error: node1-070-24: task 4: Terminated
srun: error: node1-032-30: task 1: Terminated
slurmd[node1-020-14]: *** STEP 61508.1 CANCELLED AT 2012-04-19T09:33:48 DUE TO NODE FAILURE ***
slurmd[node1-020-14]: *** JOB 61508 CANCELLED AT 2012-04-19T09:33:48 DUE TO NODE FAILURE ***

явно свидетельствующие о проблемах с отдельными узлами.

Обычно аварийный расчет после одного из повторных запусков все же отрабатывает корректно.

Об аналогичных проблемах сообщают мои коллеги, использующие другое ПО, собранное c openMPI (моя программа собрана с intelMPI).

Частота возникновения подобных сбоев значительна и временами меньше половины запусков завершаются безаварийно!


В связи с этим я хотел бы спросить:

Испытываете ли вы подобные проблемы при работе на СКИФ Ломоносов?

Могли бы администраторы кластера прокомментировать эту ситуацию и ее возможные причины?


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 15 авг 12 16:38 
Не в сети

Зарегистрирован: 15 авг 12 16:33
Сообщения: 1
Я смотрю никто не отвечает, но меня тоже интересует данный вопрос. Регулярно выдает ошибку (в последнее время очень часто):
***JOB ХХХ CANCELLED AT 2012-08-15T00:33:45 DUE TO NODE FAILURE***
Поэтому если можно, повторю вопрос автора темы:

Могли бы администраторы кластера назвать возможные причины данной ошибки?


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 23 окт 12 13:50 
Не в сети

Зарегистрирован: 22 янв 10 22:01
Сообщения: 20
Да, Ломоносов сбоит.
У меня, например, выдает через рандомное время запуска программы ошибки при записи в файл вида
forrtl: Input/output error
forrtl: severe (38): error during write, unit 184, file /mnt/msu/users/...

При этом та же самая программа на "Чебышеве" исполняется корректно.
Также, какое-то время назад и Ломоносов работал без особых сбоев - примерно в начале сентября.

Администрация может как-нибудь это прокомментировать?


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 23 окт 12 17:10 
Не в сети

Зарегистрирован: 11 дек 02 19:37
Сообщения: 872
Откуда: НИВЦ МГУ
Цитата:
***JOB ХХХ CANCELLED AT 2012-08-15T00:33:45 DUE TO NODE FAILURE***

Такие ошибки бывают в случаях, когда система управления заданиями очень долго не может получить отклик от узла. В этом случае она полагает его "зависшим" и удаляет задачу. Такое может быть, если задача очень много занята своппингом (на узлах с дисками) или файловыми операциями.

PetrYuldashev писал(а):
Да, Ломоносов сбоит.
У меня, например, выдает через рандомное время запуска программы ошибки при записи в файл вида
forrtl: Input/output error
forrtl: severe (38): error during write, unit 184, file /mnt/msu/users/...

А Вы в техподдержку писать не пробовали? Только указывайте полную диагностику - что где, какой командой запускаете, какие версии MPI и компиляторов использованы. По тому, что Вы пишите сказать нельзя ровным счётом ничего.

Цитата:
При этом та же самая программа на "Чебышеве" исполняется корректно.

Хочу Вас огорчить - это тоже ничего не значит. Совсем недавно был случай - программа работает на Чебышёве и К1000, но даёт ошибку на Ломоносове. Как оказалось ошибка просто не проявляется на специфических версиях компилятора (видимо куча по другому распределяется), а ошибка именно в программе.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 23 окт 12 21:42 
Не в сети

Зарегистрирован: 22 янв 10 22:01
Сообщения: 20
А как написать в техподдрежку?

Я использовал компилятор intel fortran под OpenMP.

Защищая свою программу, могу сказать, что по сообщениям об ошибках видно, что сбой происходит в команде записи в файл. А это уже стандартная библиотечная команда, где я ошибиться не мог, и ее функционирование проверено как на Чебышеве, так и на настольном компьютере. Заметьте еще, что сбой происходит каждый раз рандомно, даже на одинаковых входных данных. Кажется, это происходит из-за невозможности вычислительного узла в некоторые моменты записать данные на диск. Поток данных на запись небольшой - за время расчета в 2-3 суток я собираю от 1 до 3 Гб данных.

Ненужные файлы в рабочей директории я также почистил, чтобы не превысить невзначай квоту.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 24 окт 12 9:36 
Не в сети

Зарегистрирован: 11 дек 02 19:37
Сообщения: 872
Откуда: НИВЦ МГУ
PetrYuldashev писал(а):
А как написать в техподдрежку?

Если вы получили доступ на "Ломоносов", то должны были ознакомиться с правилами (а Ваше начальство подписаться под этим). Более того, при подтверждении доступа Вам приходит письмо с адреса поддержки и в тексте продублирован этот адрес и всё, что надо писать при обращении.

Цитата:
Защищая свою программу, могу сказать, что по сообщениям об ошибках видно, что сбой происходит в команде записи в файл.

Тут тоже возможны варианты, например, можно затереть файловый дескриптор... Особенно, если это OpenMP - с общей памятью синхронизироваться бывает непросто.

В сам файл-то данные до этого момента попадают?


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 24 окт 12 13:38 
Не в сети

Зарегистрирован: 22 янв 10 22:01
Сообщения: 20
Кажется понял, от техподдрежки периодически приходят письма с разной информацией, и начальство эти письма дублирует.

В программе команды сброса данных в файл находятся вне
параллельной области кода.
А сами данные до сбоя в файл попадают и могут быть прочитаны.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 24 окт 12 15:21 
Не в сети

Зарегистрирован: 11 дек 02 19:37
Сообщения: 872
Откуда: НИВЦ МГУ
Попробуйте выполнить в каталоге, где происходит запись в файл, команду lfs setstripe . -c 8


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 25 окт 12 15:13 
Не в сети

Зарегистрирован: 22 янв 10 22:01
Сообщения: 20
А что эта команда делает? Я ввел, вроде бы ничего не произошло.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 25 окт 12 15:39 
Не в сети

Зарегистрирован: 11 дек 02 19:37
Сообщения: 872
Откуда: НИВЦ МГУ
Эта команда меняет способ распределения файлов на Lustre. Иногда возникают проблемы с большими файлами, приводящими к ошибке с кодом 38, и такое изменение иногда помогает.


Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 10 ] 

Часовой пояс: UTC + 4 часа [ Летнее время ]


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB