PARALLEL.RU

Дискуссионный клуб по параллельным вычислениям
Текущее время: 8 дек 19 10:18

Часовой пояс: UTC + 4 часа [ Летнее время ]




Начать новую тему Ответить на тему  [ Сообщений: 5 ] 
Автор Сообщение
СообщениеДобавлено: 20 окт 04 18:37 
Ситуация следующая: Две машины: Intel P4 processor, OS ASPLinux 7.3, mpich-1.2.5. Программа отказывается работать после превышения некоторого размера массива, передаваемого функцией MPI_Bcast.
Как я понимаю, проблема заключается в недостаточном размере буфера передачи.
Какой он величины по умолчанию и можно как-нибудь изменить этот размер?


Заранее спасибо.


Вернуться к началу
  
 
СообщениеДобавлено: 20 окт 04 18:51 
Не в сети

Зарегистрирован: 18 ноя 02 16:40
Сообщения: 168
Откуда: Москва
Пользователь может управлять буферизацией пересылок типа точка-точка, используя процедуры посылки с буковкой B (MPI_Bsend и др.), для коллективных операций такой возможности не предусмотрено. Может быть, можно настроить размер буферов при настройке mpich, но это вопрос администрирования, тут я не знаток.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: 20 окт 04 19:07 
Не в сети

Зарегистрирован: 11 дек 02 19:37
Сообщения: 872
Откуда: НИВЦ МГУ
Проверьте код ошибки MPI_Bcast и пары-тройки mpi-процедур, вызванных перед ним. Возможно ошибка обнаружится там.
Попробуйте использовать где-либо MPI_Send с таким же буфером. mpich использует MPI_Send для реализации MPI_Bcast, поэтому, если MPI_Send сработет, а MPI_Bcast нет, значит что-то не так с данными или с программой.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: 21 окт 04 18:31 
Как оказалось, дело не в работе Bcast, т.к. она возвращает нулевой код ошибки.
Однако, в чем проблема непонятно. При вылете программы пишутся такие строки:

bm_list_6422: (51.856602) wakeup_slave: unable to interrupt slave 0 pid 6421
p1_2629: p4_error: net_recv read: probable EOF on socket: 1
bm_list_6422: (51.858158) wakeup_slave: unable to interrupt slave 0 pid 6421
p2_2344: p4_error: net_recv read: probable EOF on socket: 1

Что бы это значило?

Заранее благодарен


Вернуться к началу
  
 
 Заголовок сообщения:
СообщениеДобавлено: 21 окт 04 19:43 
Не в сети

Зарегистрирован: 11 дек 02 19:37
Сообщения: 872
Откуда: НИВЦ МГУ
По всей видимости одна из ветвей падает. Возможно где-то неверно передаются данные или происходит выход за границы массива...


Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 5 ] 

Часовой пояс: UTC + 4 часа [ Летнее время ]


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB