PARALLEL.RU

Дискуссионный клуб по параллельным вычислениям
Текущее время: 13 дек 17 0:41

Часовой пояс: UTC + 4 часа [ Летнее время ]




Начать новую тему Ответить на тему  [ Сообщений: 4 ] 
Автор Сообщение
 Заголовок сообщения: infiniband + dhcp
СообщениеДобавлено: 20 мар 13 17:14 
Не в сети

Зарегистрирован: 2 ноя 11 19:40
Сообщения: 26
Откуда: Владивосток
Коллеги, направьте на путь истинный!

Ситуация: есть кластер ~20TFLOPS (10CPU+10GPU), узлов 35 штук с разной ночинкой, до недавнего времени были соединены двумя сетями GigabitEthernet (для SSH и NFS -- да-да, для СХД медленно, но на нормальные решения нет денег) и Infiniband 4xQDR (для MPI MVAPICH2). Удалось чуть-чуть проапргрейдить и добавить второй Infiniband 4xQDR. Хотим перенести на этот второй Infiniband NFS в надежде улучшить скокрость работы с NAS-сервером. Итого в новую NAS-фабрику включено: 3 свитча (в корзинах, на блейдах 2-портовые карточки) + 2-ух портовая карточка на NAS-сервер. Фабрика собрана, стоит OFED 1.5.4.1, драйвера из OFED, Subnet Manager. Протестирована скорость, латеность и т.д. iblinkinfo - полность показазывает все LID'ы и GID'ы. Все показатели устраивают! Вообщем сделал вывода, что фабрику я собрал нормально!

Хочется: Поднять в этой фабрике NFS. Предполагаю, что это вероятно не самое лучшее мое решение, но перед глазами не было эталона, чтобы принимать нормальные решения. Нашел мануал в том же OFED'е, где сказано, что можно NFS пускать поверх Infiniband, только сначала нужно IPoIB поднять. IPoIB поднял! Вообщем-то достаточно загрузить драйвер и появляются привычные сетевые интерфейсе в ядре. В моем случае ib0 и ib1. ib0 не трогаю - он по умолчанию выбирается MVAPICH2 для обмена сообщениями. Если прописывать адреса статически, то вообщем-то все работает. Все пингую, могу монтировать, то есть - все работает!. Но прописывать адреса статически, несмотря на то, что узлов всего 35, рука не поднимается. Тем более, что DHCP в калстере присутствует и для Gigabit'ных сетей адреса успешно разадаются. Вообщем хочу DHCP! Нашел мануал в Интернете, в OFED'е нашел патчи для DHCP, собрал, попытался использовать опцию client-identifier (как написано). Получил....

Проблема: у меня отказывается работать юниадресная рассылка. Когда DHCP клиент посылает на 255.255.255.255 DHCPDISCOVER, дословно ядро пишет следующее:
Код:
Mar 20 12:57:48 node-s17 dhclient: DHCPDISCOVER on ib1 to 255.255.255.255 port 67 interval 3 (xid=0x60d91f3e)
Mar 20 12:57:48 node-s17 kernel: ib1: Unicast, no dst: type 0044, QPN 100148 0000:0000:8011:3996:0000:0000:ffff:ffff
Mar 20 12:57:51 node-s17 dhclient: DHCPDISCOVER on ib1 to 255.255.255.255 port 67 interval 3 (xid=0x60d91f3e)
Mar 20 12:57:51 node-s17 kernel: ib1: Unicast, no dst: type 0044, QPN 100148 0000:0000:8011:3996:0000:0000:ffff:ffff
Mar 20 12:57:54 node-s17 kernel: ib1: Unicast, no dst: type 0044, QPN 100148 0000:0000:8011:3996:0000:0000:ffff:ffff
Mar 20 12:57:54 node-s17 dhclient: DHCPDISCOVER on ib1 to 255.255.255.255 port 67 interval 7 (xid=0x60d91f3e)
Mar 20 12:58:01 node-s17 kernel: ib1: Unicast, no dst: type 0044, QPN 100148 0000:0000:8011:3996:0000:0000:ffff:ffff
Mar 20 12:58:01 node-s17 dhclient: DHCPDISCOVER on ib1 to 255.255.255.255 port 67 interval 14 (xid=0x60d91f3e)
Mar 20 12:58:05 node-s17 /etc/init.d/net.ib1[24780]: start-stop-daemon: caught SIGINT, aborting
Mar 20 12:58:05 node-s17 /etc/init.d/net.ib1[24689]: net.ib1: caught SIGINT, aborting
Mar 20 12:58:15 node-s17 dhclient: DHCPDISCOVER on ib1 to 255.255.255.255 port 67 interval 9 (xid=0x60d91f3e)
Mar 20 12:58:15 node-s17 kernel: ib1: Unicast, no dst: type 0044, QPN 100148 0000:0000:8011:3996:0000:0000:ffff:ffff
Mar 20 12:58:24 node-s17 kernel: ib1: Unicast, no dst: type 0044, QPN 100148 0000:0000:8011:3996:0000:0000:ffff:ffff
Mar 20 12:58:24 node-s17 dhclient: DHCPDISCOVER on ib1 to 255.255.255.255 port 67 interval 16 (xid=0x60d91f3e)
Mar 20 12:58:40 node-s17 dhclient: DHCPDISCOVER on ib1 to 255.255.255.255 port 67 interval 9 (xid=0x60d91f3e)
Mar 20 12:58:40 node-s17 kernel: ib1: Unicast, no dst: type 0044, QPN 100148 0000:0000:8011:3996:0000:0000:ffff:ffff
Mar 20 12:58:49 node-s17 dhclient: No DHCPOFFERS received.


Ясно, что главаня ошибка "Unicast, no dst ....". Я понял ее так, что IPoIB делает преобразование ip-адреса в 128-битный IB-адрес, а в созданной фабрике такой адрес отсутствует и система мне вежливо намекает, мол, мужик, не буду ничего посылать, ибо некуда!

Мои Вопросы:
1. Может быть кто-то ткнет носом в человеческий мануал: Как настроить DHCP в IB! Пока Гугл мне не помог. Все, что я нашел, пока утыкается в проблему Unicast no dst. Куда дальше копать, пока не знаю!
2. Как попытаться в фабрике завести этот адрес? Если такое вообще позволительно? Углубился в чтение IB Arch Spec, но пока ответа также нет! Вообще, думается, что в этом документе я не отыщу ответ на свой вопрос.
3. Может быть все, что я тут понаписал в корне неверно и нужно все делать по другому! Как? Коллеги откликнитесь, кто эксплуатирует похожее оборудование!

Заранее спасибо!
Извините, много текста получилось!


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: infiniband + dhcp
СообщениеДобавлено: 29 апр 13 14:56 
Не в сети

Зарегистрирован: 11 дек 02 19:37
Сообщения: 871
Откуда: НИВЦ МГУ
Попробуйте просто статичесикие адреса прописать...


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: infiniband + dhcp
СообщениеДобавлено: 4 май 13 1:08 
Не в сети

Зарегистрирован: 2 ноя 11 19:40
Сообщения: 26
Откуда: Владивосток
Просто статические - все работает.
Но когда узлов уже больше 20, как-то надоедает прописывать вручную :)
Мастерю костыль (видимо как у многих), берется адрес управляющей сети и из него формируется адрес для IB.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: infiniband + dhcp
СообщениеДобавлено: 24 окт 14 14:54 
Не в сети

Зарегистрирован: 24 окт 14 14:50
Сообщения: 1
В руководстве пользователя по кластерному комплексу МГУ (5 апреля 2011 г.)
на стр. 18-19 даётся описание интерактивного выполнения задачи и запуска в пакетном режиме.

_________________
Get free demos for Pass4sure SY0-401 questions and answers exam and College of the Holy Cross exam with 100% guaranteed success. Our best quality COMPTIA prepares you well before appearing in the final exams of University of Pennsylvania Good Luck.


Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 4 ] 

Часовой пояс: UTC + 4 часа [ Летнее время ]


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB