PARALLEL.RU

Дискуссионный клуб по параллельным вычислениям
Текущее время: 13 дек 19 8:40

Часовой пояс: UTC + 4 часа [ Летнее время ]




Начать новую тему Ответить на тему  [ Сообщений: 55 ]  На страницу 1, 2, 3, 4  След.
Автор Сообщение
СообщениеДобавлено: 21 июл 04 23:40 
администрирование кластерных сетей :?:


Вернуться к началу
  
 
 Заголовок сообщения:
СообщениеДобавлено: 22 июл 04 10:16 
Не в сети

Зарегистрирован: 11 дек 02 19:37
Сообщения: 872
Откуда: НИВЦ МГУ
А что именно интересует? ;) Вопрос больно уж общий...


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: 30 май 05 16:33 
Хотелось бы поднять тему.

Рассмотрим кластер по Linux (напр. RedHat enterprise).

Каким способом заливаете образы систем на ноды?

Что используете для управления заданиями?

Как организован доступ пользователей к нодам?

Чем контролируете работоспособность и загруженность нодов и сети?


Вернуться к началу
  
 
 Заголовок сообщения:
СообщениеДобавлено: 30 май 05 16:47 
Не в сети

Зарегистрирован: 11 дек 02 19:37
Сообщения: 872
Откуда: НИВЦ МГУ
Sr писал(а):
Каким способом заливаете образы систем на ноды?

Можно просто по nfs смонтировать корень, но лично я бы не советовал. Для маленького кластера достаточно сделать одну инсталляцию и потом тупо скопировать винчестеры (с помощью dd). Можно поступить лучше - поднять dhcpd, tftp и написать скрипт, который сам разобьёт диск, отформатирует, заберёт образ по сети и распакует. Если надо - могу поделиться примером :)

Sr писал(а):
Что используете для управления заданиями?

Мы в НИВЦ МГУ пользуем систему управления заданиями Cleo - можно зайти на http://cluster.parallel.ru и посмотреть как она работает. На http://parallel.ru/cluster есть её краткое описание.
Как вариант можно использовать Condor, OpenPBS, но придётся сурово повозиться с настройкой. Кроме того, насколько мне известно, народ их не шибко любит, т.к. проблем много.

Sr писал(а):
Как организован доступ пользователей к нодам?

Зависит от схемы запуска задач. Можно вообще его запретить. Можно разрешить ssh/rsh, если будут пускать через mpich. Для ужесточения мер безопасности можно хитро настроить pam, чтобы давал ssh/rsh только на те узлы, где в данный момент пускается задача.

Sr писал(а):
Чем контролируете работоспособность и загруженность нодов и сети?


Cleo умеет сама отслеживать работоспособность узлов. Плюс сейчас отлаживаем свою систему мониторинга - существующие больно накладны.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: 30 май 05 16:54 
Sr писал(а):
Каким способом заливаете образы систем на ноды?

Disklees client via NFS+DHCP+TFTP

Sr писал(а):
Что используете для управления заданиями?

PBS
Sr писал(а):
Как организован доступ пользователей к нодам?

Никак. А зачем он им? Все делается через PBS.
Sr писал(а):
Чем контролируете работоспособность и загруженность нодов и сети?

Например Ganglia (http://www.ganglia.info).


Вернуться к началу
  
 
 Заголовок сообщения:
СообщениеДобавлено: 30 май 05 17:04 
Serg_Zhum писал(а):
Если надо - могу поделиться примером :)

Если не сложно, то киньте ссылку на выложенный в веб. Или сюда запостите.

Serg_Zhum писал(а):
народ их не шибко любит, т.к. проблем много.

Никаких особых проблем нет. Все работает корректно.

Serg_Zhum писал(а):
Плюс сейчас отлаживаем свою систему мониторинга - существующие больно накладны.

Какие системы понимаются под "существующими"? Каковы критерии "накладности"?

ОФФТОПИК: господа администраторы обратите внимание на сей пост
http://hp.parallel.ru/parBB/viewtopic.php?t=328.
Неужели нельзя поправить?


Вернуться к началу
  
 
 Заголовок сообщения:
СообщениеДобавлено: 30 май 05 17:34 
Serg_Zhum писал(а):
Мы в НИВЦ МГУ пользуем систему управления заданиями Cleo - можно зайти на http://cluster.parallel.ru и посмотреть как она работает. На http://parallel.ru/cluster есть её краткое описание.

А скачать ее можно? ПОсмотреть, покрутить хочется. Описания и мониторинга маловато для создания представления о системе.


Вернуться к началу
  
 
 Заголовок сообщения:
СообщениеДобавлено: 31 май 05 12:25 
Не в сети

Зарегистрирован: 11 дек 02 19:37
Сообщения: 872
Откуда: НИВЦ МГУ
Sapr писал(а):
Если не сложно, то киньте ссылку на выложенный в веб. Или сюда запостите.

http://cluster.parallel.ru/remote-install.sh - сам иснсталлятор
http://cluster.parallel.ru/sf.sh - скрипт к нему для форматирования диска

Sapr писал(а):
Никаких особых проблем нет. Все работает корректно.

Гм... И подвисшие задачки прибиваются корректно? И зависание узла отрабатывается и на него не "летят" задачи? И пользователю можно разрешить занимать не более трети процессоров всеми задачами зараз? А Васе лично - считать задачки не более получаса, а потом срубать принудительно их процессы на узлах?

Sapr писал(а):
Какие системы понимаются под "существующими"? Каковы критерии "накладности"?


Nagios, Ganglia (хотя системой мониторинга её назвать сложно ;)), PIKT, Mon, Autostatus, Sysmon. Критерии очень просты - нужно получать данные примерно о десятке параметров с каждого узла, не напрягая сеть и процессор узла так, чтобы задачи это чувствовали. Плюс скорость работы. К примеру Nagios запускает на опрос каждого сенсора отдельный процесс. А если сенсоров с сотню? А это порядка десятка узлов всего лишь. Плюс ни одна система не выдерживает сбоя головного хоста (где головной монитор живёт).

Цитата:
А скачать ее можно? ПОсмотреть, покрутить хочется. Описания и мониторинга маловато для создания представления о системе.


Можно, но пока только по запросу автору - serg at paralell ru. Обе системы свободные (плюс есть средство для их совместной работы - посмотрите на ссылку ParCon на сайте cluster.parallel.ru).


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: 31 май 05 12:28 
Не в сети

Зарегистрирован: 31 май 05 12:17
Сообщения: 8
Serg_Zhum
Цитата:
Можно поступить лучше - поднять dhcpd, tftp и написать скрипт, который сам разобьёт диск, отформатирует, заберёт образ по сети и распакует


Я тоже считаю, что это лучший вариант. Но пока занимаюсь клонированием.

У OpenPBS есть аналоги (кроме grid)?

Кто-нибудь рботал с его web-надстройкой?


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: 31 май 05 12:41 
Не в сети

Зарегистрирован: 31 май 05 12:17
Сообщения: 8
Serg_Zhum
А что первым грузится по tftp? Можете выложить или дать ссылки где брали.

Кстати при такой установке имена и окончательные IP прописываюся потом вручную?

Используется DNS или все обращения через hosts?


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: 31 май 05 12:50 
Не в сети

Зарегистрирован: 11 дек 02 19:37
Сообщения: 872
Откуда: НИВЦ МГУ
Sr писал(а):
А что первым грузится по tftp? Можете выложить или дать ссылки где брали.


Diskless-HOWTO

tftp надо подсунуть syslinux, собранный под загрузку с сети. Да, ещё надо поднять nfs, чтобы монтировать корень на узлах - а туда сложить минимальную систему, которая будет содержать всякие bash, cat, sfdisk и т.п. Ну, и запускать собственно скрипт :)

Sr писал(а):
Кстати при такой установке имена и окончательные IP прописываюся потом вручную?


По желанию. Можно и на dhcpd оставить, а можно с скрипте сразу новый IP прописывать...

Sr писал(а):
Используется DNS или все обращения через hosts?


При таком методе только nfs монтируется, причём 1 раз и адрес сервера надо указать явно в виде ip-адреса.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: 31 май 05 13:11 
Не в сети

Зарегистрирован: 28 май 05 21:12
Сообщения: 217
Откуда: Москва
Serg_Zhum писал(а):
http://cluster.parallel.ru/remote-install.sh - сам иснсталлятор
http://cluster.parallel.ru/sf.sh - скрипт к нему для форматирования диска

Спасибо. Интересно было посмотреть. А почему выбрана именно ReiserFS?
Serg_Zhum писал(а):
Гм... И подвисшие задачки прибиваются корректно? И зависание узла отрабатывается и на него не "летят" задачи? И пользователю можно разрешить занимать не более трети процессоров всеми задачами зараз? А Васе лично - считать задачки не более получаса, а потом срубать принудительно их процессы на узлах?

Убиваются корректно. Была такая проблема некоторое время назад, но она связана не с PBS конкретно, а с реализацие MPI. LAM+PBS=корректной убйство :)

Зависание обрабатывается отлично. Более того, убивание сервера не означает снятие задач с узлов. После сбоя узлы и задачи опять видимы.

Да, не более трети можно разрешить/запретить. Васе можно просто запретить/разрешить.
Для более гибкого управления имеет смысл ставить другой планировщик, например MAUI.

Описанные вами проблеммы имели место некоторое время назад. Это было связано с появлением новых дистрибутивов+ядер и как следствие некоторая некорректность в работе старого OpenPBS. OpenPBS вполне корректно работает на дистрибах ранее RH9. На RH9 требуется наложение некоторых патчей - который снимают все вопросы. А вообще, OpenPBS это уже legacy software. Используйте ToquePBS там нет таких проблемм.

Serg_Zhum писал(а):
Nagios, Ganglia (хотя системой мониторинга её назвать сложно ;)), PIKT, Mon,

Зря вы так про Ганглию. У нее отличный бек-енд. О фрон-энде я молчу - у нас есть свой Java клиент к ней. И удовлетворяет она всем вашим требованиям. Гляньте, сколько она берет трафика. Она выдерживает отключение главного узла. Более того, Вы можете сделать два главных узла. Большой ее минус это веб фронт-енд предоставляющий сугубо репрезентативный функции, но это мелочи.

Serg_Zhum писал(а):
Можно, но пока только по запросу автору - serg at paralell ru. Обе системы свободные (плюс есть средство для их совместной работы - посмотрите на ссылку ParCon на сайте cluster.parallel.ru).

Спасибо за ответ.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: 31 май 05 13:21 
Не в сети

Зарегистрирован: 11 дек 02 19:37
Сообщения: 872
Откуда: НИВЦ МГУ
Andrew Sapronov писал(а):
Спасибо. Интересно было посмотреть. А почему выбрана именно ReiserFS?

Только потому что ставился SuSE и образ хоста был сделано на Reiser.

Andrew Sapronov писал(а):
Зря вы так про Ганглию. У нее отличный бек-енд.

Гм... Может я чего-то упустил, но с полгода назад она умела ТОЛЬКО графики рисовать и всё. А вот послать письмо админу о том, что узел завис - нет. Или о том, что слишком много пакетов пропадает на таком-то узле... А два головных узла, это была фикция - просто они параллельно работали, т.е. дублировали друг друга. Может сейчас иначе?


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: 31 май 05 13:34 
Не в сети

Зарегистрирован: 28 май 05 21:12
Сообщения: 217
Откуда: Москва
Serg_Zhum писал(а):
Гм... Может я чего-то упустил, но с полгода назад она умела ТОЛЬКО графики рисовать и всё. А вот послать письмо админу о том, что узел завис - нет. Или о том, что слишком много пакетов пропадает на таком-то узле... А два головных узла, это была фикция - просто они параллельно работали, т.е. дублировали друг друга. Может сейчас иначе?

Ну графики собственно и не она строит, а RRDTool. Механизма сообщений или тригеров у нее нет. Нет, сейчас они так же дублируют :):) Но с процессорным временем и пропускной способностью все в порядке.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: 1 июн 05 11:02 
Не в сети

Зарегистрирован: 24 май 05 9:00
Сообщения: 9
Цитата:
Можно поступить лучше - поднять dhcpd, tftp и написать скрипт, который сам разобьёт диск, отформатирует, заберёт образ по сети и распакует

полноценный diskless-client существенно лучше в подавляющем большинстве задач.

Цитата:
Гм... Может я чего-то упустил, но с полгода назад она умела ТОЛЬКО графики рисовать и всё. А вот послать письмо админу о том, что узел завис - нет. Или о том, что слишком много пакетов пропадает на таком-то узле...

Ну это спору нет.

Но как таковая ганглия занимается _только_ сбором информации. И в этой области её код по большей части оптимален. (хотя, передача метрик определённых пользователем в значительной мере неэффективна, имхо)

Тригеры должны реализовываться уровнем выше. Интеграция кода обработки условий в код собственно сбора - неестественный подход.


Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 55 ]  На страницу 1, 2, 3, 4  След.

Часовой пояс: UTC + 4 часа [ Летнее время ]


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 4


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB