PARALLEL.RU

Дискуссионный клуб по параллельным вычислениям
Текущее время: 6 дек 19 5:34

Часовой пояс: UTC + 4 часа [ Летнее время ]




Начать новую тему Ответить на тему  [ Сообщений: 3 ] 
Автор Сообщение
 Заголовок сообщения: Валидация стабильности кластера
СообщениеДобавлено: 8 июн 06 17:50 
Не в сети

Зарегистрирован: 26 май 06 12:50
Сообщения: 6
Хорошо господа. Перейдём тогда от предыдущей дискуссии о синхронизации времени к дискуссии о валидации оного.

Занимается ли кто проверкой жизнерадостности животинки перед запуском приложения на нём или наприммер его ежедневное тестирование.

У меня возникла следующая идея. Перед каждым запуском приложения проводить следующие действия (которые могут быть описаны небольшим скриптом):
1. Проверять что на узлах, выделенных вам наприммер PBS-ом не запущены линие процессы, нет всяческих зомби и др. левых процессов, которые жрут память и проц.
2. Имея некий хорошо шкалируюмый бэчмарк, который проверяет пропускную способность интерконнектова так же производительность хостов в целом.
3. После запуска этого бэнчмарка мы можем достаточно просто вычислить предположительное время его работы. Если оно достаточно сильно расходится с полученным результатом, то считать запуск вашего приложения не действительным и искать проблемы на хостах.

Есть ли у кого идеи на эту тему.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 21 авг 08 12:42 
Не в сети

Зарегистрирован: 21 авг 08 11:40
Сообщения: 9
у нас сделано так:

Некий процесс на главной машине периодически опрашивает жизнеспособность служб-агентов на узлах, если они отвечают - значит все ОК, если нет, то делается ping машины для уточнения ситуации - умерла только служба или машина целиком. В обоих случаях меняется статус узла в БД планировщика, и он при распределении процессов не учитывает этот узел.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 2 сен 08 10:02 
Не в сети

Зарегистрирован: 29 июн 07 9:47
Сообщения: 19
Откуда: MSK
Alf писал(а):
Хорошо господа. Перейдём тогда от предыдущей дискуссии о синхронизации времени к дискуссии о валидации оного.

Занимается ли кто проверкой жизнерадостности животинки перед запуском приложения на нём или наприммер его ежедневное тестирование.

У меня возникла следующая идея. Перед каждым запуском приложения проводить следующие действия (которые могут быть описаны небольшим скриптом):
1. Проверять что на узлах, выделенных вам наприммер PBS-ом не запущены линие процессы, нет всяческих зомби и др. левых процессов, которые жрут память и проц.
2. Имея некий хорошо шкалируюмый бэчмарк, который проверяет пропускную способность интерконнектова так же производительность хостов в целом.
3. После запуска этого бэнчмарка мы можем достаточно просто вычислить предположительное время его работы. Если оно достаточно сильно расходится с полученным результатом, то считать запуск вашего приложения не действительным и искать проблемы на хостах.

Есть ли у кого идеи на эту тему.


Сложно...

Думаю что все (или бОльшую часть) надо сделать штатными средствами ОС. Например (имхо самое простое, мы щас так для отладки делаем) - сделать юзера, прописать ключи и выполнить на всех узлах небольшой скрипт. А в скрипт можно запихать все что душе угодно.

С другой стороны достаточно иметь SNMP и его читать, там вся необходимая информация будет. Это более "серьезный" вариант, т.к. его парсить несколько сложнее, да и трафика чуть больше. Зато "алл инклюзив" =)

Остается железо. А железки должны тестироваться исходя из некоего общего "регламента мониторинга и обслуживания" с некоторой переодичностью (да хотя бы раз в неделю на график вывести основные показатели, динамику можно будет отследить)


Про тест.
Мне кажется это не самое лучшее решение, поскольку тест занимает некоторое время на выполнение (и задача будет ждать пока он выполнится на всех машинах?). Гораздо проще снять вполне обычные показатели - load av, swap, mem, cpu, состояние\нагрузку сети и т.д. Из них сразу будет видно состояние.


А можно и так:
1. После выполнения задачи - выполение тестовых процедур (например убиение зомби и прочих неверных).
2. Перез запуском - общее тестирование по основным показателям.
Возможно такая схема будет работать быстрее.

_________________
;)


Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 3 ] 

Часовой пояс: UTC + 4 часа [ Летнее время ]


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB