Mikhail CVR писал(а):
1. Эффективное распределение задач по узлам, равномерная нагрузка.
В каких смыслах эффективное?
Цитата:
2. Удобный графический интерфейc. Возможность отправки заданий на выполнение, просмотр статуса выполнения, потребляемые ресурсы. Задания могут быть как в виде последовательных программ, так и с использованием MPICH.
Отправлять задачу на счёт из GUI не получится. А если получится, то будет неудобно - проверено. Просмотр статуса - это можно.
Цитата:
3. Потребляемые ресурсы (CPU, Disk I/O, network) как в целом, так и по отдельной пользовательской задаче представлять в виде графиков. В целом (статистику потребления ресурсов не разделяя пользователей) я предполагаю мониторить с помощью Ganglia, а как насчет дифференцирования по пользователям?
Никак. Ganglia это не умеет. А всё остальное, что есть - не умеет остального

Я сам занимаюсь такой задачей,если интересно - посмотрите пакет antmon (
https://sourceforge.net/projects/antmon). Эта версия довольно сырая, но работоспособная. Для неё есть интеграция с системой очередей Cleo и можно по любой задаче посмотреть всё, что происходило на узлах. Плюс есть возможность оповещения о проблемах - Ganglia этого тоже не умеет.
Цитата:
4. Гибкое управление политиками запуска заданий. Возможность установки времени выполнения задачи для пользователя, с последующей приостановкой задачи, если она не завершилась сама. Установка количества процессоров, которые будут доступны пользователю. Приоритет.
Такие вещи умеют далеко не все (принудительно завершение, в честности). В проекте
Cleo сделан упор на решение таких проблем плюс гибкость политик управления.
Цитата:
5. Уведомление пользователя о завершении задачи (напр e-mail)
В cleo это есть, для других - надо вписывать действие в скрипт.
Цитата:
6. Исключение доступа пользователя к кластеру по ssh. Насколько это возможно? Возможно ли через GUI отправлять исходники на кластер, которые будут затем скомпилированы на нем и запущены? Если так нельзя, то придется дать пользователю возможность заходить по ssh и компилировать исходники там. ((
Приемлем ТОЛЬКО второй вариант. Иначе вас убьют

Запретить входить на узлы можно модулем pam_listfile...
Цитата:
7. Возможно ли использовать несколько реализаций MPI на кластере, и выбирать нужную при запуске задачи? Не возникнет ли при этом дополнительных проблем?
Поставьте mpi-selector