PARALLEL.RU

Дискуссионный клуб по параллельным вычислениям
Текущее время: 21 ноя 18 18:54

Часовой пояс: UTC + 4 часа [ Летнее время ]




Начать новую тему Ответить на тему  [ Сообщений: 6 ] 
Автор Сообщение
СообщениеДобавлено: 31 мар 14 16:34 
Не в сети

Зарегистрирован: 21 сен 10 14:21
Сообщения: 7
Откуда: ИХФ РАН
Сколько данных передается между узлами? Предположим. что есть два одноядерных узла, соединенных FDR IB.
Решается задача газовой динамики с частицами и кинетикой. Пускай число буферных ячеек равно 1000. В каждой ячейке 100 переменных типа DP . Итого 1000х100х8 байт или ~1е6 байт или примерно 1 МБ данных.
Время между обменами пускай 0.1 с. Итого скорость передачи данных должна быть больше 10МБ/с ~ 100Мб/с. Пускай 1000 Мб/с. Тогда на обмен будет тратиться 10% времени. А еще лучше 10Гб/с, тогда при 100 переменных только 1% времени будет уходить на обмен.
То есть IB 56 Гб/с уже заметно нагружена. И при увеличении числа переменных, решаемых в ячейках возможно подтормаживание за счет затыка по IB/
Вопрос:
А если узлы многоядерные, то по IB будет передаваться увеличенное число обменных данных. И в принципе 5 ядер на узел уже для FDR будут заметной нагрузкой?
Сейчас на рынке присутствует конфигурации по 2х12 ядер на узел. То есть 24 потока должны заметно нагружать IB. И есть ли смысл в мегапупер многоядерных узлах?


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 31 мар 14 17:46 
Не в сети

Зарегистрирован: 11 дек 02 19:37
Сообщения: 872
Откуда: НИВЦ МГУ
В описанной постановке, безусловно, лучше использовать гибридный подход (MPI+OpenMP), хотя он и сложнее в реализации.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 31 мар 14 19:17 
Не в сети

Зарегистрирован: 21 сен 10 14:21
Сообщения: 7
Откуда: ИХФ РАН
Мои прикидки относительно утилизации шины IB являются верными? Как изменяется утилизация шины при гибридном использовании? Ведь все-равно перекидывается одинаковый объем информации (если не принимать во внимание служебную инфу)
Просто хочу понять, имеет ли смысл кластер с многопроцессорными узлами. Или лучше повышенные частоты при меньшем количестве потоков на ядро.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 1 апр 14 12:15 
Не в сети

Зарегистрирован: 11 дек 02 19:37
Сообщения: 872
Откуда: НИВЦ МГУ
SmetanyukVA писал(а):
Мои прикидки относительно утилизации шины IB являются верными? Как изменяется утилизация шины при гибридном использовании? Ведь все-равно перекидывается одинаковый объем информации (если не принимать во внимание служебную инфу)


Утилизация сети - вообще сложный вопрос. Тут же не только пропускная способность важна, но и схема синхронизации, объёмы сообщений и т.п. При гибридной схеме передавать придётся скорее всего меньше, так как делить область можно оптимальнее.

Цитата:
Просто хочу понять, имеет ли смысл кластер с многопроцессорными узлами. Или лучше повышенные частоты при меньшем количестве потоков на ядро.


Поток на ядро вообще надо делать один. Всякие HT хороши не десктопе и, может быть для ДБ. А для вычислений они смерти подобны. А насчёт "повышения частоты" - не думаю, что получится легко увеличить частоту в 4 раза, а вот число ядер - запросто. В любом случае - увеличив число ядер на узле вы уменьшите число узлов, а как следствие - число сетевых соединений...


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 1 апр 14 13:24 
Не в сети

Зарегистрирован: 21 сен 10 14:21
Сообщения: 7
Откуда: ИХФ РАН
То что HT зло это понятно. HT хороша для файловых операций. Но про НТ не было речи. Я имел ввиду, что при выборе конфигурации кластера лучше брать узлы с числом ядер 6-8 на процессор.
К примеру средние 12 ядерные ксеоны работают на частоте 2.4 Гц. А 8 ядерные на частоте 3.3. На 30% меньше число ядер, но при этом каждое ядро на 30% быстрей. Меньше ядер, меньше доменов для распараллеливания. Меньше буферных ячеек. Меньше обмен данных между ядрами.
То есть мой вывод обратно противоположен:
Цитата:
В любом случае - увеличив число ядер на узле вы уменьшите число узлов, а как следствие - число сетевых соединений...

И при разделении на домены не учитывает, что ядра сообщаются по внешней шине IB. То есть вполне может оказаться, что домены расположенные физически на различных узлах, соединенных IB и при этом чередуются. В итоге все что есть будет передаваться по IB.

Второй негативный момент, это ширина шины QPI, которая связывается процессоры. Ширина QPI - 187Гб/с. И 12 ядер процессора скорей всего быстрей ей забьют. Здесь на одно ядро приходится примерно 15Гб/с, а это 1/3 от IB.

Хочу найти оптимальную расчетную конфигурацию для планирующегося расчетного кластера. Если я не прав в своих рассуждениях, то поправьте.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 1 апр 14 14:39 
Не в сети

Зарегистрирован: 11 дек 02 19:37
Сообщения: 872
Откуда: НИВЦ МГУ
SmetanyukVA писал(а):
Меньше ядер, меньше доменов для распараллеливания. Меньше буферных ячеек. Меньше обмен данных между ядрами.


То есть одно ядро лучший вариант, верно? Вообще обменов нету - красота! ;) Вопрос сколько оно считать будет. Понятно, что где-то будет насыщение и задача будет хорошо параллелиться на какое-то число доменов, а на большее - нет, так как накладные расходы всё съедят. Но тут от задачи зависит.

Цитата:
И при разделении на домены не учитывает, что ядра сообщаются по внешней шине IB. То есть вполне может оказаться, что домены расположенные физически на различных узлах, соединенных IB и при этом чередуются. В итоге все что есть будет передаваться по IB.


Я же говорю про гибридный вариант. Там не будет. И в негибридном тоже можно учесть фактическое распределение по узлам и домены разложить аккуратно...

Цитата:
Второй негативный момент, это ширина шины QPI, которая связывается процессоры. Ширина QPI - 187Гб/с. И 12 ядер процессора скорей всего быстрей ей забьют. Здесь на одно ядро приходится примерно 15Гб/с, а это 1/3 от IB.


QPI тут особо нипричём - передача данных по IB обычно идёт не через CPU, а непосредственно из памяти. Хуже другое - доступ к памяти. Ядра будут делить часть кеша и доступ в память будет совместный, что тоже может убить производительность. Но это опять-таки сильно зависит от характера вычислений. Из нашей практики - 4 ядра на процессор для большинства задач работают хорошо. Как в конкретно вашем случае - надо смотреть на задачу (или оптимизировать её)...


Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Часовой пояс: UTC + 4 часа [ Летнее время ]


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 2


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB