PARALLEL.RU

Дискуссионный клуб по параллельным вычислениям
Текущее время: 22 сен 18 6:21

Часовой пояс: UTC + 4 часа [ Летнее время ]




Начать новую тему Ответить на тему  [ Сообщений: 7 ] 
Автор Сообщение
 Заголовок сообщения: Проблема большого объема данных
СообщениеДобавлено: 11 апр 10 22:11 
Не в сети

Зарегистрирован: 11 апр 10 19:08
Сообщения: 10
Интерисует самый общий вопрос - как решается проблема большого количества данных в распределенных системах. Я имею ввиду данные которые получаются в результате расчетов или проведения реальных экспериментов, но которые нет возможности передавать по сети или хранить в БД. Чтобы было понятнее привиду пример Большого адронного коллайдера: Поток данных с детекторов выдает около 300 ГБ/с, затем отфильтровываются ?интересные события?, в результате чего ?сырые данные? составляют поток около 300 МБ/с. Т.е. они просто отбрасывают часть данных и на обработку попадает в 1000 раз меньше. Хотелось бы узнать решаются ли данные проблемы как-то еще или если знаете привидите пожалуйста еще какие-нибудь примеры где генерируется большой объем данных, но для обработки остается (передается, хранится) лишь малая часть.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 12 апр 10 15:03 
Не в сети

Зарегистрирован: 28 май 05 21:12
Сообщения: 217
Откуда: Москва
В ЦЕРНе несколько уровней серверов обработки и на каждом ии уровней число данных уменьшается. Каждый уровень - пара(десятков) машинных залов с оборудованием.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 12 апр 10 17:48 
Не в сети

Зарегистрирован: 11 апр 10 19:08
Сообщения: 10
Цитата:
на каждом ии уровней число данных уменьшается

Каким образом? Пройдя какой-то фильтр часть данных отбрасывается или происходит деление всех данных, которые требуется обработать между узлами более низкого уровня, затем еще деление, для еще более низкого уровня и т.д.?


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 12 апр 10 17:51 
Не в сети

Зарегистрирован: 11 апр 10 19:08
Сообщения: 10
Цитата:
В ЦЕРНе
БАК вроде бы в ЦЕРНе и построен... Мы не об одном и том же пишем?


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 14 апр 10 0:31 
Не в сети

Зарегистрирован: 7 мар 08 0:47
Сообщения: 30
Откуда: Sunnyvale, CA
nikitin писал(а):
привидите пожалуйста еще какие-нибудь примеры где генерируется большой объем данных, но для обработки остается (передается, хранится) лишь малая часть.
Распознавание образов. На вход подается поток данных с какого либо сенсора. Ваша задача распознать наборы данных с интересными зависимостями (по некоторому шаблону). Если шаблон простой - достаточно одного процессора, который отлавливает наборы и сохраняет их, игнорируя все остальное. Если шаблон сложный - может и кластер потребоваться для анализа потока.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 16 апр 10 17:36 
Не в сети

Зарегистрирован: 28 май 05 21:12
Сообщения: 217
Откуда: Москва
nikitin писал(а):
Каким образом? Пройдя какой-то фильтр часть данных отбрасывается или происходит деление всех данных, которые требуется обработать между узлами более низкого уровня, затем еще деление, для еще более низкого уровня и т.д.?

Если я не ошибаюсь, то там и фильтры и деление между узлами... Вроде на GRID2008 в одной из презентаций была схема того, как у них все устроено. Если не лениво, то можно покопаться в материалах с конференции http://grid2008.jinr.ru/programme.asp, сам с ходу не нашел ))


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 22 апр 10 14:52 
Не в сети

Зарегистрирован: 11 апр 10 19:08
Сообщения: 10
Цитата:
может и кластер потребоваться

Немного не о том спрашиваю, допустим что требуеться. Пусть есть две камеры с которых передаёться по 100 Мб/с, необходимо обработать изображения (распознать что-нибудь), можно, например, поделить каждое изображение на участки, каждый из которых будет отправлен обрабатываться на отдельный компьютер. Если возможности сети не позволяют передавать такой объём данных и нет места для их хранения в БД, что делать? Снимать (передавать, отправлять) изображение каждые 5с, т.е. просто отбросить все данные генерируемые за 4 предыдущих секунды?


Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Часовой пояс: UTC + 4 часа [ Летнее время ]


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB