Российские распределенные вычисления на платформе BOINC
Форум участников распределённых вычислений.

Добро пожаловать, Гость! Чтобы использовать все возможности Вход или Регистрация.

Уведомление

Icon
Error

6 Страницы«<23456>
Опции
К последнему сообщению К первому непрочитанному
Offline AlexA  
#61 Оставлено : 27 ноября 2016 г. 19:50:20(UTC)
AlexA


Статус: Administration

Медали: Переводчику: За помощь в создании сайта

Группы: Editors, Member, Administration, Russia Team Group, Moderators
Зарегистрирован: 02.10.2007(UTC)
Сообщений: 6,127
Мужчина
Российская Федерация
Откуда: "Russia Team"

Сказал «Спасибо»: 1227 раз
Поблагодарили: 1506 раз в 832 постах
Автор: Vlad Перейти к цитате
У меня опять проблема. На этот раз с хранилищем. Из-за увеличения числа заданий многократно возросла нагрузка на диск. В результате был израсходован кредит IOPS операций и производительность упала с 3000 IOPS до 90 IOPS. Чуть не упал сервер из-за этого. Вывод: надо было лучше читать амазоновскую документацию. Генерация заданий сейчас приостановлена, потом будет возобновлена, но снова лимитирована (надеюсь, не так жестко, как раньше).

Перед перезапуском в 2017 я присоединю том на 1TB, у него производительность в 3000 IOPS постоянная, за 2 дня до окончания альфа-тестирования это не имеет смысл делать.

В общем, первый блин вышел немного комом, но я теперь хотя бы знаю, как надо будет делать.

Надо свой сервер делать. С Посыпкинскими ребятами smile

Offline Vlad  
#62 Оставлено : 27 ноября 2016 г. 20:24:03(UTC)
Vlad


Статус: Интересующийся

Медали: Разработчику: Автор проекта

Группы: Member
Зарегистрирован: 20.11.2016(UTC)
Сообщений: 54
Российская Федерация

Сказал(а) «Спасибо»: 5 раз
Поблагодарили: 103 раз в 33 постах
Автор: AlexA Перейти к цитате
Автор: Vlad Перейти к цитате
У меня опять проблема. На этот раз с хранилищем. Из-за увеличения числа заданий многократно возросла нагрузка на диск. В результате был израсходован кредит IOPS операций и производительность упала с 3000 IOPS до 90 IOPS. Чуть не упал сервер из-за этого. Вывод: надо было лучше читать амазоновскую документацию. Генерация заданий сейчас приостановлена, потом будет возобновлена, но снова лимитирована (надеюсь, не так жестко, как раньше).

Перед перезапуском в 2017 я присоединю том на 1TB, у него производительность в 3000 IOPS постоянная, за 2 дня до окончания альфа-тестирования это не имеет смысл делать.

В общем, первый блин вышел немного комом, но я теперь хотя бы знаю, как надо будет делать.

Надо свой сервер делать. С Посыпкинскими ребятами smile

Да нет, дело не в Амазоне, а в том, что я не прочитал их документацию внимательно. Сначала для меня было сюрпризом, что у серверов t2 есть кредиты, которые расходуются/накапливаются в зависимости от нагрузки (burstable), а теперь стало сюрпризом, что и хранилища работают по такому же принципу. При этом можно было выбрать и тип сервера, который работает с постоянной нагрузкой и хранилище подобрать с постоянным IOPS. Я просто выбрал не то.
Offline hoarfrost  
#63 Оставлено : 27 ноября 2016 г. 23:36:14(UTC)
hoarfrost


Статус: Старожил

Медали: Переводчику: За помощь в создании сайтаРазработчику: За разработку приложения CluBORunДонор: За финансовую помощь сайту

Группы: Editors, Member, Administration, Moderator Crystal Dream, Moderators, Crystal Dream Group
Зарегистрирован: 05.10.2007(UTC)
Сообщений: 8,183
Мужчина
Откуда: Crystal Dream

Сказал «Спасибо»: 1160 раз
Поблагодарили: 1577 раз в 1011 постах
Подключил к проекту наш "Шмя-кластер". smile
Пока заданий нет, посмотрим что будет!
Проекту и его организаторам - Ура!
buba
UserPostedImage
thanks 2 пользователей поблагодарили hoarfrost за этот пост.
Yura12 оставлено 28.11.2016(UTC), Шмяка оставлено 09.01.2017(UTC)
Offline hoarfrost  
#64 Оставлено : 27 ноября 2016 г. 23:51:51(UTC)
hoarfrost


Статус: Старожил

Медали: Переводчику: За помощь в создании сайтаРазработчику: За разработку приложения CluBORunДонор: За финансовую помощь сайту

Группы: Editors, Member, Administration, Moderator Crystal Dream, Moderators, Crystal Dream Group
Зарегистрирован: 05.10.2007(UTC)
Сообщений: 8,183
Мужчина
Откуда: Crystal Dream

Сказал «Спасибо»: 1160 раз
Поблагодарили: 1577 раз в 1011 постах
Вопрос - а задания действительно должны быть многопоточными?
Это необходимо потому что даже одним экземпляром расчёта потребляется очень много RAM и чтобы не простаивали ядра, надо получив одну задачу распараллеливать её обработку?
Или каждое задание должно быть настолько большим, что его надо запускать в несколько потоков, чтобы считать не 1 год, например, а квартал?

Update: Пока RAM съедается около 128 Мбайт на 4 потока.
UserPostedImage
Offline Vlad  
#65 Оставлено : 28 ноября 2016 г. 2:07:31(UTC)
Vlad


Статус: Интересующийся

Медали: Разработчику: Автор проекта

Группы: Member
Зарегистрирован: 20.11.2016(UTC)
Сообщений: 54
Российская Федерация

Сказал(а) «Спасибо»: 5 раз
Поблагодарили: 103 раз в 33 постах
Автор: hoarfrost Перейти к цитате
Вопрос - а задания действительно должны быть многопоточными?
Это необходимо потому что даже одним экземпляром расчёта потребляется очень много RAM и чтобы не простаивали ядра, надо получив одну задачу распараллеливать её обработку?
Или каждое задание должно быть настолько большим, что его надо запускать в несколько потоков, чтобы считать не 1 год, например, а квартал?

Update: Пока RAM съедается около 128 Мбайт на 4 потока.

Задания все очень разные по времени счета. Время счета WU для кристаллита размером D пропорционально D^6. Несмотря на то, что сейчас уже работает size_regulator, которые по идее должен отправлять тяжелые задания только на GPU, все равно сохраняется шанс получить на CPU задачу, которая на одном ядре будет считаться пару часов. Сделать чекпоинты в этой задаче достаточно сложно, то есть, если остановить задачу и перезапустить клиент, то считать начнет сначала. Поэтому важно, чтобы все считалось максимально быстро. Выигрыша в использовании памяти у многопоточной версии нет. При реализации было два пути, экономить память, но терять в производительности за счет синхронизаций между потоками, или делать без синхронизации, но каждый поток пишет в свою копию гистограммы межатомных расстояний. Я выбрал второй путь.

Сейчас мне уже понятно, что надо добавить однопоточное приложение для CPU, чтобы считать им мелкие WU. Многопоточное приложение тоже надо оставить, но посылать ему задания побольше.
thanks 5 пользователей поблагодарили Vlad за этот пост.
Yura12 оставлено 28.11.2016(UTC), hoarfrost оставлено 28.11.2016(UTC), Disel оставлено 28.11.2016(UTC), AlexA оставлено 28.11.2016(UTC), dimych оставлено 29.11.2016(UTC)
Offline hoarfrost  
#66 Оставлено : 28 ноября 2016 г. 10:31:39(UTC)
hoarfrost


Статус: Старожил

Медали: Переводчику: За помощь в создании сайтаРазработчику: За разработку приложения CluBORunДонор: За финансовую помощь сайту

Группы: Editors, Member, Administration, Moderator Crystal Dream, Moderators, Crystal Dream Group
Зарегистрирован: 05.10.2007(UTC)
Сообщений: 8,183
Мужчина
Откуда: Crystal Dream

Сказал «Спасибо»: 1160 раз
Поблагодарили: 1577 раз в 1011 постах
Автор: Vlad Перейти к цитате
Задания все очень разные по времени счета. Время счета WU для кристаллита размером D пропорционально D^6. Несмотря на то, что сейчас уже работает size_regulator, которые по идее должен отправлять тяжелые задания только на GPU, все равно сохраняется шанс получить на CPU задачу, которая на одном ядре будет считаться пару часов. Сделать чекпоинты в этой задаче достаточно сложно, то есть, если остановить задачу и перезапустить клиент, то считать начнет сначала. Поэтому важно, чтобы все считалось максимально быстро.

Спасибо за ответ! Если сейчас нет checkpoint-ов, но многопоточный вариант работает без просадки производительности, то да, это действительно оптимальный вариант.
UserPostedImage
Offline dimych  
#67 Оставлено : 29 ноября 2016 г. 8:00:49(UTC)
dimych


Статус: Старожил

Группы: Member, Crystal Dream Group
Зарегистрирован: 08.02.2011(UTC)
Сообщений: 1,835
Мужчина
Российская Федерация
Откуда: Смоленск

Сказал «Спасибо»: 445 раз
Поблагодарили: 211 раз в 170 постах
насколько я знаю, большинство пользователей считают ГПУ проекты только на видяшках, а ЦПУ задействуют только для "чистых" процессорных проектов. да и смысл считать полчаса ВУшку на ЦПУ, если ее же можно посчитать за минуту на видяхе. зато полно ЦПУ проектов, где по другому никак нельзя, и вот туда то вполне логично "пристроить" камень. уж про "жирность" я и не говорю...
ASUS P9X79 WS/I7-3930K@3.2 GHz/32 GB DDR3-1600 MHz/MSI R7950 Twin Frozr 3GD5 V2/OC 3 Gb (880/5000 MHz)
Offline Vlad  
#68 Оставлено : 29 ноября 2016 г. 20:08:57(UTC)
Vlad


Статус: Интересующийся

Медали: Разработчику: Автор проекта

Группы: Member
Зарегистрирован: 20.11.2016(UTC)
Сообщений: 54
Российская Федерация

Сказал(а) «Спасибо»: 5 раз
Поблагодарили: 103 раз в 33 постах
Альфа-тестирование завершено! Проект остановлен на несколько месяцев для проведения технических работ.

Генератор заданий остановлен, но сервер будет ждать завершения всех текущих заданий. Сайт и форум продолжат работу, но регистрация новых пользователей будет приостановлена. Список планируемых работ можно посмотреть тут (пункты 4, 5 и 6).

Альфа-тестирование можно считать успешным. Ниже приведены некоторые результаты и выводы:
  • Было обработано около 5,6% записей из COD (примерно 20 500 структур). Собранные данные будут использованы для определения оптимального набора размеров кристаллитов и оптимального разрешения модельных дифрактограмм в конечной базе данных.
  • Благодаря участию волонтеров было исправлено несколько критических багов (см., напр., 1, 2 и 3). Сейчас все версии приложения работают достаточно стабильно (см., напр., статистику за 27 ноября).
  • Благодаря советам волонтеров был улучшен функционал сайта.
  • Определены оптимальные параметры виртуального сервера: 2 ядра Intel Xeon E5-2666, 4 ГБ RAM, 500 ГБ SSD хранилища с пропускной способностью 1500 IOPS, нагрузка на сеть: 60 МБ/с.
  • Вычислительные мощности, предоставленные волонтерами, оказались существенно больше ожидаемых. Это позволит расширить диапазон размеров кристаллитов на большие размеры (до 30 нм).
  • Хотя включение функции MultiSize немного улучшило работу планировщика, работал он все равно плохо. Стало понятно, что CPU и GPU версии приложения должны получать задания разного размера из-за большой разницы в производительности. Также стало понятно, что для обработки коротких заданий нужно добавить однопоточную версию приложения для CPU. Таким образом, распределение WU для кристаллитов разного размера между различными версиями приложения должно выглядеть следующим образом:
    CPU, single-threaded: < 10 нм
    CPU, multi-threaded: 10 – 20 нм
    GPU: > 20 нм

Время от времени я буду публиковать информацию о выполненной работе здесь и на сайте проекта. Но, пожалуйста, не ожидайте многого до весны 2017 года.

Я очень благодарен всем волонтерам, принимавшим участие в альфа-тестировании! Я приношу извинения за низкую производительность сервера, ужасную работу планировщика и баги в приложении, приводившие к пустой трате вычислительных ресурсов. Спасибо за ваше терпение и понимание!
thanks 9 пользователей поблагодарили Vlad за этот пост.
Panda оставлено 29.11.2016(UTC), Zabaikalec2010 оставлено 29.11.2016(UTC), ReaDy оставлено 29.11.2016(UTC), AlexA оставлено 29.11.2016(UTC), dimych оставлено 29.11.2016(UTC), PinkFloyd оставлено 29.11.2016(UTC), Alexone оставлено 30.11.2016(UTC), evatutin оставлено 04.12.2016(UTC), Yura12 оставлено 04.12.2016(UTC)
Offline ReaDy  
#69 Оставлено : 29 ноября 2016 г. 21:44:03(UTC)
ReaDy


Статус: Старожил

Медали: Первооткрывателю: Нахождение пар ОДЛК в RakeSearch!

Группы: Member
Зарегистрирован: 03.08.2013(UTC)
Сообщений: 528
Российская Федерация

Сказал(а) «Спасибо»: 205 раз
Поблагодарили: 214 раз в 156 постах
Это была славная охота...
6419*2^1351093+1 is prime!
thanks 1 пользователь поблагодарил ReaDy за этот пост.
AlexA оставлено 29.11.2016(UTC)
Offline AlexA  
#70 Оставлено : 4 декабря 2016 г. 7:19:36(UTC)
AlexA


Статус: Administration

Медали: Переводчику: За помощь в создании сайта

Группы: Editors, Member, Administration, Russia Team Group, Moderators
Зарегистрирован: 02.10.2007(UTC)
Сообщений: 6,127
Мужчина
Российская Федерация
Откуда: "Russia Team"

Сказал «Спасибо»: 1227 раз
Поблагодарили: 1506 раз в 832 постах
Перенес тему в раздел "Российские проекты".
thanks 1 пользователь поблагодарил AlexA за этот пост.
SerVal оставлено 25.06.2017(UTC)
Offline Disel  
#71 Оставлено : 7 декабря 2016 г. 17:41:07(UTC)
Disel


Статус: Старожил

Медали: Донор: За финансовую помощь сайту

Группы: Member, Russia Team Group
Зарегистрирован: 08.07.2013(UTC)
Сообщений: 3,539
Мужчина
Российская Федерация

Сказал «Спасибо»: 480 раз
Поблагодарили: 418 раз в 318 постах
Vlad, планируется ли в вашем научном коллективе развитие и других тем научиных исследований, с использованием платформы Boinc?
Ubuntu Linux 14.04 LTS - 64 bit / Boinc 7.2.42(х64) / Core 2 DUO E6300 1.8 Ггц / GeForce GT-630
Offline Vlad  
#72 Оставлено : 7 декабря 2016 г. 21:42:26(UTC)
Vlad


Статус: Интересующийся

Медали: Разработчику: Автор проекта

Группы: Member
Зарегистрирован: 20.11.2016(UTC)
Сообщений: 54
Российская Федерация

Сказал(а) «Спасибо»: 5 раз
Поблагодарили: 103 раз в 33 постах
Автор: Disel Перейти к цитате
Vlad, планируется ли в вашем научном коллективе развитие и других тем научиных исследований, с использованием платформы Boinc?

Сейчас сложно сказать. Делать этот проект - было моей личной инициативой. В моей лаборатории, да и в отделе мало кто знает, что я его делаю. Но в более отдаленной перспективе мой опыт работы с BOINC может пригодиться. Дело в том, что моя основная работа связана с ИТЭР, а это будет очень большая установка, в каких-то параметрах даже сравнимая с БАК, и там должны будут появиться задачи, требующие обработки большого объема данных. По крайней мере, я держал это в голове, когда начинал этот проект.
thanks 10 пользователей поблагодарили Vlad за этот пост.
AlexA оставлено 07.12.2016(UTC), citerra оставлено 07.12.2016(UTC), ReaDy оставлено 07.12.2016(UTC), hoarfrost оставлено 08.12.2016(UTC), Yura12 оставлено 08.12.2016(UTC), dimych оставлено 08.12.2016(UTC), Horror245 оставлено 08.12.2016(UTC), Disel оставлено 08.12.2016(UTC), Soderstromm оставлено 09.12.2016(UTC), Шмяка оставлено 09.01.2017(UTC)
Offline ReaDy  
#73 Оставлено : 19 июня 2017 г. 8:06:27(UTC)
ReaDy


Статус: Старожил

Медали: Первооткрывателю: Нахождение пар ОДЛК в RakeSearch!

Группы: Member
Зарегистрирован: 03.08.2013(UTC)
Сообщений: 528
Российская Федерация

Сказал(а) «Спасибо»: 205 раз
Поблагодарили: 214 раз в 156 постах
Проект снова стал выдавать задания!
6419*2^1351093+1 is prime!
Offline Vlad  
#74 Оставлено : 19 июня 2017 г. 11:58:16(UTC)
Vlad


Статус: Интересующийся

Медали: Разработчику: Автор проекта

Группы: Member
Зарегистрирован: 20.11.2016(UTC)
Сообщений: 54
Российская Федерация

Сказал(а) «Спасибо»: 5 раз
Поблагодарили: 103 раз в 33 постах
Добрый день!

Проект перезапущен с нативными BOINC приложениями. Добавлен новый вычислительный сценарий, и задания в среднем стали тяжелее.

Теперь CPU и GPU получают разные WU. Это исключает получения, как слишком долгого задания для CPU, так и мгновенного для GPU. Большой диапазон вариации размеров заданий, правда, никуда не денется, так как он определяется физикой. Возможно, в условиях большей нагрузки, планировщик перестанет посылать легкие WU монстрам типа GTX 1080 Ti, но сейчас я не могу сказать наверняка.

Все результаты, полученные с момента перезапуска, войдут в конечную базу данных, если не будет критических ошибок. Мы уже закачиваем их на отдельный сервер. Сама база данных пока в разработке, но мы надеемся, что сможем показать что-то приемлемое уже на BOINC:FAST.

Спасибо за поддержку проекта!
thanks 3 пользователей поблагодарили Vlad за этот пост.
AlexA оставлено 19.06.2017(UTC), SerVal оставлено 25.06.2017(UTC), Pavel Kirpichenko оставлено 02.07.2017(UTC)
Offline Arahaez  
#75 Оставлено : 20 июня 2017 г. 18:57:58(UTC)
Arahaez


Статус: Я тут не впервой

Группы: Member
Зарегистрирован: 13.06.2014(UTC)
Сообщений: 38
Эстония
Откуда: Tallinn

Сказал(а) «Спасибо»: 23 раз
Поблагодарили: 3 раз в 3 постах
Здравствуйте, хотелось бы узнать какой объём заданий сейчас запущен? Можно ли в "состояние сервера" добавить полосу с % выполненного и предположительным сроком расчета текущего проекта?
Offline Pushok  
#76 Оставлено : 20 июня 2017 г. 19:50:28(UTC)
Pushok


Статус: Частенько заглядывает

Группы: Member, Russia Team Group
Зарегистрирован: 10.05.2012(UTC)
Сообщений: 178
Мужчина
Российская Федерация
Откуда: Астрахань

Сказал «Спасибо»: 71 раз
Поблагодарили: 19 раз в 15 постах
А такой вопрос:
процент выполнения дошёл до 98,999 и замер.
Стоит ли продолжать счёт или прервать обработку?
Offline Vlad  
#77 Оставлено : 20 июня 2017 г. 21:22:07(UTC)
Vlad


Статус: Интересующийся

Медали: Разработчику: Автор проекта

Группы: Member
Зарегистрирован: 20.11.2016(UTC)
Сообщений: 54
Российская Федерация

Сказал(а) «Спасибо»: 5 раз
Поблагодарили: 103 раз в 33 постах
Автор: Pushok Перейти к цитате
А такой вопрос:
процент выполнения дошёл до 98,999 и замер.
Стоит ли продолжать счёт или прервать обработку?

Это при расчете на CPU? Если да, то не надо прерывать, секунд за 20 должен завершиться. Расчет состоит из двух частей. Сначала считается гистограмма межатомных расстояний, а потом по ней считается дифрактограмма. Пока не посчитается гистограмма, нельзя сказать, сколько времени займет расчет дифрактограммы, так как это время зависит от количества ненулевых значений в гистограмме. Поэтому, чтобы более-менее правильно отображать процент сделанных вычислений, программа пытается "угадать", сколько будет нулей в гистограмме по параметрам исходной структуры еще до расчета. Иногда угадать не получается.

Но такая проблема есть только на CPU, на GPU расчет дифрактограммы происходит очень быстро вне зависимости от количества нулевых значений в гистограмме.
thanks 1 пользователь поблагодарил Vlad за этот пост.
AlexA оставлено 21.06.2017(UTC)
Offline Pushok  
#78 Оставлено : 21 июня 2017 г. 19:44:09(UTC)
Pushok


Статус: Частенько заглядывает

Группы: Member, Russia Team Group
Зарегистрирован: 10.05.2012(UTC)
Сообщений: 178
Мужчина
Российская Федерация
Откуда: Астрахань

Сказал «Спасибо»: 71 раз
Поблагодарили: 19 раз в 15 постах
Автор: Vlad Перейти к цитате
Автор: Pushok Перейти к цитате
А такой вопрос:
процент выполнения дошёл до 98,999 и замер.
Стоит ли продолжать счёт или прервать обработку?

Это при расчете на CPU? Если да, то не надо прерывать, секунд за 20 должен завершиться. Расчет состоит из двух частей. Сначала считается гистограмма межатомных расстояний, а потом по ней считается дифрактограмма. Пока не посчитается гистограмма, нельзя сказать, сколько времени займет расчет дифрактограммы, так как это время зависит от количества ненулевых значений в гистограмме. Поэтому, чтобы более-менее правильно отображать процент сделанных вычислений, программа пытается "угадать", сколько будет нулей в гистограмме по параметрам исходной структуры еще до расчета. Иногда угадать не получается.

Но такая проблема есть только на CPU, на GPU расчет дифрактограммы происходит очень быстро вне зависимости от количества нулевых значений в гистограмме.


Это был CPU+Intel GPU. Перезапуск помог, всё просчиталось заново и быстро Whistle
Offline Disel  
#79 Оставлено : 1 июля 2017 г. 14:45:11(UTC)
Disel


Статус: Старожил

Медали: Донор: За финансовую помощь сайту

Группы: Member, Russia Team Group
Зарегистрирован: 08.07.2013(UTC)
Сообщений: 3,539
Мужчина
Российская Федерация

Сказал «Спасибо»: 480 раз
Поблагодарили: 418 раз в 318 постах
Vlad, в связи с тем, что Вы писали об относительно небольшом объеме вычислений в проекте - какой процент работы сделан на сегодняшний день?

ps к админам - не стоит ли для этого проекта отдельную ветку сделать в разделе, а не просто тему?
Ubuntu Linux 14.04 LTS - 64 bit / Boinc 7.2.42(х64) / Core 2 DUO E6300 1.8 Ггц / GeForce GT-630
Offline Vlad  
#80 Оставлено : 1 июля 2017 г. 16:29:19(UTC)
Vlad


Статус: Интересующийся

Медали: Разработчику: Автор проекта

Группы: Member
Зарегистрирован: 20.11.2016(UTC)
Сообщений: 54
Российская Федерация

Сказал(а) «Спасибо»: 5 раз
Поблагодарили: 103 раз в 33 постах
Автор: Disel Перейти к цитате
Vlad, в связи с тем, что Вы писали об относительно небольшом объеме вычислений в проекте - какой процент работы сделан на сегодняшний день?

Сейчас вычисления завершены для 12% структур. Но последнее время увеличилась доля более сложных структур, и из-за этого WU стали тяжелее. Таких структур во всей базе большинство, так что по объему вычислений завершено, может быть, и меньше 12%.
thanks 1 пользователь поблагодарил Vlad за этот пост.
Disel оставлено 01.07.2017(UTC)
Пользователи, просматривающие эту тему
Guest (3)
6 Страницы«<23456>
Быстрый переход  
Вы не можете создавать новые темы в этом форуме.
Вы не можете отвечать в этом форуме.
Вы не можете удалять Ваши сообщения в этом форуме.
Вы не можете редактировать Ваши сообщения в этом форуме.
Вы не можете создавать опросы в этом форуме.
Вы не можете голосовать в этом форуме.

Boinc.ru theme. Boinc.ru
Форум YAF 2.1.1 | YAF © 2003-2017, Yet Another Forum.NET
Страница сгенерирована за 0.291 секунды.