Магнум учебный центр новосибирск тесты: ЧОУ ДПО Учебный центр «Магнум»

Содержание

Учебный центр «Магнум» — программы обучения — Учёба.ру

Колледж экономических международных связей

Для выпускников 9 и 11 классов.

Высшее образование онлайн

Федеральный проект дистанционного образования.

Я б в нефтяники пошел!

Пройди тест, узнай свою будущую профессию и как её получить.

Технологии будущего

Вдохновитесь идеей стать крутым инженером, чтобы изменить мир

Студенческие проекты

Студенты МосПолитеха рассказывают о своих изобретениях

Химия и биотехнологии в РТУ МИРЭА

120 лет опыта подготовки

Международный колледж искусств и коммуникаций

МКИК — современный колледж

Английский язык

Совместно с экспертами Wall Street English мы решили рассказать об английском языке так, чтобы его захотелось выучить.

15 правил безопасного поведения в интернете

Простые, но важные правила безопасного поведения в Сети.

Олимпиады для школьников

Перечень, календарь, уровни, льготы.

Первый экономический

Рассказываем о том, чем живёт и как устроен РЭУ имени Г.В. Плеханова.

Билет в Голландию

Участвуй в конкурсе и выиграй поездку в Голландию на обучение в одной из летних школ Университета Радбауд.

Цифровые герои

Они создают интернет-сервисы, социальные сети, игры и приложения, которыми ежедневно пользуются миллионы людей во всём мире.

Работа будущего

Как новые технологии, научные открытия и инновации изменят ландшафт на рынке труда в ближайшие 20-30 лет

Профессии мечты

Совместно с центром онлайн-обучения Фоксфорд мы решили узнать у школьников, кем они мечтают стать и куда планируют поступать.

Экономическое образование

О том, что собой представляет современная экономика, и какие карьерные перспективы открываются перед будущими экономистами.

Гуманитарная сфера

Разговариваем с экспертами о важности гуманитарного образования и областях его применения на практике.

Молодые инженеры

Инженерные специальности становятся всё более востребованными и перспективными.

Табель о рангах

Что такое гражданская служба, кто такие госслужащие и какое образование является хорошим стартом для будущих чиновников.

Карьера в нефтехимии

Нефтехимия — это инновации, реальное производство продукции, которая есть в каждом доме.

адрес, телефон, часы работы, отзывы, рейтинг

Справочник предприятий и компаний Новосибирска

Каталог организаций Новосибирска

3. 5 cредняя оценка на основе 12 отзывов.

VK

FB

Telegram

Twitter

Pin

WhatsApp

OK

Контактная информация

Адрес: Новосибирск, Дуси Ковальчук, 1 к2 (посмотреть на карте).

Телефоны: +7 (383) 363-17-09, +7 (383) 255-20-09, +7 (383) 373-47-09, +7 (962) 835-50-09

Часы работы

Закрыто сейчас — 08:17

Карта проезда

Перед тем, как поехать в Вердикт, изучите расположение организации на карте.

Загрузка карты…

Дополнительная информация

Сайт: verdikt-nsk.ru

Социальные сети:

  • VK: https://vk.com/club_verdikt_nsk

Виды деятельности

Учреждение специализируется на 2 типах деятельности.

  • Обучение сотрудников охраны
  • Стрелковые клубы

Похожие предприятия

На основе видов деятельности Вердикт мы подобрали наиболее близкие аналогичные фирмы:

УЧЕБНЫЙ ЦЕНТР МАГНУМ, ЧОУ ДПО

Адреса:
— Красный проспект, 72 — цокольный этаж
— Троллейная, 85 к1

4. 0 cредняя оценка на основе 24 отзывов

70 просмотров

ПРОФЕССИОНАЛ, учебный центр

Адрес:
— Никитина, 149 — 101 офис; 1 этаж

4.4 cредняя оценка на основе 52 отзывов

36 просмотров

Сибирь, стрелковый клуб

Адреса:
— Карла Маркса проспект, 30 — цокольный этаж
— Инская, 39 — цокольный этаж

4.1 cредняя оценка на основе 57 отзывов

75 просмотров

Капалин, многопрофильная компания

Адрес:
— Садовая (снт Украина), 95

14 просмотров

Военно-охотничье общество

Адрес:
— Армейский микрорайон, 7

5.0 cредняя оценка на основе 1 отзыва

16 просмотров

Спортивный стрелково-стендовый комплекс

Адрес:
— Армейский микрорайон, 7 — 1 этаж

5. 0 cредняя оценка на основе 1 отзыва

19 просмотров

Согласие, ООО, консультационно-юридическая фирма

Адрес:
— Фрунзе, 2Б — цокольный этаж

5.0 cредняя оценка на основе 2 отзывов

16 просмотров

АRСЕНАЛ 54, физкультурно-спортивный стрелковый клуб

Адрес:
— Ионосферная, 3/1

3.5 cредняя оценка на основе 4 отзывов

37 просмотров

Спарта, стрелковый тир

Адрес:
— Карла Маркса проспект, 22 — цокольный этаж

4.7 cредняя оценка на основе 89 отзывов

42 просмотра

Школа Гарант, АНО

Адрес:
— Российская, 5/1 — цокольный этаж

3.5 cредняя оценка на основе 8 отзывов

13 просмотров

Отзывы

Читать 12 отзывов пользователей о фирме «Вердикт».

Посмотреть 7 других отзывов клиентов.

Посещаемость страниц предприятия

23 посещения страниц компании

VK

FB

Telegram

Twitter

Pin

WhatsApp

OK

Масштабирование VASP с NVIDIA Magnum IO

Можно возразить, что история цивилизации и технического прогресса — это история поиска и открытия материалов. Века называются не по лидерам или цивилизациям, а по материалам, которые их определяли: каменный век, бронзовый век и так далее. Нынешний цифровой или информационный век можно было бы переименовать в век кремния или полупроводников и сохранить то же значение.

Хотя кремний и другие полупроводниковые материалы могут быть наиболее значительными материалами, вызывающими изменения сегодня, есть несколько других материалов, находящихся в стадии исследования, которые могут в равной степени способствовать изменениям следующего поколения, включая любое из следующего:

  • Высокотемпературные сверхпроводники
  • Фотогальваника
  • Графеновые батареи
  • Суперконденсаторы

Полупроводники лежат в основе строительных микросхем, которые позволяют проводить обширный и сложный в вычислительном отношении поиск таких новых материалов.

В 2011 году Инициатива США по изучению генома материалов настаивала на идентификации новых материалов с помощью моделирования. Однако в то время и отчасти даже сегодня расчет свойств материалов из первых принципов может быть мучительно медленным даже на современных суперкомпьютерах.

Венский пакет моделирования Ab initio (VASP) является одним из самых популярных программных инструментов для таких прогнозов, и он был написан для использования технологий ускорения и минимизации времени получения информации.

Обзор нового материала: гафния

В этом посте рассматривается расчет свойств материала, называемого гафнией или оксидом гафния (HfO 2 ).

Сама по себе гафния является электрическим изолятором. Он широко используется в производстве полупроводников, так как может служить в качестве диэлектрической пленки с высоким κ при создании хранилища с динамической памятью с произвольным доступом (DRAM). Он также может действовать как изолятор затвора в полевых транзисторах металл-оксид-полупроводник (MOSFET). Hafnia представляет большой интерес для энергонезависимой резистивной оперативной памяти, благодаря которой загрузка компьютеров может уйти в прошлое.

В то время как идеальный чистый кристалл HfO 2 может быть легко рассчитан с использованием всего 12 атомов, это не что иное, как теоретическая модель. Такие кристаллы практически имеют примеси.

Иногда необходимо добавить присадку, чтобы получить желаемые свойства материала помимо изоляции. Это легирование может быть выполнено на уровне чистоты, что означает, что из 100 подходящих атомов один атом заменяется другим элементом. Минимум 12 атомов, из которых только четыре являются Hf. Вскоре становится очевидным, что для таких расчетов легко требуются сотни атомов.

Этот пост демонстрирует, как такие вычисления могут быть эффективно распараллелены на сотнях и даже тысячах графических процессоров. Хафния служит примером, но принципы, продемонстрированные здесь, конечно, могут быть применены к вычислениям аналогичного размера.

Определения терминов

  • Ускорение : Безразмерная мера производительности относительно эталона. В этом посте эталоном является производительность одного узла с использованием 8 графических процессоров A100 80 ГБ SXM4 без включенного NCCL. Ускорение рассчитывается путем деления эталонного времени выполнения на прошедшее время выполнения.
  • Линейное масштабирование: Кривая ускорения для идеально параллельного приложения. В терминах закона Амдала это для приложения, которое на 100% распараллелено, а межсоединение бесконечно быстрое. В такой ситуации двукратное увеличение вычислительных ресурсов приводит к половине времени выполнения, а десятикратное увеличение вычислительных ресурсов приводит к одной десятой времени выполнения. При построении графика ускорения по сравнению с количеством вычислительных ресурсов кривая производительности представляет собой линию с наклоном вверх и вправо под углом 45 градусов. Эффект параллельного выполнения превосходит это пропорциональное соотношение. То есть наклон будет круче 45 градусов и это называется суперлинейным масштабированием.
  • Параллельная эффективность: Безразмерная мера в процентах того, насколько выполнение конкретного приложения близко к идеальному линейному масштабированию. Параллельная эффективность рассчитывается путем деления достигнутого ускорения на ускорение линейного масштабирования для данного количества вычислительных ресурсов. Чтобы не тратить время вычислений впустую, в большинстве центров обработки данных действуют политики минимального уровня параллельной эффективности (50–70 %).

Примеры использования и отличия VASP

VASP — одно из наиболее широко используемых приложений для расчетов электронной структуры и молекулярной динамики из первых принципов. Он предлагает современные алгоритмы и методы для прогнозирования свойств материалов, подобные тем, которые обсуждались ранее.

Ускорение графического процессора реализовано с помощью OpenACC. Взаимодействие с графическим процессором может осуществляться с помощью библиотек Magnum IO MPI в NVIDIA HPC-X или NVIDIA Collective Communications Library (NCCL).

Варианты использования и дифференциация гибридного DFT

В этом разделе основное внимание уделяется использованию квантово-химического метода, известного как теория функционала плотности (DFT). называется гибридным ДПФ. Эта дополнительная точность помогает определить ширину запрещенной зоны в более точном соответствии с экспериментальными результатами.

Ширина запрещенной зоны — это свойство, которое классифицирует материалы как изоляторы, полупроводники или проводники. Для материалов на основе гафнии эта дополнительная точность имеет решающее значение, но связана с повышенной вычислительной сложностью.

Сочетание этого с необходимостью использования множества атомов демонстрирует потребность в масштабировании до множества узлов на суперкомпьютерах с ускорением на GPU. К счастью, в VASP доступны еще более точные методы. Дополнительные сведения о дополнительных функциях см. в разделе VASP6.

На более высоком уровне VASP — это приложение квантовой химии, которое отличается от других и, возможно, даже более знакомых приложений вычислительной химии для высокопроизводительных вычислений (HPC), таких как NAMD, GROMACS, LAMMPS и AMBER. Эти коды сосредоточены на молекулярной динамике (МД) с использованием упрощений взаимодействия между атомами, таких как рассмотрение их как точечных зарядов. Это делает моделирование движения этих атомов, скажем, из-за температуры, недорогим в вычислительном отношении.

VASP, с другой стороны, рассматривает взаимодействие между атомами на квантовом уровне, поскольку он вычисляет, как электроны взаимодействуют друг с другом и могут образовывать химические связи. Он также может определять силы и перемещать атомы для квантового моделирования или моделирования ab-initio-MD (AIMD). Это действительно может быть интересно для научной проблемы, обсуждаемой в этом посте.

Однако такая симуляция будет состоять из многократного повторения шага вычисления гибридного ДПФ. Хотя последующие шаги могут сходиться быстрее, вычислительный профиль каждого отдельного шага не изменится. Вот почему мы показываем здесь только одну ионную ступень.

Работа с одним узлом или несколькими узлами

Многие расчеты VASP используют химические системы, которые достаточно малы, чтобы их не требовалось выполнять на средствах высокопроизводительных вычислений. Некоторым пользователям может быть некомфортно масштабировать VASP на нескольких узлах и страдать из-за времени решения, возможно, даже до такой степени, что отключение питания или какой-либо другой сбой становится вероятным. Другие могут ограничить свои размеры моделирования, чтобы время выполнения не было таким обременительным, как если бы были исследованы более подходящие размеры системы.

Существует несколько причин, по которым вы должны запускать симуляции на нескольких узлах:

  • Моделирование, выполнение которого на одном узле заняло бы недопустимое количество времени, даже если последний может быть более эффективным.
  • Большие вычисления, требующие больших объемов памяти и не помещающиеся на одном узле, требуют распределенного параллелизма. Хотя некоторые вычислительные величины необходимо реплицировать по узлам, большинство из них можно декомпозировать. Таким образом, объем памяти, необходимый для каждого узла, сокращается примерно на количество узлов, участвующих в параллельной задаче.
Рис. 1. Когда выбирать один узел или несколько узлов

Дополнительные сведения о многоузловом параллелизме и эффективности вычислений см. в недавней электронной книге HPC for the Age of AI and Cloud Computing.

NVIDIA опубликовала исследование многоузлового параллелизма с использованием набора данных Si256_VJT_HSE06. В этом исследовании NVIDIA задалась вопросом: «Для этого набора данных и среды HPC, состоящей из систем V100 и сети InfiniBand, как далеко мы можем разумно масштабироваться?»

Средства связи Magnum IO для параллелизма

VASP использует библиотеки и технологии ввода-вывода NVIDIA Magnum, которые оптимизируют программирование для нескольких графических процессоров и узлов для обеспечения масштабируемой производительности. Они являются частью SDK NVIDIA HPC.

В этом посте мы рассмотрим две коммуникационные библиотеки:

  • Интерфейс передачи сообщений (MPI): стандарт для программирования масштабируемых систем с распределенной памятью.
  • NVIDIA Collective Communications Library (NCCL): реализует высокооптимизированные примитивы коллективной связи с несколькими GPU и несколькими узлами с использованием MPI-совместимых подпрограмм all-gather, all-reduce, широковещательной передачи, уменьшения, уменьшения-разброса и двухточечного соединения. чтобы использовать все доступные графические процессоры внутри и между узлами сервера HPC.

Пользователи VASP могут во время выполнения выбирать, какую коммуникационную библиотеку следует использовать. Поскольку производительность чаще всего значительно повышается при замене MPI на NCCL, это значение по умолчанию в VASP.

Есть несколько веских причин наблюдаемых различий при использовании NCCL по сравнению с MPI.

При использовании NCCL обмен данными инициируется графическим процессором и поддерживает поток. Это устраняет необходимость в синхронизации GPU-to-CPU, которая в противном случае необходима перед каждой инициированной ЦП связью MPI, чтобы гарантировать, что все операции графического процессора завершены до того, как библиотека MPI коснется буферов. Коммуникации NCCL можно ставить в очередь в потоке CUDA точно так же, как ядро, и это может способствовать асинхронной работе. ЦП может ставить в очередь дальнейшие операции, чтобы держать ГП занятым.

В случае MPI GPU простаивает по крайней мере в течение времени, которое требуется CPU для постановки в очередь и запуска следующей операции GPU после завершения связи MPI. Сокращение времени простоя графического процессора способствует повышению эффективности параллельных вычислений .

С двумя отдельными потоками CUDA вы можете легко использовать один поток для вычислений GPU, а другой — для связи. Учитывая, что эти потоки независимы, обмен данными может происходить в фоновом режиме и потенциально полностью скрываться за вычислениями. Достижение последнего — большой шаг вперед к высокой параллельной эффективности. Этот метод можно использовать в любой программе, поддерживающей двойную буферизацию.

Неблокирующие соединения MPI могут предоставить аналогичные преимущества. Тем не менее, вам все равно придется выполнять синхронизацию между GPU и CPU вручную с описанными недостатками производительности.

Существует еще один уровень сложности, поскольку неблокирующие коммуникации MPI также должны быть синхронизированы на стороне ЦП. Это требует гораздо более сложного кода с самого начала по сравнению с использованием NCCL. Однако при связи MPI, инициируемой ЦП, часто нет аппаратного ресурса, который автоматически делает связь действительно асинхронной.

Вы можете порождать потоки ЦП, чтобы обеспечить прогресс связи, если ваше приложение использует ядра ЦП, но это снова увеличивает сложность кода. В противном случае связь может иметь место только тогда, когда процесс переходит в режим ожидания MPI_Wait, что не дает никаких преимуществ по сравнению с использованием блокирующих вызовов.

Еще одно отличие, о котором следует помнить, заключается в том, что для сокращений данные суммируются на ЦП. В случае, когда пропускная способность однопоточной памяти ЦП ниже, чем пропускная способность сети, это также может стать неожиданным узким местом.

NCCL, с другой стороны, использует GPU для суммирования и знает топологию. Внутри узла он может использовать доступные соединения NVLink и оптимизирует межузловое взаимодействие с помощью Mellanox Ethernet, InfiniBand или аналогичных структур.

Тестовый пример компьютерного моделирования с HfO

2

Кристалл гафния состоит из двух элементов: гафния (Hf) и кислорода (O). В идеальной системе, свободной от примесей или вакансий, на каждый атом Hf приходится два атома O. Минимальное количество атомов, необходимое для описания структуры бесконечно вытянутого кристалла, составляет четыре атома Hf (желтоватый) и восемь атомов O (красный). На рис. 2 показана структура.

Рис. 2. Визуализация элементарной ячейки для кристалла гафния (HfO 2 )

Проволочный каркас коробки обозначает так называемую элементарную ячейку. Это повторяется во всех трех измерениях пространства, чтобы получить бесконечно протяженный кристалл. Изображение намекает на это путем дублирования атомов O5, O6, O7 и O8 за пределами элементарной ячейки, чтобы показать их соответствующие связи с атомами Hf. Эта ячейка имеет размеры 51,4 на 51,9 на 53,2 нм. Это не идеальный кубоид, потому что один из его углов равен 9.9,7° вместо 90°.

Минимальная модель явно рассматривает только 12 атомов, заключенных в прямоугольник на рисунке 2. Однако вы также можете продлить коробку в одном или нескольких направлениях пространства на целое число, кратное соответствующему ребру, и скопировать структуру атомов во вновь созданное пространство. Такой результат называется суперячейкой и может помочь обрабатывать эффекты, недоступные в рамках минимальной модели, такие как 1% вакансии кислорода.

Конечно, обработка более крупной ячейки с большим количеством атомов требует больших вычислительных ресурсов. Когда вы добавляете еще одну ячейку, чтобы всего было две ячейки, в направлении a , оставив b и c как есть, это называется суперячейкой 2x1x1 с 24 атомами.

Для целей данного исследования мы рассматривали только суперячейки, стоимость которых достаточна для того, чтобы оправдать использование хотя бы нескольких узлов суперкомпьютера:

  • 3x3x3: 324 атома, 1792 орбитали
  • 4x4x3: 576 атомов, 3072 орбитали
  • 4x4x4: 768 атомов, 3840 орбиталей
  • Имейте в виду, что вычислительные затраты не прямо пропорциональны количеству атомов или объему элементарной ячейки. Грубая оценка, используемая в этом тематическом исследовании, состоит в том, что он кубически масштабируется с любым из них.

    Рис. 3. Визуализация суперячеек оксида гафния для подсчета атомов: 96, 216, 324, 576, 768

    Используемая здесь система гафния, конечно, только один пример. Уроки могут быть перенесены в другие системы, в которых используются ячейки аналогичного размера и гибридное ДПФ, поскольку лежащие в их основе алгоритмы и шаблоны связи не меняются.

    Если вы хотите провести самостоятельное тестирование HfO 2 , вы можете загрузить входные файлы, используемые для этого исследования. По причинам авторского права мы не можем распространять файл POTCAR. Этот файл одинаков во всех суперячейках. Как лицензиат VASP, вы можете легко создать его самостоятельно из предоставленных файлов с помощью следующей команды Linux:

     # cat PAW_PBE_54/Hf_sv/POTCAR PAW_PBE_54/O/POTCAR > POTCAR 

    Для этих экспериментов по масштабированию мы установили постоянное количество используемые кристаллические орбитали, или полосы . Это немного увеличивает рабочую нагрузку сверх необходимого минимума, но не влияет на точность вычислений.

    Если бы этого не было сделано, VASP автоматически выбрал бы число, которое делится на целое число на количество графических процессоров, и это могло бы увеличить рабочую нагрузку для определенных узлов. Мы выбрали количество орбиталей, которое делится на целое число всех задействованных счетчиков GPU. Кроме того, для лучшей вычислительной сопоставимости количество k точек остается фиксированным на уровне 8, хотя на практике это может не требоваться для более крупных суперячеек.

    Метод моделирования моделирования Supercell с помощью VASP

    Все тесты, представленные ниже, используют последнюю версию VASP 6.3.2, которая была скомпилирована с использованием NVIDIA HPC SDK 22.5 и CUDA 11.7.

    Для полной справки: makefile.include доступен для загрузки. Они выполнялись на суперкомпьютере NVIDIA Selene, состоящем из 560 узлов DGX A100, каждый из которых оснащен восемью графическими процессорами NVIDIA A100-SXM4-80GB, восемью сетевыми картами (NIC) NVIDIA ConnectX-6 HDR InfiniBand и двумя процессорами AMD EPYC 7742.

    Для обеспечения наилучшей производительности процессы и потоки были закреплены за узлами NUMA на ЦП, которые обеспечивают идеальное подключение к соответствующим графическим процессорам и сетевым адаптерам, которые они будут использовать. Обратная нумерация узлов NUMA на AMD EPYC дает следующую привязку процесса для лучшей локализации оборудования.

    Node local rank CPU NUMA node GPU ID NIC ID
    0 3 0 mlx5_0
    1 2 1 mlx5_1
    2 1 2 mlx5_2
    3 0 3 mlx5_3
    4 7 4 mlx5_6
    5 6 5 mlx5_7
    6 5 6 MLX5_8
    7 4 7 MLX5_9
    Таблица 1. COMPAL ISPULE TABLE 1. COMPIL IDSEL TABLE 1. COMPUTION IDELENRINER Таблица 1. ucx.sh . Этот сценарий упаковывает вызов VASP, выполняя в диспетчере рабочей нагрузки (например, Slurm) следующее:

     # export EXE=/your/path/to/vasp_std
    # srun ./selenerun-ucx.sh 

    Файл selenerun-ucx.sh необходимо настроить в соответствии с вашей средой в зависимости от доступной конфигурации ресурсов. Например, количество графических процессоров или количество сетевых карт на узел может отличаться от Selene, и сценарий должен отражать эти различия.

    Чтобы сократить время вычислений для сравнительного анализа, мы ограничили все расчеты только одним электронным шагом, установив NELM=1 в файлах INCAR. Мы можем сделать это, потому что нас не интересуют научные результаты, такие как общая энергия, и выполнения одного электронного шага достаточно, чтобы спрогнозировать производительность полного цикла. Такой пробег занял 19итераций для сходимости с суперячейкой 3x3x2.

    Конечно, для каждой отдельной настройки ячейки может потребоваться разное количество итераций до конвергенции. Чтобы оценить поведение масштабирования, вы все равно хотите сравнить фиксированное количество итераций, чтобы поддерживать сопоставимость рабочей нагрузки.

    Однако оценка производительности прогонов только с одной электронной итерацией может ввести вас в заблуждение, поскольку профиль будет неравномерным. Время инициализации будет занимать гораздо большую долю по сравнению с чистыми итерациями, как и части пост-конвергенции, такие как расчет силы.

    К счастью, электронные итерации требуют одинаковых усилий и времени. Вы можете спрогнозировать общее время репрезентативного запуска, используя следующее уравнение:

    Вы можете извлечь время для одной итерации из внутреннего таймера LOOP VASP, в то время как время, затраченное на шаги после итерации, определяется разницей между LOOP+ и таймеры LOOP.

    Время инициализации, с другой стороны, представляет собой разницу между общим временем, указанным в VASP как Истекшее время и LOOP+. В такой проекции есть небольшая ошибка, поскольку первые итерации занимают немного больше времени из-за таких случаев, как одноразовые распределения. Однако была проверена погрешность менее 2%.

    Результаты параллельной эффективности для гибридной итерации DFT в VASP

    Сначала мы рассмотрели наименьший набор данных с 96 атомами: суперячейку 2x2x2. Этот набор данных вряд ли требует суперкомпьютера в наши дни. Его полный цикл, состоящий из 19 итераций, завершается примерно за 40 минут на одном DGX A100.

    Тем не менее, с MPI он может масштабироваться до двух узлов с параллельной эффективностью 93 %, а затем снижаться до 83 % на четырех и даже 63 % на восьми узлах.

    С другой стороны, NCCL обеспечивает почти идеальное масштабирование 97% на двух узлах, 90% на четырех узлах и даже на восьми узлах все равно достигает 71%. Однако самое большое преимущество NCCL наглядно продемонстрировано на 16 узлах. Вы все еще можете увидеть > 10-кратное относительное ускорение по сравнению с 6-кратным только с MPI.

    Отрицательное масштабирование за пределами 64 узлов требует объяснения. Чтобы запустить 128 узлов с 1024 графическими процессорами, вы также должны использовать 1024 орбитали. В других расчетах использовалось только 512, так что здесь нагрузка увеличивается. Однако мы не хотели включать такое чрезмерное количество орбит для прогонов нижних узлов.

    Рис. 4. Масштабирование и производительность для случая 96 атомов. Результаты с включенным NCCL были масштабированы относительно производительности одного узла с отключенным NCCL .

    Следующий пример уже представляет собой вычислительно сложную задачу. Полный расчет суперячейки 3x3x2 с 216 атомами занимает более 7,5 часов на 8xA100 на одном узле.

    С увеличением потребности в вычислениях появляется больше времени для асинхронного завершения обмена данными в фоновом режиме с помощью NCCL. ВАСП остается выше 91% до 16 узлов и только близко не достигает 50% на 128 узлах.

    С MPI VASP не скрывает связи эффективно и не достигает 90% даже на восьми узлах и падает до 41% уже на 64 узлах.

    На рис. 5 показано, что тенденции, касающиеся поведения масштабирования, остаются такими же для следующей более крупной суперячейки 3x3x3 с 324 атомами, что займет целый день до решения на одном узле. Однако спреды между использованием NCCL и MPI значительно увеличиваются. На 128 узлах с NCCL вы получаете относительное ускорение в 2 раза лучше.

    Рис. 5. Масштабирование и производительность для случаев с 216 и 324 атомами. Результаты с включенным NCCL были масштабированы относительно производительности одного узла с отключенным NCCL .

    Переходя к еще большей суперячейке 4x4x3, содержащей 576 атомов, вам придется ждать более 5 дней для полного расчета с использованием одного DGX A100.

    Однако с таким требовательным набором данных необходимо обсудить новый эффект: объем памяти и параметры распараллеливания. VASP предлагает распределить нагрузку на к -точки при репликации памяти в таких установках. Хотя это намного эффективнее для выполнения стандартного ДПФ, оно также повышает производительность вычислений гибридного ДПФ, и нет необходимости оставлять доступную память неиспользованной.

    Для небольших наборов данных даже распараллеливание всех тыс. точек легко помещается в 8xA100 GPU с 80 ГБ памяти каждый. Однако с набором данных из 576 атомов на одном узле это уже не так, и мы должны уменьшить параллелизм k точек. Начиная с двух узлов, мы могли снова полностью использовать его.

    Хотя это неразличимо на рис. 6, в случае MPI наблюдается незначительное сверхлинейное масштабирование (102% параллельная эффективность) на двух узлах. Это происходит из-за обязательного уменьшения параллелизма на одном узле, который поднимается на двух или более узлах. Тем не менее, это то, что вы сделали бы и на практике.

    Мы сталкиваемся с аналогичной ситуацией для суперячейки 4x4x4 с 768 атомами на одном и двух узлах, но эффект сверхлинейного масштабирования там еще менее выражен.

    Мы увеличили суперячейку 4x4x3 и 4x4x4 до 256 узлов. Это соответствует 2048 графическим процессорам A100. С NCCL они достигли 67% или даже 75% параллельной эффективности. Это позволяет вам получать результаты менее чем за 1,5 часа, что раньше занимало бы почти 12 дней на одном узле! Использование NCCL обеспечивает относительное ускорение таких больших вычислений почти в 3 раза по сравнению с MPI.

    Рис. 6. Масштабирование и производительность для случаев с 576 и 768 атомами. Результаты с включенным NCCL были масштабированы относительно производительности одного узла с отключенным NCCL.

    Рекомендации по использованию NCCL для моделирования VASP

    VASP 6.3.2 для расчета HfO 2 суперячеек с числом атомов от 96 до 768 обеспечивает значительную производительность за счет использования NVIDIA NCCL на многих узлах, когда среда высокопроизводительных вычислений с ускорением на графическом процессоре NVIDIA дополнена NVIDIA InfiniBand сеть доступна.

    Рис. 7. Общие рекомендации, когда NCCL выгоден для моделирования VASP, аналогичного HfO 2 , работающего на графических процессорах A100 с несколькими межсетевыми связями HDR InfiniBand следующее:

    • Запуск всех вычислений, кроме самых мелких, с использованием ускорения графического процессора.
    • Рассмотрите возможность запуска более крупных систем атомов с использованием как графических процессоров, так и нескольких узлов, чтобы сократить время до анализа.
    • Запустите все многоузловые расчеты с использованием NCCL, так как это повышает эффективность только при работе с большими моделями.

    Небольшие дополнительные затраты на инициализацию NCCL окупятся.

    Резюме

    В заключение вы видели, что масштабируемость гибридного DFT в VASP зависит от размера набора данных. Это в некоторой степени ожидаемо, учитывая, что чем меньше набор данных, тем раньше каждый отдельный графический процессор исчерпает вычислительную нагрузку.

    NCCL также помогает скрыть необходимые коммуникации. На рис. 7 показаны уровни параллельной эффективности, которые можно ожидать для определенных размеров наборов данных с различным количеством узлов. Для большинства ресурсоемких наборов данных VASP достигает >80% эффективности параллельного выполнения на 32 узлах. Для наиболее ресурсоемких наборов данных, которые запрашивают некоторые наши клиенты, масштабирование до 256 узлов возможно с хорошей эффективностью.

    Рисунок 8. Параллельная эффективность как функция количества узлов (логарифмическая шкала)

    Пользовательский опыт VASP

    Наш опыт работы с пользователями VASP показывает, что запуск VASP в инфраструктуре с ускорением на GPU — это положительный и продуктивный опыт, который позволяет вам рассматривать более крупные и более сложные модели для ваших исследований.

    В сценариях без ускорения вы можете запускать модели меньшего размера, чем вам хотелось бы, потому что вы ожидаете, что время выполнения вырастет до недопустимого уровня. Использование высокопроизводительной инфраструктуры ввода-вывода с малой задержкой с графическими процессорами и InfiniBand с технологиями ускорения ввода-вывода Magnum, такими как NCCL, делает эффективными многоузловые параллельные вычисления и делает более крупные модели доступными для исследователей.

    Преимущества системного администратора высокопроизводительных вычислений

    Центры высокопроизводительных вычислений, особенно коммерческие, часто имеют политики, запрещающие пользователям выполнять задания с низкой параллельной эффективностью. Это не позволяет пользователям с короткими сроками или тем, кому требуется высокая скорость оборота, использовать больше вычислительных ресурсов за счет времени ожидания работы других пользователей. Чаще всего простое эмпирическое правило заключается в том, что 50-процентная параллельная эффективность определяет максимальное количество узлов, которое может запросить пользователь, и, следовательно, увеличивает время решения.

    Здесь мы показали, что, используя NCCL как часть NVIDIA Magnum IO, пользователи ускоренной системы высокопроизводительных вычислений могут оставаться в пределах эффективности и масштабировать свои задачи значительно дальше, чем это возможно при использовании только MPI.

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *