Вычислительный кластер АФИФ получил еще одно обновление в рамках грантового и программно-целевого финансирования. Это второе крупное обновление кластера в 2024 году. В рамках проекта AP23487846 и двух программ BR24992807 и BR24992759 были приобретены 10 графических ускорителей NVIDIA GeForce RTX 4090 в двух-слотовом серверном исполнении с турбинной системой охлаждения и установлены в имеющийся GPU-сервер SuperMicro A+ Server AS-4125GS-TNRT2.

Приобретенные карты являются OEM-модификацией игровых карт NVIDIA RTX 4090 для использования в дата-центрах. 2-х слотовый форм-фактор позволяет устанавливать до 10 карт в один GPU-сервер. Установка карт в один сервер (в одну материнскую плату) обеспечивает неблокируемую коммуникацию карт друг с другом на скорости до 64 ГБ/с (скорость интерфейса PCIe 4.0), без использования 400/800 гигабитных RDMA-карт.

Вычислительный сервер SuperMicro A+ Server AS -4125GS-TNRT2 с установленными 10 GPU-картами NVIDIA RTX 4090

Скорость коммутации карт имеет важное значение во многих вычислительных задачах, в частности, в моделировании движения N-тел, где после каждого шага интегрирования на распределенных вычислительных устройствах требуется синхронизация данных между ними. Если такая коммуникация занимает больше времени, чем вычисления, то возникает простой распределенных вычислительных устройств. Как результат, вычислительная мощность устройств не складывается при их совместном использовании. Благодаря высокой скорости (максимально возможной для PCIe 4.0 интерфейса) и низким задержкам, коммутация GPU-карт через материнскую карту (через PLX-свитчи) решает эту проблему, позволяя использовать все GPU-карты как единое устройство с суммированной производительностью. Так, FP32 производительность одной карты RTX 4090 составляет 82.6 терафлопс, следовательно при объединении 10 устройств, общая теоретическая производительность составит 826 терафлопс.
На практике это число меньше, т.к. достичь пиковой производительности при решении задач моделирования очень сложно. К примеру, утилита nbody, поставляемая в комплекте с пакетом CUDA Samples, позволяет достигнуть фактической скорости вычислений 40-45 терафлопс в секунду (производительность варьируется из-за Turbo Boost), т.е. 48-54% процентов от теоретически возможного значения.

Производительность индивидуальных карт (показанно линиями разного цвета) как функция числа моделируемых частиц.

При одновременном задействовании двух и более карт, а также при увеличении числа моделируемых частиц производительность увеличивается. Так, при моделировании 8 миллионов частиц с помощью 10 карт удалось достигнуть фактической производительности свыше 260 терафлопс, что является рекордным показателем для утилиты nbody. Данный результат означает, что при совместной работе общая производительность GPU-карт достигает 31.5% от теоретического максимума. При этом индивидуальные карты в совместном режиме работают на 65% от их фактической производительности в индивидуальном режиме, т.е. 35% уходит на коммуникацию (синхронизацию данных между картами).

Совместная производительность карт как функция числа моделируемых частиц (верхний график) и числа карт (нижний график).

Следует отметить, что в случае такой плотной компоновки карт, когда расстояние между картами не превышает 6 мм, а энергопотребление каждой карты достигает 450 ватт, возникает вопрос их достаточного охлаждения (в пределах до 80С). Тестирование показало, что даже при полной нагрузке всех карт их температура не превышает 80 градусов. Однако GPU-сервер A+ Server AS -4125GS-TNRT2 повышает обороты внутренних вентиляторов до 9000 оборотов в минуту, что создает значительный шум.

Таким образом, предварительное тестирование карт подтвердило возможность и целесообразность использования 10 GPU-карт в одном сервере. Добавление 10 GPU-карт увеличило GPU-производительность кластера АФИФ на 56%, а именно до 2 287 терафлопс в FP32-операциях и до 35 609 терафлопс в секунду в FP08-операциях.

Основные задачи, стоящие перед кластером из 10-карт: численное моделирование движения N-тел (4-8М), ускорение создания равновесных начальных условий для моделирования галактик, решение задач по распознаванию образов спиральных структур в галактиках и идентификации спектральных линий в спектрах с использованием нейросетей и технологий искусственного интеллекта.

Обновление 25.01.2025

В дополнение к коду nbody, карты также были протестированны с помощью кода phiGPU, который активно применяется для прямого моделировании тесных звездных скоплений. Результаты тестирования показали сопостовимую проводительность с nbody-кодом. При использовании одной карты производительность phiGPU ниже, однако при использовании нескольких карт и большого числа частиц phiGPU показывает лучшую производительность и мастштабируемость.

NB: Следует отметить, что с помощью всего 10 GPU-карт RTX 4090 удалось достигнуть производительности в 300 терафлопс, тогда как еще относительно недавно в 2011 году для достижения такой производительности требовалось 1536(!) GPU-карт Fermi Tesla C2050.