ФАФИ есептеу кластері гранттық және бағдарламалық-нысаналы қаржыландыру аясында тағы бір жаңартудан өтті. Бұл кластердің 2024 жылы өткен екінші ірі жаңартуы болды. AP23487846 жобасы және BR24992807 пен BR24992759 бағдарламалары аясында 10 NVIDIA GeForce RTX 4090 графикалық үдеткіштері сатып алынды және турбиналық салқындату жүйесімен жабдықталған екі-слотты серверде жұмыс орындалуда және бар SuperMicro A+ Server AS-4125GS-TNRT2 GPU серверіне орнатылды.

Сатып алынған карталар NVIDIA RTX 4090 ойын карталарының мәліметтер-орталықтарда қолдануға арналған OEM-жаңартылған болып табылады. Екі-слотты форм-фактор бір GPU-серверге 10 картаға дейін орнатуға мүмкіндік береді. Карталарды бір серверге (бір аналық тақтаға) орнату карталар арасында 64 ГБ/с жылдамдықпен (PCIe 4.0 интерфейсі жылдамдығы) ешқандай шектеусіз байланыс орнатуға мүмкіндік береді, бұл үшін 400/800 гигабиттік RDMA-карталарды қолданудың қажеті жоқ.

10 NVIDIA RTX 4090 GPU картасы орнатылған SuperMicro A+ Server AS-4125GS-TNRT2 есептеу сервері.

Карталар арасындағы коммутация жылдамдығы көптеген есептеу тапсырмалары үшін, әсіресе, N-денелер қозғалысын модельдеу кезінде маңызды рөл атқарады. Мұнда енгізудің әр қадамынан кейін таралған есептеу құрылғылары арасында мәліметтерді синхрондау қажет. Егер мұндай коммуникация есептеулерден көп уақыт алса, таралған есептеу құрылғыларының қарапайым жұмыс уақыты пайда болады. Нәтижесінде, құрылғыларды бірге пайдалану кезінде олардың есептеу қуаты қосылмайды. PCIe 4.0 интерфейсі үшін мүмкін болатын ең жоғары жылдамдық пен төмен кідірістердің арқасында GPU-карталардың аналық тақта арқылы (PLX-свитчтер арқылы) коммутациясы бұл мәселені шешеді, барлық GPU-карталарды қосылған өнімділікпен бір құрылғы ретінде пайдалануға мүмкіндік береді. Мысалы, RTX 4090 картасының FP32 өнімділігі 82.6 терафлопс құрайды, сондықтан 10 құрылғыны біріктіргенде жалпы теориялық өнімділік 826 терафлопс болады.
Практикада бұл көрсеткіш төменірек, өйткені модельдеу тапсырмаларын орындау кезінде өте жоғарғы өнімділікке қол жеткізу өте қиын. Мысалы, CUDA Samples пакетімен бірге жеткізілетін nbody утилитасы есептеулердің нақты жылдамдығын секундына 40-45 терафлопсқа дейін жеткізе алады (өнімділік Turbo Boost әсерінен өзгеріп отырады), яғни теориялық мүмкін мәннің 48-54% құрайды.

Жеке карталардың өнімділігі (әртүрлі түсті сызықтармен көрсетілген) модельденетін бөлшектер санының функциясы ретінде.

Екі немесе одан да көп карталарды бір уақытта пайдалану кезінде, сондай-ақ модельденетін бөлшектер санының көбеюімен өнімділік артады. Мысалы, 8 миллион бөлшекті 10 карта арқылы модельдеу кезінде nbody утилитасы үшін рекордтық көрсеткіш болып табылатын 260 терафлопстан астам нақты өнімділікке қол жеткізілді. Бұл нәтиже GPU-карталардың бірге жұмыс істеу кезінде олардың жалпы өнімділігі теориялық максимумның 31.5% жететінін білдіреді. Сонымен қатар, карталардың жеке режимдегі нақты өнімділігімен салыстырғанда, бірлескен режимде әрбір жеке карта өз өнімділігінің 65% жұмыс істейді, яғни 35% коммуникацияға (карталар арасындағы мәліметтерді синхрондауға) жұмсалады.

Карталардың бірлескен өнімділігі модельденетін бөлшектер санының функциясы ретінде (жоғарғы график) және карталар санының функциясы ретінде (төменгі график).

Айта кететін жағдай, карталарды тығыз орналастыру жағдайында, яғни карталар арасындағы қашықтық 6 мм-ден аспай, әр картаның энергия тұтынуы 450 ваттқа жеткенде, оларды жеткілікті түрде салқындату мәселесі туындайды (температура 80°C дейін шектеледі). Тестілеу көрсеткендей, барлық карталар толық жүктемеде жұмыс істесе де, олардың температурасы 80 градустан аспайды. Алайда, A+ Server AS-4125GS-TNRT2 GPU-сервері ішкі желдеткіштердің айналу жылдамдығын минутына 9000 айналымға дейін арттырады, бұл айтарлықтай шу тудырады.

Осылайша, карталарды алдын ала тестілеу бір серверде 10 GPU-картаны пайдаланудың мүмкіндігі мен орындылығын растады. 10 GPU-картаны қосу ФАФИ кластерінің GPU-өнімділігін 56% арттырды, яғни FP32 операцияларында 2 287 терафлопсқа, ал FP08 операцияларында секундына 35 609 терафлопсқа дейін жеткізді.

10 картадан тұратын кластердің негізгі міндеттері: N-денелер қозғалысын сандық модельдеу (4-8 М), галактикаларды модельдеуге арналған тепе-тең бастапқы жағдайларды жасауды жылдамдату, галактикалардың спиральды құрылымдарын тану және спектрлердегі спектрлік сызықтарды жасанды интеллект және нейрожелілік технологияларды пайдалану арқылы жіктеу тапсырмаларын шешу.