banner
Hogar / Blog / Elaboración de un DGX
Blog

Elaboración de un DGX

Jun 27, 2023Jun 27, 2023

No todo el mundo puede permitirse un servidor Nvidia DGX AI cargado con los últimos aceleradores de GPU “Hopper” H100 o incluso uno de sus muchos clones disponibles en los OEM y ODM del mundo. E incluso si pueden permitirse esta escalada de procesamiento de IA, eso no significa ni por un segundo que puedan tener en sus manos las GPU H100 o incluso “Ampere” A100 que son parte integrante de este sistema dada la gran demanda de estas computadoras. motores.

Como de costumbre, la gente encuentra sustitutos económicos y técnicos, que es como funciona una economía saludable, aumentando el número de alternativas y reduciendo los costos en todas esas alternativas gracias a la competencia.

Lo mismo ocurre con las configuraciones de SuperNode que el proveedor de tejido componible GigaIO ha creado con la ayuda de los fabricantes de servidores Supermicro y Dell. En lugar de utilizar GPU de Nvidia, los GigaIO SuperNodes se basan en aceleradores de GPU AMD “Arcturus” Instinct MI210 más económicos, que se conectan a ranuras PCI-Express y no tienen los zócalos especiales que requieren las GPU de gama alta de Nvidia, AMD o Intel: SXM4. y zócalos SXM5 para las GPU A100 y H100 de Nvidia y zócalos OAM de AMD e Intel. Y en lugar de utilizar interconexiones NVLink para unir las memorias de las GPU Nvidia A100 y H100 en un sistema de memoria compartida o la interconexión Infinity Fabric de AMD para unir las memorias de las GPU Instinct MI250X de gama alta, la configuración SuperNode utiliza PCI-Express. 4.0 cambia para vincular las memorias de la GPU entre sí y con los nodos del host del servidor.

Esta configuración tiene menos ancho de banda que las interconexiones NVLink o Infinity Fabric, por supuesto, e incluso cuando los conmutadores PCI-Express 5.0 estén disponibles, este seguirá siendo el elenco, algo de lo que nos lamentamos recientemente en nombre de empresas como GigaIO y sus clientes. Seguimos manteniendo que los niveles de versión PCI-Express para puertos de servidor, tarjetas adaptadoras y conmutadores deben estar disponibles al mismo tiempo que el hardware en lugar de tener un tremendo retraso entre los servidores, los adaptadores y los conmutadores. Si la infraestructura componible se va a convertir en algo común, y si las interconexiones PCI-Express son la mejor manera de lograrlo a nivel de pod (es decir, unos pocos racks de máquinas interconectadas), entonces esto nos parece obvio.

Ni GigaIO ni sus clientes tienen tiempo para esperar a que todo esto se haga realidad. Tiene que crear clústeres hoy y brindar los beneficios de la componibilidad a los clientes de hoy, lo cual puede hacer como lo hemos demostrado en el pasado con estudios de casos y a los que se refieren esos enlaces. Lo más importante es que la componibilidad permite aumentar el uso de motores informáticos costosos, como las GPU, a medida que las múltiples cargas de trabajo que se ejecutan en clústeres cambian con el tiempo. Por difícil que sea de creer (y algo que se demostró en el Centro de Supercomputación de San Diego en sus pruebas comparativas), se pueden usar GPU de menor rendimiento o menos, aumentar su utilización y aun así obtener resultados más rápidos con una infraestructura componible que puedes hacerlo con una GPU grande y robusta.

Las configuraciones GigaPod, SuperNode y GigaCluster que está creando GigaIO son una comercialización de esta idea y no se limita a las GPU AMD MI210. Cualquier GPU, FPGA o acelerador discreto que se conecte a una ranura PCI-Express 4.0 o 5.0 se puede colocar en estas configuraciones.

Un GigaPod tiene de uno a tres nodos de cómputo basados ​​en servidores de dos sockets que emplean procesadores “Milan” Epyc 7003 de AMD, pero nuevamente, no hay nada que impida a GigaIO o sus clientes usar otras CPU o servidores que no sean los de Dell o Supermicro. Esta es solo la configuración totalmente AMD que ha sido certificada para venderse como una sola unidad a los clientes.

El GigaPod tiene un conmutador PCI-Express de 24 puertos basado en el conmutador ASIC PCI-Express Switchtec Gen 4.0 de Microchip Technology. (Hemos perfilado los ASIC Microchip Gen 5.0 Switchtec aquí y, con suerte, comenzarán a distribuirse en grandes cantidades pronto). GigaIO utiliza ASIC adaptadores PCI-Express de Broadcom para conectar servidores, gabinetes de almacenamiento y gabinetes de acelerador a esta red troncal de conmutación, que su software FabreX La pila se puede desagregar y componer sobre la marcha. El GigaPod tiene dieciséis aceleradores y las CPU y GPU se aprovisionan mediante Bright Cluster Manager de Bright Computing, que fue comprado por Nvidia en enero de 2022.

La configuración de SuperNode que GigaIO ha estado mostrando durante los últimos meses es un par de GigaPods interconectados y se ve así:

Esto le da una mejor idea de cómo se ve la configuración. En este caso, hay 32 aceleradores AMD Instinct MI210 en cuatro gabinetes GigaIO Accelerator Pool Appliance (APA), que se conectan a un par de conmutadores PCI-Express 4.0 de 24 puertos. Esta configuración también tiene hasta un par de dispositivos de grupo de almacenamiento (SPA) de GigaIO, cada uno de los cuales tiene 32 adaptadores flash NVM-Express intercambiables en caliente que producen 480 TB de capacidad bruta. Cada servidor tiene un enlace de 128 Gb/s en los conmutadores y cada par de aceleradores tiene 64 Gb/s de ancho de banda en los conmutadores. Las matrices de almacenamiento también tienen una tubería de 128 Gb/s cada una. Técnicamente, se trata de un tejido PCI-Express de dos capas.

Si necesita más de 32 GPU (u otros aceleradores) en un clúster componible (uno que permitiría vincular todos los dispositivos a un servidor si así lo desea), GigaIO armará lo que llama un GigaCluster, que Es una estructura de conmutador PCI-Express 4.0 de tres capas que tiene un total de 36 servidores y 96 aceleradores.

La pregunta, por supuesto, es cómo se compara esta estructura PCI-Express en lo que respecta al rendimiento con un clúster InfiniBand que tiene GPU PCI-Express en los nodos y no tiene NVLink y uno que tiene estructuras NVLink dentro de los nodos o en algunos de los nodos y luego InfiniBand en el resto de los nodos (o en todos), según sea el caso.

No vamos a obtener esa comparación directa que queremos. Excepto anecdóticamente.

"No los consideraré estudios exhaustivos, pero hemos encontrado varios casos en los que las personas han interconectado cuatro u ocho servidores GPU a través de InfiniBand o Ethernet", dice Alan Benjamin, cofundador y director ejecutivo de GigaIO. La próxima plataforma. “Y, en general, cuando escalan dentro de esas cuatro GPU o dentro de esas ocho GPU dentro del nodo, la escala es bastante buena, aunque en la mayoría de los casos la escalan a un número del 95 por ciento, no al 99 por ciento. Pero cuando pasan de una caja a varias cajas separadas, hay una gran pérdida y normalmente se reduce a la mitad. Lo que hemos visto es que si una máquina tiene ocho GPU que se ejecutan a un 80 por ciento de la escala máxima, cuando pasan a la novena GPU en una caja separada, cae al 50 por ciento”.

Esta es la razón por la que, por supuesto, Nvidia extendió el conmutador NVLink dentro de los nodos del servidor a un NVLink Switch Fabric que abarca 32 nodos y 256 GPU en una única imagen de memoria para esas GPU, que Nvidia llama DGX H100 SuperPod. Y también es la razón por la que GigaIO está impulsando PCI-Express como una mejor estructura para conectar una gran cantidad de GPU y otros aceleradores en un módulo.

Para dar una idea de qué tan bien funciona esta interconexión de conmutador PCI-Express que ejecuta FabreX, GigaIO probó dos cargas de trabajo en los sistemas basados ​​en AMD: ResNet50 para reconocimiento de imágenes y la herramienta de recuperación de contraseña Hashcat. Al igual que el software EDA, Hashcat envía trabajo a cada GPU individualmente y no tienen que compartir datos para realizar su trabajo y, por lo tanto, el factor de escala es perfectamente lineal:

Para ResNet50, dice Benjamin, las GPU tienen que compartir el trabajo y hacerlo a través de GPUDirect RDMA, y hay aproximadamente una degradación del 1 por ciento por cada GPU agregada a un clúster. Entonces, con 32 GPU, el factor de escala es solo el 70 por ciento de lo que sería una escala perfecta. Esto sigue siendo muchísimo mejor que el 50 por ciento en nodos que se interconectan con InfiniBand o Ethernet.

Por supuesto, InfiniBand y Ethernet pueden escalar mucho más si eso es algo que sus cargas de trabajo necesitan. Pero si necesita 96 GPU o menos en una sola imagen, entonces el enfoque GigaCluster parece un ganador. Y con los conmutadores PCI-Express 5.0, que en teoría podrían tener el doble de puertos a la misma velocidad, se podría escalar a 192 GPU en una imagen, y con una memoria y un espacio de computación que podrían dividirse en cubitos y reducirse según fuera necesario.

Otra cosa interesante. Moritz Lehman, desarrollador de la aplicación de dinámica de fluidos computacional FluidX3D, pasó un rato en el GigaIO SuperNode con 32 GPU MI210 y mostró una prueba en LinkedIn en la que simuló el Concorde durante 1 segundo a una velocidad de aterrizaje de 300 km/h a 40 resolución de mil millones de células. Esta simulación tardó 33 horas en ejecutarse, y en una estación de trabajo de escritorio que utilizaba un software CFD comercial que Moritz no nombró, afirmó que llevaría años ejecutar la misma simulación. Así que, como mínimo, el SuperNodo es una estación de trabajo increíble.

Presentamos aspectos destacados, análisis e historias de la semana directamente desde nosotros a su bandeja de entrada sin nada intermedio. Suscríbase ahora

Enviar Consulta
Enviar