Meta, MIT y otros prueban un brazo robótico en una infraestructura óptica de IA

Noticias

HogarHogar / Noticias / Meta, MIT y otros prueban un brazo robótico en una infraestructura óptica de IA

Jun 05, 2023

Meta, MIT y otros prueban un brazo robótico en una infraestructura óptica de IA

Por Agam Shah 19 de abril de 2023 Investigadores de Meta, MIT y otras instituciones conectaron servidores con una docena de GPU Nvidia con interruptores ópticos y un brazo robótico, ideando una nueva interconexión que podría

Por Agam Shah

19 de abril de 2023

Investigadores de Meta, MIT y otras instituciones conectaron servidores con una docena de GPU Nvidia con interruptores ópticos y un brazo robótico, ideando una nueva interconexión que podría usarse para el aprendizaje automático. La estructura, llamada "TopoOpt", puede crear topologías de red sobre la marcha dependiendo de las necesidades informáticas. La tecnología surge en un momento en que las computadoras de alto rendimiento se ven sometidas a la presión de una adopción más amplia de tecnologías de inteligencia artificial como ChatGPT, que está poniendo a prueba los límites de la supercomputación de inteligencia artificial de Microsoft.

Se presentó un artículo sobre esta tecnología en el Simposio USENIX sobre diseño e implementación de sistemas en red que se celebró esta semana.

TopoOpt utiliza algoritmos para encontrar las técnicas de computación paralela más rápidas basadas en información como los requisitos de procesamiento, los recursos informáticos disponibles, las técnicas de enrutamiento de datos y la topología de la red. Los investigadores también mejoraron la función AllReduce de Nvidia, que minimiza el tiempo de comunicación entre las GPU y otros componentes.

"TopoOpt crea particiones dedicadas para cada trabajo de capacitación utilizando interruptores ópticos reconfigurables y paneles de conexión, y optimiza conjuntamente la topología y la estrategia de paralelización dentro de cada partición", escribieron los investigadores.

Los investigadores probaron TopoOpt dentro de la infraestructura Meta, utilizando una docena de servidores Asus ESC4000A-E10, cada uno equipado con una GPU A100, NIC HPE y una NIC Mellanox ConnectX5 de 100 Gbps. Las NIC tenían transceptores ópticos con fibras de ruptura.

"TopoOpt es el primer sistema que cooptimiza la topología y la estrategia de paralelización para cargas de trabajo de ML y actualmente se está evaluando su implementación en Meta", dijeron los investigadores.

La configuración también utiliza un panel de conexiones de Telescent que reconfigura una red usando "un brazo robótico que toma una fibra en el lado de transmisión y la conecta a una fibra en el lado de recepción", según el periódico. El brazo robótico, controlado por software, se mueve hacia arriba y hacia abajo para conectar la fibra de transmisión con una fibra receptora en cualquier parte del sistema. Esto proporciona la flexibilidad y elasticidad necesarias para reconfigurar rápidamente una red. Los paneles de conexión ya se utilizan ampliamente en aplicaciones comerciales, pero ahora se proponen su uso en centros de datos.

Google presentó recientemente un documento que detalla cómo utilizó una supercomputadora de inteligencia artificial con interruptores de circuitos ópticos para mejorar las velocidades de entrenamiento en sus chips TPU v4 manteniendo bajo el consumo de energía. La conmutación de circuito óptico (OCS) en la configuración de Google no es tan móvil como un brazo robótico, pero utiliza espejos para cambiar entre fibras de entrada y salida. La configuración de Google también fue un banco de pruebas más grande, con una implementación a escala en 4096 TPU.

Los investigadores optaron por el panel de conexiones porque descubrieron que los conmutadores ópticos estilo Google eran "cinco veces más caros" y que también admitían menos puertos. Al mismo tiempo, los investigadores dijeron que la tecnología OCS, como la utilizada en Google, está destinada a implementaciones a escala. "La principal ventaja de los OCS es que su latencia de reconfiguración es cuatro órdenes de magnitud más rápida que la de los paneles de conexión", escribieron los investigadores.

TopoOpt aprovisiona previamente los requisitos informáticos y de red, y está listo para funcionar una vez que los servidores están listos y la tarea está lista para implementarse. "Ya conocemos la secuencia de llegada de trabajos y la cantidad de servidores requeridos por cada trabajo", escribieron los investigadores, y agregaron que "este diseño permite que cada servidor participe en dos topologías independientes".

Los investigadores concluyeron que TopoOpt proporcionó un tiempo de iteración de entrenamiento 3,4 veces más rápido que otra técnica llamada "fat-tree", en la que la columna vertebral de la red es la pieza central de la infraestructura, que luego envía datos a múltiples capas de conmutadores estáticos que conectan el back-end de la red central. hardware a servidores front-end. Esa técnica se utiliza ampliamente en la actualidad.

El uso de redes ópticas en un centro de datos es un concepto nuevo, y los investigadores están introduciendo el brazo robótico y un nuevo protocolo de comunicación como una forma más económica de construir una infraestructura de redes de IA. Meta está probando la viabilidad de la tecnología.