El futuro de la IA y la fortuna de Nvidia se juegan en la carrera por agrupar más chips en un solo lugar
xAI, de Musk, y Meta son algunas de las empresas que están creando grupos de chips avanzados.
Los titanes tecnológicos tienen una nueva forma de medir quién va ganando en la carrera por la supremacía de la inteligencia artificial (IA): quién puede poner más chips Nvidia en un mismo sitio.
Las empresas que gestionan grandes centros de datos llevan dos años compitiendo por hacerse con los procesadores de inteligencia artificial que son la especialidad de Nvidia. Ahora, algunas de las empresas más ambiciosas están intensificando sus esfuerzos construyendo los llamados superclústeres de servidores informáticos, que cuestan miles de millones de dólares y contienen un número sin precedentes de los chips más avanzados de Nvidia.
xAI, de Elon Musk, construyó en Memphis en cuestión de meses un superordenador al que denomina Colossus, con 100.000 chips de IA Hopper de Nvidia. El director ejecutivo de Meta, Mark Zuckerberg, dijo en octubre que su empresa ya estaba entrenando sus modelos de IA más avanzados con un conglomerado de chips que calificó de “más grande que todo lo que he visto que otros están haciendo”.
Hace un año, los clústeres de decenas de miles de chips se consideraban muy grandes. OpenAI utilizó unos 10.000 chips de Nvidia para entrenar la versión de ChatGPT que lanzó a finales de 2022, según estiman los analistas de UBS.
Ese impulso hacia superclústeres más grandes podría ayudar a Nvidia a mantener una trayectoria de crecimiento que la ha visto pasar de unos US$ 7.000 millones de ingresos trimestrales hace dos años, a más de US$ 35.000 millones en la actualidad. Este salto la ha convertido en la empresa cotizada más valiosa del mundo, con una capitalización bursátil de más de US$ 3,5 billones.
La instalación de muchos chips en un mismo lugar, conectados entre sí por cables de red ultrarrápidos, ha producido hasta ahora modelos de IA más grandes a mayor velocidad. Pero hay dudas sobre si los superclústeres cada vez más grandes seguirán traduciéndose en chatbots más inteligentes y herramientas de generación de imágenes más convincentes.
La continuación del auge de la IA para Nvidia también depende, en gran medida, de cómo resulten los mayores clústeres de chips. La tendencia no sólo promete una oleada de compras de sus chips, sino que también fomenta la demanda de los equipos de red de Nvidia, que se están convirtiendo rápidamente en un negocio importante y aportan miles de millones de dólares de ventas cada año.
El director ejecutivo de Nvidia, Jensen Huang, dijo en una llamada con analistas tras sus resultados del miércoles antepasado que aún había mucho margen para que los llamados modelos básicos de IA mejoren con configuraciones informáticas a mayor escala. Huang pronosticó una inversión continua en la transición de la empresa a sus chips de IA de próxima generación, denominados Blackwell, que son varias veces más potentes que sus chips actuales.
Huang señaló que, si bien los clústeres más grandes para el entrenamiento de modelos gigantes de IA alcanzan ahora los 100.000 chips actuales de Nvidia, “la próxima generación comienza con unos 100.000 Blackwell. Y eso da una idea de hacia dónde se mueve la industria”.
Hay mucho en juego para empresas como xAI y Meta, que compiten entre sí por el derecho a presumir de potencia de cálculo, pero también apuestan porque un mayor número de chips de Nvidia, denominados GPU, se traduzca en modelos de IA proporcionalmente mejores.
“No hay pruebas de que esto vaya a escalar hasta un millón de chips y un sistema de US$ 100.000 millones, pero sí se ha observado que han escalado muy bien desde docenas de chips hasta 100.000″, afirmó Dylan Patel, analista jefe de SemiAnalysis, una empresa de investigación.
Además de xAI y Meta, OpenAI y Microsoft han estado trabajando en la construcción de nuevas e importantes instalaciones informáticas para la IA. Google está construyendo enormes centros de datos para albergar chips que impulsen su estrategia de IA.
El mes pasado, Huang se maravilló en un podcast de la velocidad a la que Musk había construido su clúster Colossus y afirmó que estaban en camino otros más grandes. Señaló los esfuerzos para entrenar modelos distribuidos en múltiples centros de datos.
“¿Creemos que necesitamos millones de GPU? Sin duda”, sostuvo Huang. “Ya es una certeza. La cuestión es cómo diseñarlo desde el punto de vista de los centros de datos”, agregó.
Los superclústeres sin precedentes ya están en el aire. Musk publicó en octubre en su plataforma de redes sociales X que su superclúster Colossus de 100.000 chips, “pronto se convertirá” en un clúster de 200.000 chips en un solo edificio. También publicó en junio que el siguiente paso sería probablemente un clúster de 300.000 chips de los últimos chips de Nvidia el próximo verano.
El auge de los superclústeres se produce mientras sus operadores se preparan para los chips Blackwell, que empezarán a comercializarse en los próximos meses. Se calcula que cuestan unos US$ 30.000 cada uno, lo que significa que un clúster de 100.000 costaría US$ 3.000 millones, sin contar el precio de la infraestructura de generación de energía y el equipo informático que rodea a los chips.
Según los expertos del sector, estas cifras hacen que construir superclústeres con cada vez más chips sea una apuesta arriesgada, ya que no está claro que vayan a mejorar los modelos de IA hasta un punto que justifique su costo.
Los clústeres de mayor tamaño también suelen plantear nuevos retos de ingeniería. Los investigadores de Meta señalan en un artículo publicado en julio, que un clúster de más de 16.000 GPU de Nvidia sufrió fallos inesperados de chips y otros componentes de forma rutinaria mientras la compañía entrenaba una versión avanzada de su modelo Llama durante 54 días.
Mantener fríos los chips de Nvidia es un gran reto a medida que los clústeres de chips hambrientos de energía se empaquetan más estrechamente, dicen los ejecutivos de la industria, parte de la razón por la que hay un cambio hacia la refrigeración líquida donde el refrigerante se canaliza directamente a los chips para evitar que se sobrecalienten.
Además, el tamaño de los superclústeres exige un mayor nivel de gestión de los chips cuando fallan. Mark Adams, director ejecutivo de Penguin Solutions, una empresa que ayuda a crear y gestionar infraestructuras informáticas, aseguró que la elevada complejidad de gestionar grandes clústeres de chips plantea inevitablemente problemas.
“Si tenemos en cuenta todo lo que puede fallar, podríamos estar utilizando la mitad de lo que invertimos debido a todos estos elementos que pueden averiarse”, comentó.
-Traducido del inglés por Pulso.
Comenta
Los comentarios en esta sección son exclusivos para suscriptores. Suscríbete aquí.