Silicon Valley delira con un modelo de inteligencia artificial fabricado en China
DeepSeek es calificado de "asombroso e impresionante", a pesar de trabajar con chips menos avanzados
SINGAPUR- Una empresa china de inteligencia artificial ha maravillado a Silicon Valley al ver cómo sus programadores casi igualan a sus rivales estadounidenses a pesar de utilizar chips inferiores.
Los modelos de inteligencia artificial de la empresa china DeepSeek se han situado entre los 10 mejores del mundo en rendimiento, según una popular clasificación, lo que sugiere que las restricciones a la exportación impuestas por Washington están teniendo dificultades para bloquear los rápidos avances de China.
El 20 de enero, DeepSeek presentó el R1, un modelo especializado diseñado para resolver problemas complejos.
“Deepseek R1 es uno de los avances más sorprendentes e impresionantes que he visto nunca”, comentó Marc Andreessen, el capitalista de riesgo de Silicon Valley que ha estado asesorando al presidente Trump, en un post en X el viernes.
Los avances de DeepSeek provocaron una venta masiva de acciones de chips a primera hora del lunes, ante la preocupación de que el enorme gasto de los gigantes tecnológicos estadounidenses en semiconductores de vanguardia y otras infraestructuras de IA estuviera justificado. Los futuros del índice tecnológico Nasdaq-100 bajaron un 4%, y Nvidia cayó más de un 10% antes de la apertura del mercado.
El desarrollo de DeepSeek fue dirigido por Liang Wenfeng, gestor chino de fondos de cobertura, que se ha convertido en el rostro del impulso de la IA en el país. El 20 de enero, Liang se reunió con el primer ministro chino y habló de cómo las empresas chinas podrían reducir la distancia con Estados Unidos.
Los especialistas afirman que la tecnología de DeepSeek sigue estando por detrás de la de OpenAI y Google. Pero es un rival cercano a pesar de utilizar menos chips y menos avanzados, y en algunos casos saltarse pasos que los desarrolladores estadounidenses consideraban esenciales.
DeepSeek declaró que el entrenamiento de uno de sus últimos modelos costó US$ 5,6 millones, frente al rango de entre US$ 100 millones y US$ 1.000 millones citada el año pasado por Dario Amodei, director ejecutivo de la empresa de desarrollo de IA Anthropic, como costo de construcción de un modelo.
Barrett Woodside, cofundador de la empresa de hardware de IA Positron, de San Francisco, afirma que él y sus colegas están entusiasmados con DeepSeek. “Es muy genial”, asegura Woodside, refiriéndose a los modelos de código abierto de DeepSeek, en los que el código del software en el que se basa el modelo de IA es gratuito.
Los usuarios del último modelo insignia de DeepSeek, llamado V3 y lanzado en diciembre, han observado que se niega a responder a preguntas políticas delicadas sobre China y el líder Xi Jinping. En algunos casos, el producto da respuestas en línea con la propaganda oficial de Beijing en lugar de incluir la perspectiva de los críticos con el gobierno, como hace ChatGPT.
“La única crítica que se le puede hacer es una censura a medias de la República Popular China”, afirma Woodside, refiriéndose a la República Popular China, pero asegura que esto podría eliminarse porque otros desarrolladores pueden modificar libremente el código.
Según DeepSeek, tanto el R1 como el V3 obtuvieron mejores resultados que los principales modelos occidentales o se acercaron a ellos. El sábado, los dos modelos estaban entre los 10 primeros en Chatbot Arena, una plataforma de investigadores de la Universidad de California en Berkeley que evalúa el rendimiento de los chatbot. El modelo Gemini de Google ocupaba el primer puesto, mientras que DeepSeek superaba a Claude, de Anthropic, y a Grok, de xAI, de Elon Musk.
DeepSeek surgió de la unidad de investigación de IA de High-Flyer, un gestor de fondos de cobertura con US$ 8.000 millones en activos, conocido por aprovechar la IA para operar.
“Cuando los humanos toman decisiones de inversión, es un arte, y lo hacen por puro capricho. Cuando los programas informáticos toman esas decisiones, es una ciencia, y tiene la solución óptima”, comentó Liang en un discurso pronunciado en 2019.
Nacido en 1985, Liang creció en la provincia de Guangdong, en el sureste de China. Estudió en la prestigiosa Universidad china de Zhejiang y se especializó en visión artificial. Pocos años después de graduarse, Liang fundó High-Flyer con dos amigos de la universidad en 2015.
Liang prefiere que piensen en él como un ingeniero más que como un comerciante, según personas cercanas. Su High-Flyer fue pionera en China en aplicar el aprendizaje profundo al trading informatizado. Esta técnica, inspirada en el cerebro humano, permite a los computadores analizar tipos de datos más diversos.
Aunque el modelo insignia de DeepSeek es gratuito, la empresa cobra a los usuarios que conectan sus propias aplicaciones al modelo y la infraestructura informática de DeepSeek. Un ejemplo es una empresa que quiera aprovechar la tecnología para dar respuestas de IA a las consultas de sus clientes.
A principios del año pasado, DeepSeek redujo sus precios por este servicio a una fracción de lo que cobraban otros proveedores, lo que provocó una batalla de precios en el sector en China.
Anthony Poo, cofundador de una startup con sede en Silicon Valley que utiliza IA generativa para predecir rentabilidades financieras, comentó que su empresa se pasó a DeepSeek desde el modelo Claude de Anthropic en septiembre. Las pruebas demostraron que DeepSeek ofrecía un rendimiento similar por una cuarta parte del costo.
“El modelo de OpenAI es el mejor en rendimiento, pero tampoco queremos pagar por capacidades que no necesitamos”, afirma Poo.
En su reunión del 20 de enero, Liang de DeepSeek le dijo al primer ministro chino Li Qiang que, si bien las empresas chinas estaban trabajando para ponerse al día, las restricciones estadounidenses a la exportación de chips avanzados a China seguían siendo un estancamiento, según personas relacionadas con la reunión.
En 2019, High-Flyer comenzó a construir un clúster de chips para la investigación de IA, en parte con fondos generados por su negocio financiero. La compañía ha dicho que más tarde construyó un clúster más grande de alrededor de 10.000 unidades de procesamiento de gráficos Nvidia que se pueden utilizar para entrenar grandes modelos de lenguaje.
A finales de 2022, cuando OpenAI lanzó ChatGPT, solo un puñado de empresas chinas contaban con infraestructuras informáticas lo bastante potentes como para desarrollar este tipo de modelos.
DeepSeek comentó en un informe técnico que utilizó un clúster de más de 2.000 chips Nvidia para entrenar su modelo V3, en comparación con decenas de miles de chips para entrenar modelos de tamaño similar. Algunos especialistas estadounidenses en IA han cuestionado recientemente si High-Flyer y DeepSeek están accediendo a una potencia de cálculo superior a la que han anunciado.
Algunos investigadores externos afirmaron que el modelo de DeepSeek carece de ciertas capacidades de sus rivales, más costosamente entrenados, como, por ejemplo, seguir el contexto de conversaciones largas.
Para su último modelo de razonamiento, publicado el 20 de enero, DeepSeek omitió un proceso conocido como ajuste supervisado, en el que los programadores introducen los conocimientos de expertos humanos para dar ventaja al modelo. DeepSeek afirmó que su modelo, diseñado para resolver complicados problemas matemáticos y retos similares, era comparable al modelo de razonamiento o1 de OpenAI a pesar de omitir el ajuste supervisado y centrarse en el aprendizaje por refuerzo, es decir, en el ensayo y error dirigidos.
Jim Fan, investigador científico sénior de Nvidia, calificó de gran avance el artículo de DeepSeek en el que se informaba de los resultados. Dijo en X que le recordaba a anteriores programas pioneros de IA que dominaban juegos de mesa como el ajedrez “desde cero, sin imitar primero a los grandes maestros humanos”.
Zack Kass, antiguo ejecutivo de OpenAI, comentó que los avances de DeepSeek a pesar de las restricciones estadounidenses “subrayan una lección más amplia: Las limitaciones de recursos a menudo alimentan la creatividad”.
-Traducido del inglés por Pulso.
Comenta
Los comentarios en esta sección son exclusivos para suscriptores. Suscríbete aquí.