Cómo se compara la IA de DeepSeek al modelo de OpenAI
AIR1, el modelo de IA de la startup china, se enfrenta a las capacidades de OpenAI. Pero también son muy diferentes.
Es imposible analizar el nuevo modelo de inteligencia artificial de la empresa china DeepSeek sin compararlo con OpenAI, su principal rival estadounidense.
DeepSeek ha anunciado que su último modelo de IA, R1, es especialmente bueno en la resolución de problemas, con un rendimiento similar al modelo de razonamiento o1 de OpenAI, pero a una fracción del coste por uso. Una aplicación de DeepSeek encabeza actualmente la clasificación de descargas de iPhone en Estados Unidos.
Pero al igual que DeepSeek y OpenAI son empresas muy diferentes, R1 y o1 son también tecnologías diferentes. He aquí cinco similitudes y diferencias entre ambas tecnologías.
News Corp, propietaria del Wall Street Journal, tiene un acuerdo de licencia de contenidos con OpenAI.
Cómo funciona DeepSeek
DeepSeek redujo el procesamiento de datos necesario para entrenar modelos, utilizando sus propias invenciones, así como técnicas adoptadas por empresas chinas de IA con limitaciones similares, según informó anteriormente The Wall Street Journal.
Además de reducir el procesamiento de datos -lo que supone un enorme ahorro de tiempo y costes informáticos- DeepSeek utiliza una técnica llamada “mezcla de expertos”. DeepSeek y algunos otros desarrolladores de IA hacen algo parecido a delegar preguntas en expertos en campos específicos. Cada experto necesita menos formación, lo que alivia la demanda de chips para hacerlo todo a la vez.
“Las técnicas que han implementado no son nuevas, pero aplicarlas a la escala que lo han hecho, con la convicción que tenían, es novedoso”, afirma Luke Arrigoni, director general de Loti AI, una plataforma de privacidad en Internet basada en IA.
El planteamiento de la empresa china requiere menos tiempo y energía antes de plantear una pregunta al modelo de IA, pero utiliza más tiempo y energía para responder. Según Lin Qiao, director general y cofundador de la empresa Fireworks AI, el modelo muestra cómo ha llegado a la respuesta mediante un razonamiento de “cadena de pensamiento”, una técnica en la que la tecnología mejora en una tarea compleja paso a paso.
El modelo o1 de OpenAI utiliza el razonamiento en cadena, pero no muestra a los usuarios lo que ocurre entre bastidores, explica Qiao. Yendo un paso más allá, el razonamiento que produce el modelo de DeepSeek puede utilizarse para entrenar un modelo de IA más pequeño, añadió.
Tanto o1 como R1 de DeepSeek son capaces de realizar lo que se consideran tareas de “razonamiento”, como redactar un plan de negocios o crear un crucigrama.
Rendimiento
Los investigadores de DeepSeek afirman que probaron R1 contra algunos de los mejores modelos de IA de OpenAI y descubrieron que era muy competitivo. Las evaluaciones incluyeron una desarrollada por OpenAI en la que se realizaban tareas de programación informática que un modelo de IA debe completar por sí solo, como parchear un error de software.
R1 rindió a la par que o1 de OpenAI y superó a un modelo anterior llamado o1-mini.
Qiao afirma que los miembros de la comunidad de código abierto ya han creado una versión mucho más pequeña de R1, que puede utilizarse en teléfonos móviles y tabletas.
Algunos usuarios han afirmado que las capacidades de escritura y resolución de problemas de R1 son impresionantes, pero señalan que el modelo obtuvo peores resultados que rivales como o1 de OpenAI en tipos específicos de resolución de problemas.
El director ejecutivo de OpenAI, Sam Altman, calificó el lunes a R1 de “modelo impresionante, sobre todo por lo que es capaz de ofrecer por su precio”, en un post en X. También dijo que era estimulante tener un nuevo competidor y que su empresa adelantaría el lanzamiento de algunos de sus productos.
Costo
DeepSeek afirma haber logrado resultados similares a los de OpenAI a un coste inferior y sin chips de alto rendimiento. Según algunas estimaciones, DeepSeek sólo necesitó chips por valor de unos US$ 5 millones para entrenar uno de sus primeros modelos, pero eso no tiene en cuenta el coste de la investigación y la experimentación para su desarrollo, sostuvo Stacy Rasgon, analista de Bernstein Research, en una nota de investigación.
No está claro cuánta potencia de cálculo utilizó DeepSeek para el modelo R1 más avanzado.
En cambio, OpenAI ha declarado que el entrenamiento de su modelo GPT-4 costó más de US$ 100 millones, y se espera que los futuros modelos de IA superen los US$ 1.000 millones.
Para el próximo modelo de OpenAI, llamado GPT-5, un entrenamiento de seis meses puede costar alrededor de US$ 500 millones sólo en costos informáticos, según estimaciones públicas y privadas.
Privacidad y seguridad
Los usuarios del último modelo insignia de DeepSeek, llamado V3, han observado que se niega a responder a preguntas políticas delicadas sobre China y su líder Xi Jinping. En algunos casos, el producto responde en línea con la propaganda de Beijing en lugar de incluir la perspectiva de los críticos con el gobierno, como hace ChatGPT.
Aun así, R1 se puede descargar y utilizar libremente, por lo que algunos usuarios se sienten más cómodos utilizándolo en sus propios servidores o en los alojados por empresas estadounidenses. La empresa de IA Liner está dispuesta a utilizar R1 de DeepSeek, según su director ejecutivo, Luke Kim, porque es de código abierto y resulta fácil cambiar los modelos de IA.
En comparación, OpenAI ha afirmado que cuenta con un “nuevo enfoque de formación en seguridad” que obliga a su modelo o1 a cumplir las directrices de la empresa. OpenAI afirma que su objetivo es evitar el “jailbreaking” de los modelos de IA, y ha firmado acuerdos formales con los institutos de seguridad de IA de EE.UU. y el Reino Unido. El “jailbreaking” de los modelos de IA implica manipularlos o intentar eludir sus controles de seguridad.
Código abierto frente a propietario
DeepSeek ha publicado los “pesos” o parámetros numéricos de su modelo R1 para que el público pueda utilizarlos, descargarlos y modificarlos libremente. Pero no ha divulgado los datos de entrenamiento que lo sustentan, lo que ha llevado a algunos a decir que el modelo no es totalmente de “código abierto”.
La empresa china ha publicado un informe en el que detalla cómo ha entrenado su modelo y que, según los expertos en IA, ayuda a los desarrolladores a descifrar cómo DeepSeek ha logrado su innovación.
La publicación de los pesos de los modelos también significa que los desarrolladores pueden descargarlos para utilizarlos. Hugging Face, que gestiona una plataforma de código abierto para compartir modelos, declaró que los modelos R1 creados por su comunidad se habían descargado 3,2 millones de veces.
A diferencia de DeepSeek, el modelo o1 de OpenAI es propietario, lo que significa que los consumidores y las empresas pagan a la empresa por utilizar su modelo y sus servicios. Mientras que algunas empresas prefieren utilizar tecnologías patentadas -porque son examinadas por sus creadores e incorporan controles de ciberseguridad-, otras prefieren las de código abierto porque son más fáciles de personalizar y controlar.
-Traducido del inglés por Pulso.
Comenta
Los comentarios en esta sección son exclusivos para suscriptores. Suscríbete aquí.