Por qué DeepSeek es más preciso que ChatGPT y está amenazando a la industria de la inteligencia artificial

Por qué DeepSeek es más preciso que ChatGPT y está amenazando a la industria de la inteligencia artificial
Por qué DeepSeek es más preciso que ChatGPT y está amenazando a la industria de la inteligencia artificial

El lanzamiento de DeepSeek provocó entusiasmo entre los investigadores, conmoción entre los inversores y reacciones de los pesos pesados de la inteligencia artificial.


La empresa china de inteligencia artificial (IA) DeepSeek ha conmocionado a la comunidad tecnológica con el lanzamiento de modelos de IA extremadamente eficientes que pueden competir con productos de vanguardia de empresas estadounidenses como OpenAI y Anthropic.

Fundada en 2023, DeepSeek ha logrado sus resultados con una fracción del efectivo y el poder computacional de sus competidores.

El modelo de razonamiento R1 de DeepSeek, publicado la semana pasada, provocó entusiasmo entre los investigadores, conmoción entre los inversores y reacciones de los pesos pesados de la inteligencia artificial. El 28 de enero, la empresa presentó un modelo que puede funcionar tanto con imágenes como con texto.

Entonces, ¿qué ha hecho DeepSeek y cómo lo hizo?

Por qué DeepSeek es más preciso que ChatGPT y está amenazando a la industria de la inteligencia artificial

En diciembre, DeepSeek lanzó su modelo V3 . Se trata de un modelo de lenguaje grande “estándar” muy potente que funciona a un nivel similar al GPT-4o de OpenAI y al Claude 3.5 de Anthropic.

Si bien estos modelos son propensos a errores y a veces inventan sus propios datos, pueden realizar tareas como responder preguntas, escribir ensayos y generar códigos informáticos. En algunas pruebas de resolución de problemas y razonamiento matemático, obtienen mejores resultados que el ser humano promedio.

Según se informa, el costo de entrenamiento de V3 fue de aproximadamente 5,58 millones de dólares, una cifra considerablemente más barata que, por ejemplo, GPT-4, cuyo desarrollo costó más de 100 millones de dólares .

DeepSeek también afirma haber entrenado a V3 utilizando alrededor de 2.000 chips informáticos especializados, en concreto GPU H800 fabricadas por NVIDIA. Se trata de una cifra mucho menor que la de otras empresas, que pueden haber utilizado hasta 16.000 de los chips H100 más potentes.

El 20 de enero, DeepSeek lanzó otro modelo, llamado R1. Se trata de un modelo denominado de “razonamiento”, que intenta resolver problemas complejos paso a paso. Estos modelos parecen ser mejores en muchas tareas que requieren contexto y tienen múltiples partes interrelacionadas, como la comprensión lectora y la planificación estratégica.

Illustration picture of DeepSeek

El modelo R1 es una versión modificada del modelo V3 con una técnica llamada aprendizaje por refuerzo. R1 parece funcionar a un nivel similar al o1 de OpenAI , lanzado el año pasado.

DeepSeek también utilizó la misma técnica para crear versiones “razonables” de pequeños modelos de código abierto que pueden ejecutarse en computadoras domésticas.

Este lanzamiento ha provocado un gran aumento del interés en DeepSeek, lo que ha aumentado la popularidad de su aplicación de chatbot basada en V3 y ha provocado una caída masiva de los precios de las acciones tecnológicas, ya que los inversores están reevaluando la industria de la IA. Al momento de escribir este artículo, el fabricante de chips NVIDIA ha perdido alrededor de 600 mil millones de dólares en valor.

Cómo lo hizo DeepSeek

Los avances de DeepSeek han sido en la consecución de una mayor eficiencia: se han obtenido buenos resultados con menos recursos. En particular, los desarrolladores de DeepSeek han sido pioneros en dos técnicas que pueden ser adoptadas por investigadores de IA de forma más amplia.

La primera tiene que ver con una idea matemática llamada “escasez”. Los modelos de IA tienen muchos parámetros que determinan sus respuestas a las entradas (V3 tiene alrededor de 671 mil millones), pero solo una pequeña fracción de estos parámetros se utiliza para cualquier entrada dada.

Sin embargo, predecir qué parámetros serán necesarios no es fácil. DeepSeek utilizó una nueva técnica para hacerlo y luego entrenó solo esos parámetros. Como resultado, sus modelos necesitaron mucho menos entrenamiento que un enfoque convencional.

El otro truco tiene que ver con la forma en que V3 almacena la información en la memoria del ordenador. DeepSeek ha encontrado una forma inteligente de comprimir los datos relevantes, de modo que sea más fácil almacenarlos y acceder a ellos rápidamente.

Qué significa

Los modelos y técnicas de DeepSeek se han publicado bajo la licencia MIT gratuita, lo que significa que cualquiera puede descargarlos y modificarlos.

Si bien esto puede ser una mala noticia para algunas empresas de IA, cuyas ganancias podrían verse erosionadas por la existencia de modelos poderosos y de libre acceso, es una gran noticia para la comunidad de investigación de IA en general.

¿Cuánta energía gasta una sola sesión de ChatGPT? Esto, según un científico japonés

En la actualidad, gran parte de la investigación en IA requiere acceso a enormes cantidades de recursos informáticos. Los investigadores como yo, que trabajamos en universidades (o en cualquier otro lugar, excepto en grandes empresas tecnológicas), hemos tenido una capacidad limitada para realizar pruebas y experimentos.

La situación cambia gracias a modelos y técnicas más eficientes. Ahora la experimentación y el desarrollo pueden resultarnos mucho más fáciles.

Para los consumidores, el acceso a la IA también puede resultar más barato, ya que es posible que se ejecuten más modelos de IA en los propios dispositivos de los usuarios, como computadores portátiles o teléfonos, en lugar de ejecutarlos “en la nube” a cambio de una tarifa de suscripción.

Para los investigadores que ya cuentan con muchos recursos, una mayor eficiencia puede tener un efecto menor. No está claro si el enfoque de DeepSeek ayudará a crear modelos con un mejor rendimiento en general o simplemente modelos que sean más eficientes.

*Liu Tongliang, profesor asociado de aprendizaje automático y director del Centro de IA de Sídney, Universidad de Sídney

Comenta

Los comentarios en esta sección son exclusivos para suscriptores. Suscríbete aquí.