Para los gigantes de la IA, a veces lo pequeño es mejor
Las empresas están centrando su atención en modelos menos potentes, con la esperanza de que unos costos más bajos y un rendimiento más sólido les hagan ganar más clientes.
La carrera armamentística de la inteligencia artificial (IA) comenzó a lo grande: modelos gigantes entrenados con montañas de datos, intentando imitar la inteligencia humana.
Ahora, los gigantes tecnológicos y las nuevas empresas piensan en pequeño y reducen el software de IA para hacerlo más barato, rápido y especializado.
Esta categoría de software de IA, denominada modelos de lenguaje pequeños o medianos, se entrena con menos datos y suele estar diseñada para tareas específicas.
El desarrollo de los modelos más grandes, como el GPT-4 de OpenAI, cuesta más de US$ 100 millones y utiliza más de un billón de parámetros, una medida de su tamaño. Los modelos más pequeños suelen entrenarse con conjuntos de datos más limitados -por ejemplo, sobre asuntos jurídicos- y su entrenamiento puede costar menos de US$ 10 millones, con menos de 10.000 millones de parámetros. Los modelos más pequeños también utilizan menos potencia de cálculo, y por tanto cuestan menos, para responder a cada consulta.
Microsoft ha jugado con su familia de pequeños modelos llamados Phi, que el consejero delegado Satya Nadella dijo que son 1/100 del tamaño del modelo libre detrás de ChatGPT de OpenAI y realizan muchas tareas casi tan bien.
“Cada vez creemos más que va a ser un mundo de modelos diferentes”, afirmó Yusuf Mehdi, director comercial de Microsoft.
Microsoft fue una de las primeras grandes empresas tecnológicas en apostar miles de millones de dólares por la IA generativa, y la empresa no tardó en darse cuenta de que su funcionamiento resultaba más caro de lo que había previsto en un principio, explicó Mehdi.
La compañía también ha lanzado recientemente computadores con IA que utilizan docenas de modelos de IA para realizar búsquedas y generar imágenes. Los modelos requieren tan pocos datos que pueden ejecutarse en un dispositivo y no requieren acceso a superordenadores masivos basados en la nube, como ChatGPT.
Google -así como las startups de IA Mistral, Anthropic y Cohere- también han lanzado modelos más pequeños este año. Apple desveló su propia hoja de ruta de la IA en junio, con planes de utilizar modelos pequeños para poder ejecutar el software íntegramente en los teléfonos y hacerlo más rápido y seguro.
Incluso OpenAI, que ha estado a la vanguardia del movimiento de los modelos de gran tamaño, ha lanzado recientemente una versión de su modelo insignia que, según asegura, es más barato de manejar. Una representante señaló que la empresa está dispuesta a lanzar modelos más pequeños en el futuro.
Para muchas tareas, como resumir documentos o generar imágenes, los modelos de gran tamaño pueden resultar excesivos, el equivalente a conducir un tanque para hacer la compra.
“No deberían ser necesarios cuatrillones de operaciones para calcular 2 + 2″, sostuvo Illia Polosukhin, que actualmente trabaja en tecnología blockchain y fue uno de los autores de un artículo fundamental de Google de 2017 que sentó las bases del actual auge de la IA generativa.
Las empresas y los consumidores también han estado buscando formas de hacer más barata la tecnología basada en la IA generativa cuando su rentabilidad aún no está clara.
Como utilizan menos potencia de cálculo, los modelos pequeños pueden responder a preguntas por una sexta parte del costo de los grandes modelos lingüísticos en muchos casos, explicó Yoav Shoham, cofundador de AI21 Labs, una empresa de IA con sede en Tel Aviv. “Si se trata de cientos de miles o millones de respuestas, no resulta rentable” utilizar un modelo grande, dijo Shoham.
La clave está en centrar estos modelos más pequeños en un conjunto de datos como comunicaciones internas, documentos legales o cifras de ventas para realizar tareas específicas como escribir correos electrónicos, un proceso conocido como ajuste fino. Este proceso permite a los modelos pequeños realizar esas tareas con la misma eficacia que un modelo grande y a un costo muy inferior.
“Conseguir que estos modelos más pequeños y especializados funcionen en estas áreas más aburridas pero importantes” es la frontera de la IA en estos momentos, indicó Alex Ratner, cofundador de Snorkel AI, una startup que ayuda a las empresas a personalizar modelos de IA.
La firma de calificación crediticia Experian pasó de los modelos grandes a los pequeños para los chatbots de IA que utiliza para el asesoramiento financiero y la atención al cliente.
Una vez entrenados con los datos internos de la empresa, los modelos más pequeños funcionaron tan bien como los grandes a una fracción del costo, detalló Ali Khan, director de datos de Experian.
Los modelos “se entrenan en un área problemática y un conjunto de tareas bien definidos, en vez de darme una receta de flan”, manifestó.
Los modelos más pequeños también son más rápidos, afirmó Clara Shih, responsable de IA en Salesforce.
“Acabas pagando de más y tienes problemas de latencia” con los modelos grandes, añadió Shih. “Es una exageración”, comentó.
El cambio a modelos más pequeños se produce a medida que se ralentiza el progreso en los modelos grandes publicados públicamente. Desde que OpenAI lanzó el año pasado GPT 4, un avance significativo en capacidades respecto al modelo anterior GPT 3.5, no se han publicado nuevos modelos que den un salto equivalente. Los investigadores lo atribuyen a factores como la escasez de nuevos datos de alta calidad para el entrenamiento.
Esa tendencia ha desviado la atención hacia los modelos más pequeños.
“Hay un pequeño momento de calma en el que todo el mundo está esperando”, planteó Sébastien Bubeck, ejecutivo de Microsoft que dirige el proyecto del modelo Phi. “Es lógico que la atención se desvíe hacia: ‘Vale, ¿se puede hacer esto más eficiente?’”, agregó.
Aún no se sabe si esta pausa es temporal o si se trata de un problema tecnológico más amplio. Pero el momento de los modelos pequeños habla de la evolución de la IA desde las demostraciones de ciencia ficción, a la realidad menos emocionante de convertirla en un negocio.
No obstante, las empresas no renuncian a los modelos grandes. Apple anunció que estaba incorporando ChatGPT a su asistente Siri para realizar tareas más sofisticadas, como redactar correos electrónicos. Microsoft informó que su última versión de Windows integraría el modelo más reciente de OpenAI.
Aun así, ambas empresas hicieron de las integraciones de OpenAI una parte menor de su paquete global de IA. Apple sólo habló de ello durante dos minutos en una presentación de casi dos horas.
Comenta
Los comentarios en esta sección son exclusivos para suscriptores. Suscríbete aquí.