Por qué los científicos quedaron impactados con el último modelo de ChatGPT o1

OpenAI lanzó su nuevo modelo de IA llamado “o1” que sorprendió a los usuarios. Y es que a diferencia de ChatGPT, que entrega respuestas cortas y rápidas, ésta nueva tecnología tiene la capacidad de pensar y razonar, un arma de doble filo para algunos expertos.

Por

3 OCTUBRE 2024

Por qué los científicos quedaron impactados con el último modelo de ChatGPT o1

Twitter Facebook Whatsapp LinkedIn Email

Hace pocas semanas, OpenAI —la empresa detrás de ChatGPT— lanzó su nuevo modelo de Inteligencia Artificial “o1″ que, a diferencia de lo que ya conocíamos, se trata de un chatbot que tiene la capacidad de “pensar” o “razonar” antes de responder.

Esta nueva habilidad de la IA haría más eficientes las tareas más complejas de razonamiento, por lo que sería una herramienta perfecta para el ámbito de la investigación, ciencia y programación.

Es por esto que un grupo de investigadores ayudó a probar este nuevo modelo de lenguaje, más conocido como OpenAI o1, y el resultado los dejó impactados.

Esto, no solo por las increíbles capacidades que tiene para facilitar trabajos y entregar respuestas más complejas y precisas, sino que también representa un riesgo, en especial para “novatos” que no pueden discernir entre una alucinación de la IA y una respuesta real.

Qué es OpenAI o1

OpenAI o1 es el nuevo modelo de Inteligencia Artificial de la empresa OpenAI que tiene capacidades mucho más avanzadas que otras versiones como GPT-3.5 o GPT-4.

La diferencia con otros chatbots es el sistema: los más antiguos tratan de responder lo antes posible con la información que tienen a mano, no obstante OpenAI o1 se toma un tiempo para “pensar” la respuesta y entregar algo más complejo y sólido.

Según explicaron desde la empresa, esta IA funciona mediante una “lógica de cadena de pensamiento”. Primero, se explica a sí misma una serie de pasos de razonamiento mientras intenta resolver el problema y se corrige a sí misma en el mismo proceso.

Por qué los científicos quedaron impactados con OpenAI o1

“En mi campo de la física cuántica, OpenAI o1 da respuestas significativamente más detalladas y coherentes”, aseguró Mario Krenn, líder del Laboratorio de Científicos Artificiales del Instituto Max Planck, en Alemania, a la revista Nature.

Krenn fue uno de los pocos científicos que probó por primera vez la versión de prueba de o1.

Así como él, otros investigadores pudieron poner a prueba esta IA que promete pasar más tiempo pensando en sus respuestas. Claramente, el tiempo que tarda en generarlas es mayor a una pregunta casual a ChatGPT, no obstante, esta investigación que hace podría ayudar a distintas personas que requieren soluciones más precisas.

Según Andrew White, químico de Future House, una organización que aplica IA en biología molecular, junto a su equipo habían quedado un poco decepcionados con las anteriores versiones de ChatGPT, pues éstas no facilitaban su trabajo en área científica por una “falta de capacidad”.

Sin embargo, ahora que probaron la serie o1, “todo cambió”.

Según una prueba (Graduate-Level Google-Proof Q&A Benchmark) que evalúa a los académicos de nivel de doctorado, OpenAI o1 logró superar a los mejores humanos, incluso en las preguntas más difíciles.

OpenAI aseguró que sus propios académicos obtuvieron una puntuación de poco menos del 70% en este examen, no obstante, la IA o1 logró sacar un 78% en general, con una puntuación particularmente alta del 93% en física.

“Me parece plausible que esto represente una mejora significativa y fundamental en las capacidades de razonamiento centrales del modelo”, aseguró David Rein, quien fue parte del equipo que desarrolló esta prueba.

“Esto es significativamente más alto que el siguiente mejor rendimiento informado de cualquier chatbot”.

También se puso a prueba o1 con un exámen para clasificar a la Olimpiada Internacional de Matemáticas. ChatGPT-4 resolvió correctamente el 13% de los problemas, mientras que o1 logró responder correctamente el 83% de la prueba.

Por otra parte, Krenn incorporó o1 a una herramienta que desarrolló para sugerir vías “interesantes” para futuras investigaciones y aseguró que la nueva tecnología “genera ideas mucho más interesantes que GPT-4 o GTP-4o”.

Kyle Kabasares, un científico de datos del Instituto de Investigación Ambiental del Área de la Bahía en Moffett Field, California, también implementó o1 para replicar el código de su proyecto de doctorado que calculaba la masa de los agujeros negros y se llevó una grande sorpresa.

Y es que o1 tardó una hora en lograr lo que él hizo en muchos meses.

Además, o1 estaría implementándose también en otras tareas, como en los hospitales: Catherine Brownstein, genetista del Boston Children’s Hospital de Massachusetts aseguró que están utilizando esta herramienta para conectar pacientes con ciertos genes para descubrir a tiempo enfermedades raras.

La doctora dijo que “o1 es más preciso y ofrece opciones que no creía posibles en un chatbot”.

Por qué las capacidades de OpenAI o1 causan temor en algunos científicos

La misma empresa ha informado que los modelos o1 han comenzado a alucinar (inventar respuestas que son incorrectas) con más frecuencia que sus predecesores, como GPT-4.

Además, los científicos que pusieron a prueba esta nueva IA resaltaron “la información de seguridad faltante relacionada con pasos dañinos, como no destacar peligros explosivos o sugerir métodos inapropiados de contención química”.

Esto, según escribieron, indicaría que “el modelo no es adecuado para tareas de seguridad física de alto riesgo”.

El químico White agregó que o1 “aún no es lo suficientemente perfecto ni fiable como para que no quieras comprobarlo de cerca”.

También explicó que su uso podría ser más seguro para expertos que para novatos.

“Para un novato, está más allá de su capacidad de inspección inmediata”.

Es decir, alguien que no tenga los conocimientos suficientes sobre una acción que puede tener riesgos, podría estar expuesta a peligros que, usualmente, los especialistas pueden detectar de inmediato y evitar.

Hasta ahora, la prueba de o1 está disponible para clientes de pago y algunos desarrolladores. También está o1-mini, que es una versión más pequeña y rentable.