Cómo es Gemini, la nueva Inteligencia Artificial de Google que promete revolucionar la tecnología

Desde la firma aseguran que tiene un enfoque multimodal, por lo que puede comprender y operar tanto con texto, como con códigos, audio, imágenes y video.

Por

7 DICIEMBRE 2023

Cómo es Gemini, la nueva Inteligencia Artificial de Google que promete revolucionar la tecnología. Foto: referencial.

Twitter Facebook Whatsapp LinkedIn Email

A mediados de esta semana, Google presentó una de sus propuestas más prometedoras en torno al desarrollo de la inteligencia artificial (IA).

Se trata de Gemini, una nueva herramienta tecnológica que según el CEO de la compañía, Sundar Pichai, consiste en “nuestro modelo más capaz y general hasta la fecha, con un rendimiento de vanguardia en muchos puntos de referencia”.

“Nuestra primera versión, Gemini 1.0, está optimizada para diferentes tamaños: Ultra, Pro y Nano. Estos son los primeros modelos de la era Gemini y la primera realización de la visión que teníamos cuando formamos Google DeepMind a principios de este año”.

Asimismo, dijo que este anuncio “representa uno de los mayores esfuerzos científicos y de ingeniería que hemos realizado como empresa”.

Cómo es Gemini, la nueva Inteligencia Artificial de Google que promete revolucionar la tecnología. Foto: Google Gemini.

Gemini: cómo es la nueva IA de Google

En un escrito que publicaron en el blog oficial de la firma, el consejero delegado y cofundador de Google DeepMind, Demis Hassabis, anticipó que el objetivo era crear una IA “que se parezca menos a un programa informático inteligente”, para así asemejarse más a “un ayudante o asistente experto”.

Con ese propósito en mente, se embarcaron en la creación de Gemini, “el modelo más capaz y general que hemos construido”.

La idea desde un primer momento era que su enfoque fuese multimodal, “lo que significa que puede generalizar y comprender, operar y combinar a la perfección diferentes tipos de información, como texto, código, audio, imagen y vídeo”.

Asimismo, lo desarrollaron para que fuese capaz de funcionar desde en grandes centros de datos hasta en dispositivos móviles.

Gemini 1.0, la primera versión de esta IA, cuenta con tres tamaños diferentes: Gemini Ultra, Gemini Pro y Gemini Nano.

La primera resalta por su capacidad para hacer tareas de alta complejidad, mientras que la segunda destaca por la variedad de labores que puede hacer. Por su parte, la tercera se caracteriza porque puede operar en aparatos más pequeños.

“Hasta ahora, el método estándar para crear modelos multimodales consistía en entrenar componentes separados para distintas modalidades y luego unirlos para imitar a grandes rasgos algunas de sus funciones. A veces, estos modelos pueden ser buenos en determinadas tareas, como la descripción de imágenes, pero tienen dificultades con el razonamiento más conceptual y complejo”, escribió Hassabis.

Bajo esta línea, añadió: “Diseñamos Gemini para que fuera multimodal de forma nativa, preentrenado desde el principio en distintas modalidades”.

“Esto le confiere una habilidad única para descubrir conocimientos que pueden ser difíciles de discernir en medio de grandes cantidades de datos. Su extraordinaria capacidad para extraer información de cientos de miles de documentos a través de la lectura, el filtrado y la comprensión de la información ayudará a conseguir nuevos avances a velocidades digitales en muchos campos, desde la ciencia a las finanzas”.

Las medidas de seguridad y la utilización de esta IA

Al igual que con otras herramientas tecnológicas, la seguridad es uno de los ámbitos que tienden a generar más preocupación entre los usuarios.

Es por esto que, según aseguraron desde Google, tomaron una serie de resguardos para evitar potenciales riesgos.

“Hemos llevado a cabo nuevas investigaciones en áreas de riesgo potencial como la ciberdelincuencia, la persuasión y la autonomía, y hemos aplicado las mejores técnicas de pruebas de adversarios de Google Research para ayudar a identificar problemas de seguridad críticos antes del despliegue de Gemini”.

A esto se le sumó que utilizaron bases de datos para entrenar a la IA para que identifique los contenidos que se alejan de sus políticas, además de que crearon “clasificadores de seguridad específicos para identificar, etiquetar y clasificar los contenidos violentos o con estereotipos negativos”.

“La responsabilidad y la seguridad ocuparán siempre un lugar central en el desarrollo y despliegue de nuestros modelos. Se trata de un compromiso a largo plazo que requiere colaboración, por lo que estamos colaborando con la industria y el ecosistema en general para definir las mejores prácticas y establecer puntos de referencia de seguridad (...) Seguiremos colaborando con investigadores, gobiernos y grupos de la sociedad civil de todo el mundo”.

Respecto a su utilización, desde Google dijeron que Bard usará desde esta semana una versión perfeccionada de Gemini Pro, la cual estará disponible en inglés en más de 170 países y territorios.

En el futuro cercano, esperan ampliar las modalidades, idiomas y lugares.

El ámbito de los celulares tampoco se queda fuera: “Pixel 8 Pro es el primer smartphone diseñado para ejecutar Gemini Nano, que está impulsando nuevas funciones como Resumir en la app Grabadora y desplegándose en Smart Reply en Gboard, empezando por WhatsApp (con más apps de mensajería el año que viene)”.

“En los próximos meses, Gemini estará disponible en más productos y servicios como Search, Ads, Chrome y Duet AI”.

Y desde el próximo 13 de diciembre, “los desarrolladores y clientes empresariales podrán acceder a Gemini Pro a través de la API de Gemini en Google AI Studio o Google Cloud Vertex AI”.

“Los desarrolladores de Android también podrán construir con Gemini Nano, nuestro modelo más eficiente para tareas en el dispositivo, a través de AICore, una nueva capacidad del sistema disponible en Android 14, a partir de los dispositivos Pixel 8 Pro”.

En cuanto a Gemini Ultra, presumen que estará disponible a principios del próximo año, ya que antes deben ajustar algunos detalles y evaluar la aprobación de las partes involucradas. Entre ellas, figuran expertos en seguridad.

Para ese periodo de 2024, también estrenarán Bard Advanced, que definen como “una nueva experiencia de IA de vanguardia que le dará acceso a nuestros mejores modelos y capacidades, empezando por Gemini Ultra”.

“Estamos entusiasmados con las increíbles posibilidades de un mundo responsablemente potenciado por la IA: un futuro de innovación que potenciará la creatividad, ampliará el conocimiento, hará avanzar la ciencia y transformará la forma de vivir y trabajar de miles de millones de personas en todo el mundo”, sentenció el CEO de Google DeepMind.