Gemini Robotics, el modelo basado en Gemini 2.0 diseñado para robótica
En Google DeepMind, hemos avanzado en la forma en que nuestros modelos Gemini resuelven problemas complejos mediante el razonamiento multimodal a través de texto, imágenes, audio y video. Hasta ahora, sin embargo, esas habilidades se han limitado en gran medida al ámbito digital. Para que la IA sea útil y beneficiosa para las personas en el mundo físico, debe demostrar un razonamiento “encarnado”, es decir, la capacidad similar a la humana de comprender y reaccionar ante el mundo que nos rodea, así como tomar medidas de forma segura para realizar tareas.

En este artículo que reproducimos, escrito por Carolina Parada para el blog de Google DeepMind, la compañía presenta dos nuevos modelos de IA, basados en Gemini 2.0, que sientan las bases para una nueva generación de robots útiles.
El primero es Gemini Robotics, un modelo avanzado de visión-lenguaje-acción (VLA) basado en Gemini 2.0, con la adición de acciones físicas como una nueva modalidad de salida para controlar robots directamente. El segundo es Gemini Robotics-ER, un modelo de Gemini con una comprensión espacial avanzada, que permite a los roboticistas ejecutar sus propios programas utilizando las capacidades de razonamiento encarnado (ER) de Gemini.
Ambos modelos permiten que diferentes tipos de robots realicen una gama más amplia de tareas en el mundo real que nunca antes. Como parte de nuestros esfuerzos, estamos colaborando con Apptronik para desarrollar la próxima generación de robots humanoides con Gemini 2.0. También estamos trabajando con un número seleccionado de evaluadores de confianza para guiar el futuro de Gemini Robotics-ER.
Estamos entusiasmados por explorar las capacidades de nuestros modelos y seguir desarrollándolos en el camino hacia aplicaciones en el mundo real.
Gemini Robotics: Nuestro modelo de visión-lenguaje-acción más avanzado
Para ser útiles y beneficiosos para las personas, los modelos de IA para robótica necesitan tres cualidades principales: deben ser generales, es decir, capaces de adaptarse a diferentes situaciones; deben ser interactivos, es decir, capaces de comprender y responder rápidamente a instrucciones o cambios en su entorno; y deben ser diestros, es decir, capaces de realizar tareas que generalmente las personas hacen con sus manos y dedos, como manipular objetos con cuidado.
Aunque nuestro trabajo previo demostró avances en estas áreas, Gemini Robotics representa un gran salto en el rendimiento en los tres aspectos, acercándonos a robots de propósito verdaderamente general.
Generalidad
Gemini Robotics aprovecha la comprensión del mundo de Gemini para generalizar en situaciones nuevas y resolver una amplia variedad de tareas sin necesidad de entrenamiento específico. Es capaz de manejar nuevos objetos, instrucciones diversas y entornos desconocidos. En nuestro informe técnico, mostramos que, en promedio, Gemini Robotics duplica el rendimiento en un benchmark integral de generalización en comparación con otros modelos de visión-lenguaje-acción de vanguardia.

Gemini Robotics trabajando en diferentes clases de robots.
Interactividad
Para operar en nuestro mundo físico dinámico, los robots deben interactuar sin problemas con las personas y su entorno, adaptándose a los cambios en tiempo real.
Gracias a que está basado en Gemini 2.0, Gemini Robotics es altamente interactivo. Aprovecha las capacidades avanzadas de comprensión del lenguaje de Gemini y puede comprender y responder a comandos en lenguaje conversacional y en diferentes idiomas.
Puede interpretar y responder a un conjunto mucho más amplio de instrucciones en lenguaje natural que nuestros modelos anteriores, ajustando su comportamiento en función de la entrada. También monitorea continuamente su entorno, detecta cambios y ajusta sus acciones en consecuencia. Este tipo de control o “direccionabilidad" puede mejorar la colaboración entre las personas y los robots asistentes en diversos entornos, desde el hogar hasta el lugar de trabajo.
Destreza
El tercer pilar clave para construir un robot útil es la destreza. Muchas tareas cotidianas que los humanos realizan sin esfuerzo requieren habilidades motoras finas sorprendentemente complejas y todavía son demasiado difíciles para los robots. En contraste, Gemini Robotics puede abordar tareas extremadamente complejas y de varios pasos que requieren manipulación precisa, como doblar origami o empacar un tentempié en una bolsa Ziploc.
Múltiples "encarnaciones"
Finalmente, dado que los robots tienen diversas formas y tamaños, Gemini Robotics está diseñado para adaptarse fácilmente a diferentes tipos de robots. Entrenamos el modelo principalmente con datos de la plataforma robótica de doble brazo ALOHA 2, pero también demostramos que puede controlar una plataforma de doble brazo basada en los brazos Franka, utilizados en muchos laboratorios académicos. Gemini Robotics incluso puede especializarse en encarnaciones más complejas, como el robot humanoide Apollo desarrollado por Apptronik, con el objetivo de completar tareas en el mundo real.

Gemini Robotics-ER sobresale en capacidades de razonamiento "encarnado", incluyendo la detección de objetos y la señalización de partes de los mismos, la búsqueda de puntos correspondientes y la detección de objetos en 3D.
Mejorando la comprensión del mundo de Gemini
Junto con Gemini Robotics, presentamos un modelo avanzado de visión-lenguaje llamado Gemini Robotics-ER (abreviatura de “razonamiento encarnado”). Este modelo mejora la comprensión del mundo de Gemini en aspectos críticos para la robótica, con un enfoque especial en el razonamiento espacial, permitiendo a los roboticistas conectarlo con sus controladores de bajo nivel.
Responsabilidad en el avance de la IA y la robótica
A medida que exploramos el potencial continuo de la IA y la robótica, adoptamos un enfoque integral y por capas para abordar la seguridad en nuestra investigación, desde el control motor de bajo nivel hasta la comprensión semántica de alto nivel.
Para avanzar en la investigación sobre la seguridad en robótica en la academia y la industria, también estamos lanzando un nuevo conjunto de datos para evaluar y mejorar la seguridad semántica en la IA encarnada y la robótica. En trabajos previos, demostramos cómo una Constitución Robótica inspirada en las Tres Leyes de la Robótica de Isaac Asimov podría ayudar a un modelo de lenguaje grande (LLM) a seleccionar tareas más seguras para los robots.
Además de nuestra asociación con Apptronik, nuestro modelo Gemini Robotics-ER también está disponible para evaluadores de confianza, incluidos Agile Robots, Agility Robotics, Boston Dynamics y Enchanted Tools. Esperamos seguir explorando las capacidades de nuestros modelos y continuar desarrollando la IA para la próxima generación de robots más útiles.
"Junto con Gemini Robotics, presentamos un modelo avanzado de visión-lenguaje llamado Gemini Robotics-ER (abreviatura de “razonamiento encarnado”). Este modelo mejora la comprensión del mundo de Gemini en aspectos críticos para la robótica, con un enfoque especial en el razonamiento espacial, permitiendo a los roboticistas conectarlo con sus controladores de bajo nivel"