Inicio Quienes somos Revista online Newsletter Videos Webinars
vimeo twitter Facebook linkedin

ROBÓTICA Y AUTOMATIZACIÓN

Gemini Robotics, la apuesta de Google por la robótica

14/03/2025

CATEGORíA: General MARCA: Google DeepMind

Basado en el modelo de IA, Gémini 2.0, la compañía ha puesto en marcha Gemini Robotics y Gemini Robotics-ER, para llevar al plano físico su apuesta digital de razonamiento


En Google DeepMind, han desarrollado la posibilidad de que sus modelos Gemini, que resuelven problemas complejos a través del razonamiento multimodal a través de texto, imágenes, audio y vídeo. pero que, hasta ahora, se han limitado al plano digital; se trasladen al físico. 

 

 

Los investigadores consideran que para que la IA sea realmente útil para las personas en el ámbito físico, tienen que demostrar el razonamiento encarnado, la habilidad humana para comprender y reaccionar ante el mundo que nos rodea, así como tomar decisiones seguras para hacer las cosas. Por ello han introducido dos nuevos modelos de IA, basados en Géminis 2.0, que sientan las bases para una nueva generación de robots más útiles.

 

El primero es Gemini Robotics, un modelo avanzado de acción en lenguaje de visión (VLA) que se construyó sobre Géminis 2.0 con la adición de acciones físicas como una nueva modalidad de salida con el propósito de controlar directamente robots. La segunda es Gemini Robotics-ER, un modelo Gemini con comprensión espacial avanzada, permitiendo a los amantes de la robótica ejecutar sus propios programas usando habilidades de razonamiento de Gémini.

 

Ambos modelos permiten, a una variedad de robots, realizar una gama más amplia de tareas en el mundo real que nunca antes. "Como parte de nuestros esfuerzos, nos asociamos con Apptronik para construir la próxima generación de robots humanoides con Gemini 2.0. We-re también trabajando con un número seleccionado de probadores de confianza para guiar el futuro de Gemini Robotics-ER", afirman desde la compañía.

 

Gémini Robotics representa un paso sustancial en el rendimiento de tres ejes: comprensión, interactividad y destreza.

 

Comprensión

Gemini Robotics aprovecha la comprensión mundial de Gémini para resolverse en situaciones novedosas y moverse en una amplia variedad de tareas, incluyendo aquellas que nunca antes había visto en su entrenamiento.

 

 

 

Interactividad

Para operar en nuestro mundo dinámico y físico, los robots deben ser capaces de interactuar perfectamente con las personas y su entorno circundante, y adaptarse a los cambios sobre la marcha.

Debido a que se construyó sobre una base de Géminis 2.0, Gémini Robótica es intuitivamente interactiva: puede entender y responder a un conjunto mucho más amplio de instrucciones de lenguaje natural que modelos anteriores, adaptando su comportamiento a su entrada. También monitorea continuamente su entorno, detecta cambios o instrucciones, y ajusta sus acciones en consecuencia. Este tipo de control, o "steerabilidad", puede ayudar mejor a las personas a colaborar con asistentes de robots en una gama de entornos, que van desde el hogar hasta el lugar de trabajo.

 

 

 

Destreza

El tercer pilar clave para construir un robot servicial es actuar con destreza. Muchas tareas cotidianas que los humanos realizan sin esfuerzo requieren habilidades motoras sorprendentemente finas y siguen siendo demasiado difíciles para los robots. Por el contrario, Gemini Robotics puede abordar tareas extremadamente complejas y de varios pasos que requieren una manipulación precisa como doblar origami o empacar un bocadillo en una bolsa Ziploc.

 

 

 

Gemini Robotics-ER 

Gemini Robotics-ER mejora las habilidades existentes de Géminis 2.0-s como el punteo y la detección 3D por un amplio margen. Combinando el razonamiento espacial y las habilidades de codificación de Géminis, Gemini Robotics-ER puede instantiatar capacidades completamente nuevas sobre la marcha. Por ejemplo, cuando se le muestra una taza de café, el modelo puede intuir una adecuada agarre de dos dedos para recogerlo por el mango y una trayectoria segura para acercarse a él.

Gemini Robotics-ER puede realizar todos los pasos necesarios para controlar a un robot justo al salir de la caja, incluyendo percepción, estimación del estado, comprensión espacial, planificación y generación de código. En tal configuración de extremo a extremo el modelo logra una tasa de éxito de 2x-3x en comparación con Gemini 2.0. Y donde la generación de código no es suficiente, Gemini Robotics-ER puede incluso aprovechar el poder del aprendizaje en contexto de texto, siguiendo los patrones de un puñado de demostraciones humanas para proporcionar una solución.

 

 

Más información, videos e imágenes en https://deepmind.google

 




Volver al listado Volver al listado





vimeo twitter facebook linkedin


Financiado por la Unión Europea Next GenerationEU Plan de Recuperación, Transformación y Resilencia