Google DeepMind anunció el lanzamiento de dos nuevos modelos de inteligencia artificial (IA) diseñados para impulsar la próxima generación de robots humanoides: Gemini Robotics y Gemini Robotics-ER. Estos sistemas, que están basados en la IA Gemini 2.0, prometen ampliar las capacidades de los robots, permitiéndoles realizar tareas más complejas y variadas en entornos del mundo real.

¿Qué es Gemini Robotics?
Gemini Robotics es un sistema de visión-lenguaje-acción (VLA) que incorporan el control físico como una nueva dimensión. Este modelo les permite a los robots hacer tareas con una precisión milimétrica, como doblar figuras de origami o el colocar objetos delicados en contenedores. Según Google DeepMind, este avance representa un salto en tres áreas clave:
- Versatilidad: Adaptación a múltiples escenarios y requerimientos.
- Interacción intuitiva: Comprensión ágil de instrucciones y respuestas rápidas a cambios en el entorno.
- Destreza física: Habilidad para manipular objetos frágiles o realizar tareas que requieren precisión manual.
Además, Gemini Robotics está diseñado para integrarse en diversas plataformas robóticas, lo que facilita su implementación en diferentes tipos de robots.
¿Qué es Gemini Robotics-ER?
Por otro lado, Gemini Robotics-ER es un modelo especializado en visión-lenguaje (VLM) con capacidades de mejor razonamiento espacial. Este sistema permite a los expertos en robótica desarrollar programas personalizados aprovechando la inteligencia corporal de Gemini.
Entre sus funciones destacadas se encuentra la percepción tridimensional mejorada y la identificación precisa de objetos. Por ejemplo, al reconocer una taza de café, el robot reconoce su forma y al mismo tiempo determina el mejor punto de agarre y calculando una trayectoria óptima para poder manipularla sin tirarla.
LEE MÁS: CBP Home, la nueva app de Trump para fomentar la autodeportación
El futuro de la IA en el mundo físico
Para llevar estos avances al siguiente nivel, Google DeepMind se asoció con Apptronik, una empresa especializada en robótica. Esto con el propósito de desarrollar una nueva generación de robots humanoides. Además, está en colaboración con grupos de evaluación que le ayudarán a poder perfeccionar las aplicaciones prácticas de Gemini Robotics-ER.
Google DeepMind destaca que, aunque los modelos Gemini siguen avanzando en el razonamiento multimodal (integración de texto, imágenes, audio y video), para su aplicación en el mundo físico requiere un “razonamiento corporal“. Este concepto se refiere a la capacidad de interpretar y responder a estímulos del entorno de manera similar a los humanos, actuando con seguridad y eficiencia en tareas prácticas.
Con estos nuevos modelos, la compañía busca establecer un punto de inflexión en el desarrollo de robots más autónomos, inteligentes y funcionales, capaces de integrarse en la vida cotidiana.
Los modelos Gemini Robotics y Gemini Robotics-ER representan un avance significativo en la robótica humana, acercándonos a un futuro donde los robots pueden realizar tareas complejas con la misma destreza que los humanos. Con estas innovaciones, Google DeepMind reafirma su compromiso con el desarrollo de tecnologías que transformen el mundo físico.