
Dos modelos de IA para una nueva generación de robots humanoides
Ambos aparatos realizan una gama de tareas muy amplia
Imagínate un robot que no solo entiende instrucciones, sino que también dobla un origami o guarda un bocadillo en una bolsa con cierre con la precisión de unas manos humanas. Parece sacado de una película de ciencia ficción, pero ya es una realidad.
Google DeepMind acaba de presentar Gemini Robotics y Gemini Robotics-ER, dos nuevos modelos de inteligencia artificial que llevan la robótica a otro nivel. Basados en Gemini 2.0, estos sistemas permiten que los robots realicen tareas del mundo real con mayor precisión y autonomía.
Gemini Robotics es un modelo avanzado de visión-lenguaje-acción que incorpora el control físico como una nueva modalidad, permitiendo que los robots ejecuten acciones complejas en varios pasos. Esto significa que ahora pueden manipular objetos con mayor destreza, desde ensamblar piezas hasta interactuar con su entorno de forma más natural.
Con estos avances, Google DeepMind sienta las bases para una nueva generación de robots que podrían integrarse cada vez más en la vida cotidiana, haciendo que la interacción con la IA sea más útil y tangible que nunca.
(Los invitamos también a leer: La verdad detrás de los videos virales de robots: ¿Ataques de la IA o malentendidos?)

"Si bien nuestro trabajo previo demostró avances en estas áreas, Gemini Robotics representa un avance sustancial en el rendimiento en los tres ejes, acercándonos a robots verdaderamente de propósito general", resume.
Dado que los robots vienen en todas las formas y tamaños, Gemini Robotics ha sido diseñado para adaptarse fácilmente a diferentes tipos de robots.
Por su parte, Gemini Robotics-ER es un modelo de visión-lenguaje (VLM) con una comprensión espacial avanzada, que permite a los expertos en robótica ejecutar sus propios programas utilizando el razonamiento corporal de Gemini.
Así, este modelo mejora "con creces" capacidades como la de apuntar y la detección 3D para, por ejemplo, cuando se le muestra una taza de café, el modelo pueda intuir un agarre adecuado para cogerla por el asa y una trayectoria segura para acercarse a ella.
Estas capacidades de razonamiento, conseguidas al incorporar Gemini a ambos modelos, permiten a los diversos robots realizar una gama más amplia de tareas en el mundo real, indica la compañía, que se ha asociado con Apptronik para crear esta próxima generación de robots humanoides.
También están trabajando con grupo probadores de confianza para guiar el futuro de Gemini Robotics-ER. "Esperamos explorar las capacidades de nuestros modelos y seguir desarrollándolos para que se apliquen en el mundo real".
Desde Google DeepMind describen que han avanzado en la forma en que los modelos Gemini resuelven problemas complejos mediante razonamiento multimodal en texto, imágenes, audio y video. Sin embargo, hasta ahora, estas capacidades se han limitado en gran medida al ámbito digital.
Para que la IA sea útil y útil para las personas en el mundo físico, deben demostrar razonamiento corporal (la capacidad similar a la humana de comprender y reaccionar al mundo que nos rodea), así como actuar con seguridad para realizar tareas, añade.
Por eso, "hoy presentamos dos nuevos modelos de IA, basados en Gemini 2.0, que sientan las bases para una nueva generación de robots útiles", señala.
¿Quieres acceder a todo el contenido de calidad sin límites? ¡SUSCRÍBETE AQUÍ!