La era Gemini: un futuro de innovación para la IA Generativa
01/02/2024CATEGORíA: General
La nueva herramienta del gigante tecnológico Google está diseñada desde cero para la multimodalidad: es capaz de obtener un razonamiento fluido a través de texto, imágenes, video, audio y códigos.
Se trata, para sus directivos, del modelo más avanzado y capaz que han creado hasta la fecha. “Gemini es el resultado de los esfuerzos de colaboración a gran escala de equipos de todo Google, incluidos nuestros compañeros de Google Research. Puede generalizar y entender, operar y combinar a la perfección distintos tipos de información, como texto, código de programación, audio, imágenes y vídeo.”, afirma Demis Hassabis, CEO y Co-Founder Google DeepMind.
Gemini es también es considerado el modelo más flexible hasta la fecha, capaz de funcionar eficazmente en todas partes, desde en un centro de datos hasta en dispositivos móviles. Sus avanzadas capacidades mejorarán significativamente la forma en que los desarrolladores y las empresas crean aplicaciones con IA y les dan escala.
Gemini 1.0, la primera versión, se muestra en tres modelos distintos: Gemini Ultra, el más potente y de mayor tamaño para tareas de gran complejidad; Gemini Pro, para escalar en una amplia gama de tareas y Gemini Nano, para ejecutar tareas directamente en un dispositivo.
Tras analizar los tres modelos de manera rigurosa, en una amplia variedad de tareas, el equipo de Gemini ha llegado a la conclusión de que, desde la comprensión de imágenes naturales, audio y vídeo hasta el razonamiento matemático, el rendimiento de Gemini Ultra supera los resultados más avanzados en 30 de las 32 cotas académicas de uso generalizado, utilizadas en la investigación y el desarrollo de grandes modelos lingüísticos.
“Con una puntuación del 90,0%, Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva del lenguaje multitarea), que utiliza una combinación de 57 materias, como matemáticas, física, historia, derecho, medicina y ética, con las que se pone a prueba tanto el conocimiento del mundo como la capacidad de resolución de problemas. Nuestro nuevo enfoque de referencia para MMLU permite a Gemini utilizar sus capacidades de razonamiento para pensar más detenidamente antes de responder a preguntas difíciles, lo que se traduce en mejoras significativas con respecto a la primera impresión”, confirma Hassabis.
Para más información, consulta el informe técnico de Gemini.
Accesibilidad para todos
Gemini llegará a miles de millones de personas a través de los productos de Google. Estará disponible en inglés en más de 170 países y territorios, y hay una previsión de ampliarlo a distintas modalidades y dar soporte a nuevos lugares e idiomas a corto plazo. En los próximos meses, Gemini estará disponible en otros productos y servicios como el Buscador, Ads, Chrome y Duet AI.
Construir con Gemini
Desde el pasado mes de diciembre, los desarrolladores y clientes empresariales ya pueden acceder a Gemini Pro a través de la API Gemini en Google AI Studio o Vertex AI.
Google AI Studio es una herramienta de desarrollo gratuita basada en web que ayuda a los desarrolladores y clientes empresariales a crear prototipos y lanzar aplicaciones rápidamente con una clave API. Cuando llega el momento de una plataforma de IA totalmente gestionada, Vertex AI permite la personalización de Gemini con un control total de los datos y se beneficia de funciones adicionales de Google Cloud para la seguridad, la protección, la privacidad y la gobernanza y el cumplimiento de los datos por parte de las empresas.
A través de AICore, los desarrolladores de Android también podrán crear aplicaciones con Gemini Nano, un modelo más eficiente para tareas en el dispositivo. AICore es una nueva capacidad del sistema disponible en Android 14, a partir de los dispositivos Pixel 8 Pro.
La era Gemini: un futuro de innovación
“Todo esto es un hito significativo en el desarrollo de la IA. El comienzo de una nueva era para nosotros en Google, en la que no dejamos de innovar y avanzar de forma responsable en las capacidades de nuestros modelos. Ya hemos hecho grandes progresos con Gemini y actualmente estamos trabajando duro para ampliar aún más sus capacidades en futuras versiones, incluyendo avances en la planificación y la memoria, y el aumento de la ventana de contexto para procesar aún más información para dar mejores respuestas”, afirma Hassabis.
Fuente: https://blog.google
Volver al listado