El 40% de las soluciones de IA generativa serán multimodales para 2027
12/09/2024CATEGORíA: General
Este cambio, de modelos individuales a modelos multimodales (texto, imagen, audio y video), proporciona una Inteligencia Artificial humana mejorada y una oportunidad para diferenciar las ofertas habilitadas para GenAI.
Ésta es la principal conclusión a la que llegaron los analistas en IA en el Gartner IT Symposium/Xpo, que tuvo lugar del 9 al 11 de septiembre en Gold Coast, Australia.
Erick Brethenoux, vicepresidente y analista de Gartner, afirmaba: “A medida que el mercado GenAI evoluciona hacia modelos entrenados de forma nativa en más de una modalidad, esto ayuda a capturar las relaciones entre diferentes flujos de datos y ha el potencial de ampliar los beneficios de GenAI en todos los tipos de datos y aplicaciones. También permite que la IA ayude a los humanos a realizar más tareas, independientemente del entorno”.
La GenAI multimodal es una de las dos tecnologías identificadas en el ciclo Hype Cycle de Gartner de 2024 para la IA generativa, donde la adopción temprana tiene potencial para generar una ventaja competitiva notable y beneficios en el tiempo de comercialización. Junto con los modelos de lenguajes grandes (LLM) de código abierto, ambas tecnologías tienen un alto potencial de impacto en las organizaciones dentro de los próximos cinco años. Entre las innovaciones GenAI que Gartner espera que alcancen una adopción generalizada dentro de 10 años, se han identificado dos tecnologías que ofrecen el mayor potencial: los modelos GenAI de dominio específico y los agentes autónomos.
La GenAI multimodal tendrá un impacto transformador en las aplicaciones empresariales al permitir la adición de nuevas características y funcionalidades que de otro modo serían inalcanzables. El impacto no se limita a industrias o casos de uso específicos, y puede aplicarse en cualquier punto de contacto entre la IA y los humanos. Hoy en día, muchos modelos multimodales se limitan a dos o tres modalidades, aunque esto aumentará en los próximos años para incluir más.
"En el mundo real, las personas encuentran y comprenden información a través de una combinación de diferentes modalidades, como audio, visual y sensorial", dijo Brethenoux. “La GenAI multimodal es importante porque los datos suelen ser multimodales. Cuando se combinan o ensamblan modelos de modalidad única para admitir aplicaciones GenAI multimodales, a menudo se genera latencia y resultados menos precisos, lo que resulta en una experiencia de menor calidad”.
Fuente: https://www.gartner.com
Foto de Gabriella Clare Marino en Unsplash
Volver al listado