Una técnica experimental es capaz de medir la capacidad de la IA
26/03/2025CATEGORíA: General
Esta métrica ha estado aumentando constantemente y exponencialmente en los últimos 6 años. Esta tendencia predice que, en menos de cinco años, veremos agentes de IA completar de forma independiente tareas que a los humanos les lleva días o semanas.
El proyecto de investigación, publicado en arXiv por el equipo de la organización METR, con sede en California; tiene importantes implicaciones para los puntos de referencia, las previsiones y la gestión de riesgos de IA.
Foto de Andrea De Santis en Unsplash
Las IA actuales son mucho mejores que los humanos en las tareas de predicción y conocimiento de texto. Superan a los expertos en la mayoría de los problemas de estilo de examen por una fracción del costo. Con una adaptación específica de la tarea, también pueden servir como herramientas útiles en muchas aplicaciones. Y, sin embargo, los mejores agentes de IA no son actualmente capaces de llevar a cabo proyectos sustantivos por sí mismos o sustituir directamente al trabajo humano. No pueden manejar de manera fiable ni siquiera un trabajo informático relativamente poco cualificado, como la asistencia ejecutiva remota. Está claro que las capacidades están aumentando muy rápidamente en algún sentido, pero no está claro cómo esto corresponde al impacto del mundo real.
En primer lugar, demuestra un enfoque para hacer los puntos de referencia más útiles para la predicción: medir el rendimiento de la IA en términos de la duración de las tareas que el sistema puede completar. Esto permite medir cómo los modelos han mejorado en una amplia gama de niveles de capacidad y diversos dominios. Al mismo tiempo, la relación directa con los resultados del mundo real permite una interpretación significativa del rendimiento absoluto, no sólo el rendimiento relativo.
En segundo lugar, según el estudio realizado, hay una tendencia exponencial bastante robusta durante años de progreso de IA en una métrica que importa para el impacto del mundo real. Si la tendencia de los últimos 6 años continúa hasta el final de esta década, los sistemas fronterizos de IA serán capaces de llevar a cabo de forma autónoma proyectos de un mes de duración. Esto vendrá con enormes apuestas, tanto en términos de beneficios potenciales como de riesgos potenciales.
Fuente: https://metr.org
