Durante meses nos dijeron que los robots venían por nuestros escritorios. Que los freelancers, diseñadores, asistentes y programadores tenían los días contados. Pero cuando los agentes de IA en el trabajo fueron puestos a prueba en tareas reales —con instrucciones, archivos y objetivos concretos— la historia fue muy distinta.
Los investigadores de la empresa de anotación de datos Scale AI y el Centro para la Seguridad de la IA (CAIS) prefirieron poner a prueba los agentes en el mundo real y crearon un algo llamado Índice de trabajo remoto. La idea fue simple: dar a estos modelos tareas de trabajo autónomo.
Imaginemos a un grupo de freelancers que fueron contratados para hacer ciertas tareas:
– Edición de video: «Corta y monta estas tomas y crea un anuncio de 30 segundos».
– Diseño gráfico: «Crea un logo sobrio para una cafetería».
– Tareas administrativas: «Analiza las siguientes hojas de vida y preselecciona los que tengan más de 2 años de experiencia».
Para esto les proporcionaron la descripción de la tarea, los archivos necesarios y un ejemplo de una tarea similar finalizada por un humano.
Si esperaban una sorprendente conclusión a este experimento, lamento decirles que la realidad es un poco más decepcionante.
Los investigadores ya tenían calculado que se ganaba un total de 143.991 dólares estadounidenses por completar todas las tareas. Pero las máquinas solo lograron un total de 1.819 dólares estadounidenses, menos del 3% del trabajo total.
«Espero que esto dé una impresión mucho más precisa de lo que está ocurriendo con las capacidades de la IA», concluyó el director de CAIS, Dan Hendrycks.
Pero tampoco nos vayamos al extremo. No es que la IA sea completamente inútil. Lo que sucede es que es increíblemente especializada. Es como tener al mejor chef del mundo, pero que no sepa cómo se prende la estufa o dónde están los cuchillos.
Aquí está la tabla de posiciones, del más capaz al menos capaz. Sin embargo, recuerden que todos quedaron por debajo del 3%:
1) Manus (de una startup china)
2) Grok (de xAI, la empresa de Elon Musk)
3) Claude (de Anthropic)
4) ChatGPT (de OpenAI)
5) Gemini (de Google)
A pesar de que la Inteligencia Artificial ha mejorado drásticamente en múltiples habilidades, tales como codificación o razonamiento lógico, la verdad es que el mundo real es una batalla completamente diferente.
La pregunta sería por qué estas herramientas que escriben poemas y crean código en segundos tienen un bajo desempeño en las tareas cotidianas de una oficina.
La respuesta es lo que los humanos hacemos sin esfuerzo y la IA no puede: la interacción compleja y el contexto.
No pueden usar herramientas externas. Un freelancer humano a menudo requiere entrar en un navegador, una hoja de calculo, un correo o un editor de video y luego saltar a otra herramienta. A la Inteligencia Artificial le toca luchar por integrar y operar las múltiples herramientas y programas en un solo lugar.
No tienen memoria a largo plazo. Cuando trabajamos en algún proyecto, los humanos normalmente sabemos lo que hicimos ayer y cómo afecta eso en el flujo de trabajo de hoy. Los modelos de IA son algo olvidadizos y, aunque puede que recuerden la solicitud más reciente, tal vez ya se les haya olvidado lo que les pidieron hace 3 días.
Les cuesta seguir múltiples pasos. A veces una simple tarea como diseñar un logo puede tener al menos 15 pasos intermedios. Para los modelos de IA, esto es un poco confuso y suelen perderse en el camino. Para cualquier oficinista, sería pan comido.
La comunicación y retroalimentación, aunque no fueron factores directamente medidos, estuvieron indirectamente muy presentes en la conclusión del experimento.
Cuando un freelancer entrega un borrador, el cliente o jefe le puede decir «Me gusta, ¿pero podríamos hacerlo un poco más extravagante y cambiar la fuente por una que vaya más con la personalidad de la marca?». Ese directo mensaje es la kriptonita para la IA. Requiere comprensión de la intención, inferencia y ajustes constantes.
Las anteriores olas de información sobre la IA, las que decían que esta herramienta iba a reemplazarnos a todos en poco tiempo, ya nos enseñaron una lección: las predicciones de desempleo masivo causado por la IA a menudo son erróneas.
En este caso, la transformación digital en este caso no es de reemplazo, sino de asistencia. La IA puede ser nuestro copiloto en este viaje, pero por el momento no tiene la licencia de conducción aprobada para tomar el volante por completo.
Así que en vez de tenerle miedo a la extinción laboral, deberíamos enfocarnos en aprovechar esas herramientas para aumentar todos los niveles de productividad y poder trabajar en conjunto.
Por ahora podemos respirar hondo, tomar un café y seguir confiados de que nuestro trabajo en oficina tiene un cierto factor de complejidad que la IA aún no llega a dominar.
Podés leer el artículo completo en el siguiente enlace:
¿Por qué los agentes de IA aún fracasan en tareas de trabajo autónomo?