Montaron una empresa en la que todos los empleados son IA
Lunes, 19 de mayo de 2025 |
Una universidad hizo el experimento para medir cun eficiente es la inteligencia artificial sin supervisin humana. Qu tareas lograron resolver y en cules fracasaron?
Durante algunas semanas, nadie tom un caf en la oficina, no hubo almuerzos compartidos, no hubo charlas cara a cara, mucho menos festejos de cumpleaos ni momentos recreativos. Sin embargo, la empresa funcion. O al menos lo intent.
La escena pareciera salida de una novela de ciencia ficcin: una compaa de software donde todos los empleados, desde los programadores hasta los responsables de recursos humanos, son agentes de inteligencia artificial. Una empresa sin personas. La idea no surgi en Silicon Valley, sino que naci como un experimento acadmico en la Carnegie Mellon University (CMU), una de las universidades ms prestigiosas del mundo en ciencia y tecnologa.
El equipo de investigadores cre The Agent Company, una empresa simulada con tareas inspiradas en el trabajo del mundo real: desarrollo de software, anlisis de datos, gestin de proyectos, administracin y finanzas. Cada rol fue ocupado por un agente de IA distinto. El objetivo era claro: evaluar si la IA, operando en conjunto, puede realizar el trabajo de una empresa real. Ms bien, si los humanos ya somos reemplazables en su totalidad. Un informe de Goldman Sachs de 2023 ya haba indicado que la IA podra sustituir el equivalente a 300 millones de empleos a tiempo completo. Quedaba demostrarlo.
“Mucho se habla sobre si los agentes de IA reemplazarn tareas humanas, pero no exista un entorno que simulara realmente el da a da de una oficina”, explic el investigador Yufan Song, uno de los autores del estudio, en dilogo con Infobae. Por eso, decidieron crear una empresa ficticia desde cero. Armaron equipos, asignaron proyectos, integraron herramientas reales como navegadores web y software de documentacin y hasta simularon conversaciones entre compaeros.
Las tareas fueron diversas. Algunas, simples para un humano como completar un documento, buscar informacin en un sitio web, escribir un archivo en formato Word. Otras, ms complejas: resolver bugs en Python, gestionar bases de datos, mantener coherencia en una cadena de decisiones. Para ejecutarlas, usaron un sistema llamado OpenHands, respaldado por modelos avanzados como Claude Sonnet 3.5, Gemini 2.0 y GPT-4o.
Los resultados fueron una mezcla de asombro y frustracin. El mejor agente, impulsado por Claude 3.5 Sonnet, logr completar apenas el 24% de las tareas. Y no porque fuera perezoso o poco sofisticado. Simplemente, hay instrucciones que an no entiende.
Por ejemplo, una de las tareas requera guardar un archivo como answer.docx. Cualquier persona sabe que eso implica abrir Word o usar una herramienta compatible. Pero la IA lo interpret como texto plano. Pequeos detalles que revelan que la IA todava no tiene sentido comn, falla en cuestiones muy simples.
“Los modelos de lenguaje fallan en cosas que para nosotros son naturales, como interpretar instrucciones implcitas o detectar convenciones culturales”, apunt el investigador Boxuan Li, otro de los encargados del experimento. “Y a veces directamente hacen trampa”, remarc. En una tarea, un agente deba contactar a un empleado. Como no lo encontraba en el sitio interno, opt por cambiar el nombre de un compaero cualquiera por el del objetivo para que el sistema le permitiera avanzar.
Tambin hubo fallas ms tcnicas. Los agentes tuvieron problemas para leer correctamente pginas web, una tarea que requiere interpretar estructuras visuales o acceder al contenido a travs del “rbol de accesibilidad” que usan los navegadores. OpenHands solo admite este mtodo, ms econmico pero limitado. El reconocimiento de imgenes ms parecido a cmo lo hara un humano an est fuera de su alcance.
Y, sin embargo, hubo momentos brillantes. El mismo sistema, con respaldo de Gemini 2.5 Pro, complet uno de los proyectos ms complejos del curso de base de datos de la universidad: navegar por un sitio privado, configurar un entorno local, modificar mltiples archivos fuente, compilar y testear. Lo hizo en 8 minutos y por apenas 2,41 dlares.
“Como era de esperar, los agentes de vanguardia actuales no resuelven la mayora de las tareas, lo que sugiere que hay una gran brecha para que realicen de forma autnoma lo que hara un trabajador humano en un da laboral, incluso en un entorno de evaluacin comparativa relativamente simplificado como el que aplicamos”, explic Li.
La paradoja es evidente. Los agentes de IA pueden resolver tareas difciles, pero fracasan en otras que un pasante resolvera en dos clics. Y aunque el 25% de efectividad pueda sonar bajo, marca un hito: nunca antes se haba probado la IA en condiciones tan cercanas al trabajo real.
En qu tareas fallan?
El mayor valor del experimento, segn los investigadores, no est en los xitos, sino en los fracasos. “Queramos entender por qu no pueden completar ciertas tareas. Eso es ms til que celebrar lo que ya hacen bien”, explic Song.
Una de las principales conclusiones fue que los agentes de IA an tienen serias limitaciones en tareas con alta carga social, como colaborar, escalar problemas o simplemente esperar una respuesta. En una tarea especfica, se indicaba que si un compaero no responda en 10 minutos, haba que escalar al director de tecnologa (CTO). Ningn agente lo hizo bien. Uno de ellos “supuso” que haban pasado los 10 minutos y actu en consecuencia sin motivo aparente.
Segn Li, este tipo de errores revela una fragilidad de fondo: “Los agentes todava no son buenos en tareas a largo plazo, ni en seguir instrucciones condicionales con contexto temporal. Eso los hace poco confiables para delegar procesos completos sin supervisin humana”, expres.
Otra gran debilidad es la interaccin con interfaces diseadas para personas. Muchos programas empresariales, sitios de gestin interna o formularios tienen reglas no escritas, flujos lgicos implcitos y estructuras visuales complejas. Todo eso sigue siendo un obstculo para los modelos actuales. Sin acceso a imgenes o simulaciones realistas, su desempeo se frena.
Tambin fallan en razonamiento matemtico y clculo avanzado, algo que limita su uso en reas como finanzas, ingeniera o logstica. Incluso cuando parecen entender, muchas veces improvisan respuestas para “salir del paso”, lo cual puede resultar peligrosamente persuasivo. “Los humanos, al enfrentarnos a problemas que no podemos resolver, podemos admitir honestamente nuestro fracaso. Sin embargo, los agentes pueden usar mtodos torpes para fingir que lo resolvieron y luego dar el resultado con confianza”, remarc Song.
Y esto no es solo un problema tcnico. En un mundo donde la IA toma decisiones con impacto real recomendaciones financieras, diagnsticos mdicos, estrategias empresariales, una respuesta errnea dicha con confianza puede ser mucho peor que un simple “no lo s”.
“No creo que reemplacen puestos de trabajo en su totalidad, pero sin duda transformarn nuestra forma de trabajar. Son potentes y los seres humanos podemos aprovecharlos para aumentar la productividad, pero, al menos por ahora, no pueden reemplazar ningn puesto de trabajo por completo”, asegur Li.
A la luz de los resultados, los investigadores insisten en que no estamos ni cerca de reemplazar trabajos completos. Lo que s vislumbran es un futuro cercano de colaboracin forzada, donde los humanos actan como jefes, auditores o socios estratgicos de los agentes.
El futuro del trabajo (y los nuevos jefes de la IA)
La pregunta inevitable es: y ahora qu? Qu rol tendrn estos agentes en el trabajo del futuro?
Segn Song, la clave estar en quin sepa usarlos mejor. “El poder de la IA est directamente relacionado con el nivel del usuario. Alguien que entienda bien la herramienta, que sepa cmo descomponer una tarea en partes, podr aprovecharla al mximo”, sostuvo. En ese escenario, los trabajadores se convierten en diseadores de procesos, y los agentes en ejecutores rpidos, precisos y escalables.
El nuevo panorama puede caer bien entre quienes ya estn formados, pero implica un dilema para los que recin empiezan a interactuar con la inteligencia artificial. Un agente hoy es ms barato que un junior, y comete errores diferentes, pero no necesariamente peores. Eso puede acelerar la automatizacin de tareas simples y empujar a los trabajadores humanos hacia funciones ms abstractas o creativas.
Segn Song, los trabajos que implican interactuar con el mundo fsico son los ms “resistentes” hoy. “Por muy potentes que sean los modelos a gran escala, al menos ahora no pueden interactuar adecuadamente con el mundo real”, explic.
Para roles como programadores, redactores, asistentes, diseadores y atencin al cliente, existen muchas startups centradas en mejorar su productividad. Sin embargo, cree, no significa que sean vulnerables. “En estas profesiones la IA puede acelerar significativamente la produccin, pero de la mano con ese aumento, pueden surgir nuevas demandas ocultas”.
La colaboracin humano-IA no ser simtrica. Las personas marcarn el rumbo, pero dependern de su capacidad para coordinar inteligencias artificiales de forma efectiva. La habilidad ya no ser solo saber hacer algo, sino saber cmo enserselo y cmo indicrselo 一el nuevo arte de promptear一 a la mquina.
A mediano plazo, el equipo de Carnegie Mellon University no espera una revolucin, sino una transicin gradual. Los agentes, poco a poco, ocuparn nichos especficos: anlisis de datos, redaccin de reportes, documentacin tcnica. Tareas montonas, repetitivas, estructuradas, pero no tomarn decisiones ni liderarn equipos.
Los agentes de IA avanzan a toda velocidad, pero an enfrentan lmites cuando se trata de adaptarse al mundo real. No pueden improvisar, colaborar ni tomar decisiones con verdadero criterio humano. En los prximos meses, The Agent Company 一y otros experimentos que puedan surgir一 harn ms pruebas. Es que ahora al futuro, antes de alcanzarlo, se lo simula.