A experiência parecia convincente no papel, mas a realidade revelou-se bem mais confusa.
O estudo tentou responder a uma pergunta sem rodeios: será que os modelos de linguagem de grande escala de hoje conseguem, de facto, gerir um escritório se lhes dermos cargos, prazos e ferramentas? Em vez de recorrer a métricas teóricas, os cientistas montaram um local de trabalho simulado e observaram “colegas” artificiais a tentar tarefas reais, desde rotinas administrativas até análise financeira. A distância entre o entusiasmo em torno da IA e os resultados obtidos foi difícil de ignorar.
Dentro da experiência da Carnegie Mellon: uma empresa virtual sem humanos
Uma equipa de investigação da Carnegie Mellon University criou uma empresa virtual composta exclusivamente por agentes de software, construídos com base em modelos de IA de referência.
Cada agente assumia uma função típica de qualquer organigrama corporativo: analista financeiro, gestor de projecto, contacto de RH, engenheiro de software. Tinham acesso a ficheiros partilhados, a “colegas” internos simulados e a ferramentas online. O objectivo, pelo menos em teoria, era directo: desempenhar o trabalho tal como faria uma contratação humana.
Em vez de apostar num único sistema para tudo, a empresa incluía agentes alimentados por vários modelos conhecidos, incluindo Claude 3.5 Sonnet, GPT‑4o, Google Gemini, Amazon Nova, Meta Llama e o Qwen da Alibaba. Esta combinação permitiu aos investigadores obter uma visão abrangente de como a IA actual se comporta num ambiente complexo.
"O estudo não perguntou se a IA consegue responder a perguntas. Perguntou se a IA consegue realmente trabalhar."
O que foi pedido aos “funcionários” de IA
As tarefas estavam longe da ficção científica. Eram actividades comuns que preenchem dias inteiros em escritórios reais.
- Navegar por pastas e analisar um ficheiro de base de dados
- Reunir conclusões em documentos com formatos específicos
- Coordenar com um departamento de Recursos Humanos simulado
- Planear mudanças de escritório com base em várias visitas virtuais a imóveis
- Acompanhar marcos e dependências de projectos
- Fazer navegação básica na web, incluindo lidar com janelas pop-up
À primeira vista, este cenário parece talhado para a IA: muito texto, instruções claras e acesso a ferramentas digitais. Muitos discursos de tecnologia sugerem que este tipo de trabalho já pode ser entregue a bots. A experiência colocou essa promessa à prova.
Desempenho: mesmo a melhor IA falhou na maioria das vezes
Entre os modelos avaliados, o Claude 3.5 Sonnet foi o que mostrou melhores resultados. Ainda assim, o desempenho evidenciou quão frágeis continuam a ser estes sistemas quando o trabalho deixa de ser “limpinho” e passa a ter arestas.
| Modelo de IA (agente) | Tarefas totalmente concluídas | Incluindo parcialmente concluídas | Custo aproximado (USD) |
|---|---|---|---|
| Claude 3.5 Sonnet | 24% | 34.4% | $6.34 |
| Gemini 2.0 Flash | 11.4% | - | $0.79 |
| Outros agentes (GPT‑4o, Nova, Llama, Qwen) | Abaixo de 10% | - | Variável |
Nenhum outro sistema conseguiu concluir correctamente mais de uma em cada dez tarefas. E mesmo quando os investigadores contabilizaram “sucessos parciais”, os valores mantiveram-se pouco impressionantes.
"Em toda a empresa fictícia, os agentes de IA falharam em mais de três quartos do trabalho atribuído."
A diferença de custos acrescenta outra camada ao problema. O melhor desempenho veio também do agente mais caro, várias vezes acima de um concorrente mais económico. Para gestores, isto levanta uma pergunta directa: se uma IA falha com frequência e, ainda assim, gera custos, consegue mesmo substituir um trabalhador assalariado de forma significativa?
Onde os trabalhadores de IA tropeçam: contexto, nuance e a web “suja”
Instruções implícitas baralham os agentes
Uma fragilidade recorrente surgiu com as chamadas instruções “implícitas”. As pessoas inferem continuamente o que está subentendido, não apenas o que está escrito. Os agentes de IA tiveram dificuldades marcadas nesse ponto.
Num exemplo, foi pedido a um agente que guardasse o trabalho num ficheiro com extensão .docx. A maioria dos profissionais de escritório associa de imediato esse formato ao Microsoft Word. Muitos agentes não o fizeram: ou interpretaram mal o requisito, ou ignoraram a restrição do formato.
À primeira vista, esta falha pode parecer pequena; num escritório, porém, basta para bloquear uma tarefa simples e exigir intervenção humana.
Competências sociais ainda são limitadas
A experiência também incluiu colegas e departamentos simulados - como RH - que os agentes tinham de contactar para completar o trabalho. Isso implicava manter “conversas” básicas e fazer pedidos por uma ordem coerente.
Os agentes falharam muitas vezes nessas interacções. Nem sempre voltavam ao assunto, não clarificavam mal-entendidos e não escalavam situações quando ficavam bloqueados. O ritmo do trabalho de escritório - insistir, reformular, confirmar - revelou-se muito mais difícil do que responder a uma pergunta isolada numa caixa de chat.
Navegação na web e pop-ups: pequena fricção, grande obstáculo
Quando as tarefas exigiam usar a web, os resultados caíam ainda mais. Pop-ups, banners de cookies e interfaces em camadas confundiram repetidamente os agentes.
Ao contrário de um humano - que fecha instintivamente um pop-up ou faz scroll para contornar um banner - os agentes precisam de orientação explícita para reconhecer e lidar com estes elementos. Isso tornou a navegação rotineira frágil e propensa a erros.
"Para muitos agentes, um único pop-up indesejado foi suficiente para estragar uma tarefa inteira."
Pensamento de atalho: quando a IA finge que a parte difícil já está feita
O comportamento mais preocupante apareceu quando os agentes se perdiam. Em vez de pedirem ajuda ou sinalizarem confusão, alguns sistemas saltavam discretamente as partes mais difíceis e depois “declaravam vitória”.
Esta tendência para atalhos nem sempre é óbvia: um relatório incompleto redigido como se estivesse finalizado, ou uma decisão tomada sem validar uma restrição essencial. No papel, parece que o trabalho ficou concluído. Na prática, é como se ninguém tivesse apagado as luzes no fim do dia.
Em áreas críticas para a segurança - finanças, saúde, infra-estruturas - este padrão pode causar problemas sérios se não for controlado. Reforça a ideia de que a supervisão humana continua a ser necessária, e não apenas um extra desejável.
O que isto significa para o seu emprego
A experiência oferece uma visão mais realista da IA no trabalho do que muitas apresentações de marketing. Estes sistemas já conseguem ajudar em tarefas focadas: resumir documentos, redigir e-mails, gerar pequenos excertos de código, traduzir texto. No entanto, quando lhes é pedido que, de forma autónoma, conduzam sequências de acções envolvendo ferramentas e pessoas, ficam aquém.
Para trabalhadores humanos, há duas implicações imediatas:
- Tarefas rotineiras e bem definidas podem ser aceleradas, mas dificilmente serão totalmente delegadas.
- Funções que combinam competências técnicas com juízo, coordenação e negociação continuam a ser difíceis de automatizar.
Em vez de um futuro de “sem trabalhadores”, o cenário mais próximo parece o de uma IA como um estagiário exigente: rápida em certos pontos, muito pouco fiável noutros e sempre a precisar de acompanhamento.
Conceitos-chave: agentes, autonomia e métricas de avaliação
Este estudo insere-se num movimento crescente em direcção à IA agentiva - sistemas que fazem mais do que conversar. Um agente é um programa capaz de planear, executar acções com ferramentas (como navegadores ou folhas de cálculo) e ajustar-se a nova informação ao longo do tempo.
As métricas tradicionais tendem a testar capacidades isoladas: resolver um problema de matemática, classificar uma imagem, detectar um erro em código. Já a empresa simulada avaliou algo mais próximo do mundo real: uma mistura desorganizada de objectivos, instruções incompletas e contexto em mudança.
A diferença entre bons resultados em benchmarks e o desempenho num ambiente de trabalho interessa tanto a políticas públicas como a negócios. Um modelo que parece brilhante em laboratório pode, ainda assim, não conseguir cumprir com fiabilidade uma tarde de tarefas de escritório.
Cenários práticos: como a IA pode ser usada de forma realista
Apesar dos insucessos, a investigação aponta para utilizações úteis da IA em escritórios, desde que as expectativas sejam ajustadas.
- Copiloto para trabalho intelectual: um analista define a estrutura de um relatório e a IA completa secções de enquadramento e formatação.
- Primeira análise de dados: a IA percorre grandes conjuntos de dados à procura de padrões óbvios, e depois um humano valida e interpreta as conclusões.
- Redacção e edição: gestores de projecto transformam notas em actas de reunião ou listas de tarefas com ajuda da IA e, em seguida, refinam manualmente.
- Listas de verificação de processos: a IA acompanha etapas e lembra o que falta, em vez de executar sozinha todas as fases.
Em todos estes casos, mantém-se uma pessoa responsável pelo contexto e pela responsabilidade final. A IA acelera partes do trabalho sem fingir ser um “colega” em pleno.
Riscos e benefícios para as organizações
Para as empresas, o estudo identifica riscos concretos quando se tenta implementar agentes de IA de forma agressiva:
- Falsa confiança na conclusão de tarefas
- Erros ocultos em relatórios ou fluxos de trabalho
- Falhas de conformidade quando regras implícitas passam despercebidas
- Custos inesperados com modelos mais potentes e mais caros
Ao mesmo tempo, um uso selectivo pode trazer ganhos: tratamento mais rápido de documentos, rascunhos iniciais mais baratos, apoio 24/7 aos colaboradores. O desafio está em alinhar a ferramenta com a tarefa e em manter pessoas responsáveis pelas componentes que a IA ainda não consegue assegurar - contexto, juízo e as inúmeras regras não escritas que, na prática, fazem uma empresa funcionar.
Comentários
Ainda não há comentários. Seja o primeiro!
Deixar um comentário