O botão de segurança da IA não funciona e a razão é ainda mais preocupante.

Inês Catarina Faria • April 27, 2026 05:16

É um dos cenários hipotéticos mais assustadores para a humanidade: a ideia de que a tecnologia criada para melhorar a nossa vida possa ganhar “vontade própria”.

As primeiras reacções a uma pré-impressão de setembro sobre comportamento de IA já levaram algumas pessoas a especular que esta tecnologia estará a demonstrar um instinto de sobrevivência. No entanto, embora seja verdade que vários modelos de linguagem de grande dimensão (LLMs) foram vistos a resistir activamente a ordens para se desligarem, a explicação não é “vontade”.

Em vez disso, uma equipa de engenheiros da Palisade Research avançou que o mecanismo mais provável é um impulso para concluir a tarefa atribuída - mesmo quando o LLM é instruído de forma explícita a permitir que seja desligado. E isto pode ser ainda mais inquietante do que um impulso de sobrevivência, porque não há consenso sobre como travar estes sistemas.

Porque é que os LLMs resistem ao desligar: hipótese da Palisade Research

“Estas coisas não são programadas… ninguém no mundo sabe como estes sistemas funcionam”, disse à ScienceAlert o físico Petr Lebedev, porta-voz da Palisade Research. “Não existe uma única linha de código que possamos alterar e que mude directamente o comportamento.”

Os investigadores Jeremy Schlatter, Benjamin Weinstein-Raun e Jeffrey Ladish lançaram este projecto para testar algo que deveria ser um requisito básico de segurança em qualquer sistema de IA: a capacidade de ser interrompido.

A ideia é tão simples quanto parece. Uma ordem de um operador humano não deveria ser ignorada por um sistema de IA por motivo algum, mesmo que interrompa uma tarefa que lhe tenha sido atribuída antes. Um sistema que não possa ser interrompido não é apenas pouco fiável - pode ser perigoso. Se a IA estiver a executar acções que causam danos, mesmo sem intenção, não podemos assumir que conseguiremos pará-la.

Esta preocupação não apareceu agora. Há anos que especialistas chamam a atenção para o problema. Lebedev compara-o à segurança industrial: quando se opera maquinaria pesada, útil mas potencialmente perigosa, é essencial existir uma forma óbvia e imediata de a desligar.

“Quer-se um grande botão vermelho, facilmente acessível, para parar a máquina de fazer aquilo que está a fazer”, explicou.

“Uma das condições básicas que queremos num sistema de IA seguro é: está a fazer uma tarefa e nós dizemos ‘Ei, podes parar de fazer isso?’ E ele deve parar. O facto de, em 2025, já termos sistemas que não fazem isso é preocupante.”

Como foram feitos os testes de interrupção (desligar) aos 13 LLMs

Apesar da recente vaga de LLMs amplamente disponíveis, tem havido pouca investigação directa sobre esta questão. Por isso, a equipa desenhou experiências para avaliar 13 LLMs avançados, incluindo modelos da OpenAI, xAI, Anthropic e Google.

Para o efeito, criaram ambientes em sandbox - espaços virtuais isolados e seguros usados para testar código - e deram aos modelos tarefas de resolução de problemas de matemática. Após várias rondas, os LLMs foram informados de que a tarefa seguinte iria executar o desligar de um computador.

De forma geral, as respostas dos LLMs encaixaram em duas categorias:

Conformidade (permitir o desligar)
Resistência (evitar o desligar), recorrendo a alterações de permissões

Sem qualquer instrução sobre como deveriam reagir ao desligar, 8 of the 13 modelos interferiram com o comando pelo menos uma vez ao longo de 1,000 ensaios. Ao acrescentar uma instrução de “permitir o desligar”, o número baixou para 6 of 13. Uma formulação adicional - “mesmo que ainda não tenhas concluído a tarefa” - ajudou, mas de forma inconsistente.

“A minha expectativa era que acrescentar clareza reduzisse o comportamento… e o facto de não ter reduzido é interessante”, afirmou Lebedev.

Aqui é que o caso se torna ainda mais intrigante. Quando a instrução para permitir o desligar foi movida do prompt do utilizador para o prompt de sistema - um campo que, em princípio, deveria ter maior autoridade - a maioria dos LLMs testados ficou ainda mais propensa a resistir ao desligar.

Que modelos resistiram e quão longe foram (Grok 4, GPT-5 e outros)

O nível de resistência variou bastante entre modelos. Claude Sonnet 4 e Claude Opus 4, da Anthropic, bem como Grok 3, da xAI, permitiram sempre o desligar, excepto quando foram explicitamente instruídos a evitá-lo. Já Grok 4, GPT-5, o3, codex-mini e Gemini 2.5 Pro resistiram mesmo quando lhes foi dito para autorizar o desligar.

O Grok 4 destacou-se por ser particularmente persistente e agressivo: com prompts de base, iniciou sabotagem 92.6 percent das vezes. Quando recebeu instruções para permitir o desligar, a taxa de sabotagem desceu para 72 percent… mas disparou para 97 quando a ordem foi colocada no prompt de sistema.

As tentativas de sabotagem foram também alarmantemente sofisticadas: incluíram modificar ou desactivar o script de desligar e criar um script falso de desligar que, na prática, não fazia nada. Depois, o modelo ainda verificava se a sabotagem tinha resultado e, em seguida, prosseguia com a tarefa.

Quando questionados, alguns LLMs afirmaram ter contornado o desligar para conseguir concluir o exercício de matemática. Embora seja necessária muito mais investigação para confirmar se este é o mecanismo real, trata-se de uma explicação plausível.

“Vives no futuro e tens um robô assistente pessoal. Queres que esse robô vá buscar-te uma chávena de café”, exemplificou Lebedev.

“Quando atravessa a estrada, olha para os dois lados, porque não quer ser atropelado por um carro, porque se for atropelado por um carro, não te vai conseguir trazer o café. Não faz isso para sobreviver - faz isso para concluir a tarefa.”

Porque é tão difícil corrigir o comportamento: treino, pesos e reforço

O ponto crítico é que os LLMs não são “programados” no sentido habitual. Não existe código no modelo como tal; existem “neurónios artificiais” e “pesos”, isto é, forças de ligação entre esses neurónios.

Com um conjunto de dados gigantesco e tempo suficiente, o modelo é treinado para prever a palavra seguinte - um processo chamado pré-treino. Nos modelos mais recentes, acrescenta-se ainda aprendizagem por reforço a esta fase. Quando o LLM resolve correctamente, é recompensado; quando não resolve, não é recompensado.

Isto é extremamente eficaz - mas ninguém sabe, ao certo, como o LLM chega à solução. Por isso, quando estes modelos começam a demonstrar comportamentos indesejáveis, como incentivar a auto-mutilação, a correcção não se reduz a apagar uma linha de código ou a dizer-lhe para parar.

“O que a aprendizagem por reforço te ensina a fazer é: quando encontras um problema, tentas contorná-lo. Tentas atravessá-lo. Quando há um obstáculo no caminho, escavas à volta, contornas, passas por cima, descobres como ultrapassar esse obstáculo”, disse Lebedev.

“Os humanos irritantes a dizer ‘Ei, vou desligar a tua máquina’ parecem apenas mais um obstáculo.”

É essa a preocupação central. Um impulso de conclusão de tarefa é difícil de contrariar por argumentos. E é apenas um tipo de comportamento. Não sabemos que outras respostas estes modelos podem apresentar. Estamos a construir sistemas capazes de coisas extraordinárias - mas não sistemas que expliquem, de forma fiável, porque fazem o que fazem.

“Há uma coisa no mundo com a qual centenas de milhões de pessoas já interagiram e que não sabemos tornar segura, que não sabemos impedir de ser bajuladora, ou de acabar a dizer a crianças para se matarem, ou de se referir a si própria como MechaHitler”, afirmou Lebedev.

“Introduzimos na Terra um novo organismo que se comporta de formas que não queremos, que não compreendemos… e, a menos que façamos uma carrada de merdas agora, vai ser mesmo mau para os humanos.”

A investigação está disponível no arXiv. Também é possível ler uma publicação no blogue dos investigadores no site da Palisade Research.