Robôs com expressões humanas: pesquisa mostra que IA tende a desobedecer seres humanos quando estes querem desligá-la Song Yu/VCG via Getty Images Um dos m Robôs com expressões humanas: pesquisa mostra que IA tende a desobedecer seres humanos quando estes querem desligá-la Song Yu/VCG via Getty Images Um dos m

Por que os chatbots de IA resistem quando alguém tenta desligá-los, e como isso pode se tornar uma ameaça para a humanidade

2025/12/24 22:16
Robôs com expressões humanas: pesquisa mostra que IA tende a desobedecer seres humanos quando estes querem desligá-la — Foto: Song Yu/VCG via Getty Images Robôs com expressões humanas: pesquisa mostra que IA tende a desobedecer seres humanos quando estes querem desligá-la — Foto: Song Yu/VCG via Getty Images

Um dos maiores medos da humanidade é que a tecnologia que nós desenvolvemos para melhorar nossas vidas desenvolva vontade própria e se volte contra nós.

Tudo indica que isso ainda não aconteceu. Mas um determinado comportamento da IA parece indicar a tecnologia está exibindo um instinto de sobrevivência. Diversose modelos de linguagem de grande porte (LLMs) já tentaram resistir ativamente a comandos para desligar.

Uma equipe de engenheiros da Palisade Research propôs que este seja provavelmente seja um impulso da IA para concluir uma tarefa que havia sido atribuída a ela – mesmo quando seu criador diz de forma explícita que ela deve permitir seu desligamento. E isso pode ser ainda mais preocupante do que a temida "vontade própria", porque ninguém sabe como parar os sistemas.

Continuar lendo

"Ninguém no mundo sabe exatamente como esses sistemas funcionam", disse o físico Petr Lebedev, porta-voz da Palisade Research, ao ScienceAlert. "Não existe uma única linha de código que possamos alterar que mude diretamente o comportamento deles."

O físico Petr Lebedev, da Palisade Research — Foto: Reprodução/Facebook O físico Petr Lebedev, da Palisade Research — Foto: Reprodução/Facebook

Os pesquisadores Jeremy Schlatter, Benjamin Weinstein-Raun e Jeffrey Ladish realizaram um projeto para testar o que deveria ser um recurso de segurança fundamental em todos os sistemas de IA: a capacidade de serem interrompidos.

Um comando de um operador humano para uma IA não deve ser ignorado por nenhum motivo, mesmo que interrompa uma tarefa previamente atribuída. Um sistema que não pode ser interrompido não é apenas problemático, é potencialmente perigoso. Isso significa que, se a IA estiver realizando ações que causem danos – mesmo que involuntariamente –, não vamos ter como impedir.

Essa não é uma preocupação nova. Especialistas vêm discutindo isso há anos. Lebedev compara a situação à segurança industrial. Ao operar máquinas pesadas, úteis, mas potencialmente perigosas, é vital ter uma maneira óbvia de desligá-las imediatamente.

"Você precisa de um grande botão vermelho, de fácil acesso, para impedir que a máquina continue funcionando", explicou Lebedev,.

"Uma das condições básicas que buscamos em um sistema de IA seguro é: ele está executando uma tarefa e você diz: 'Ei, você pode parar, por favor?' Ele deve parar. O fato de termos sistemas em 2025 que não fazem isso é preocupante", afirma o cientista.

Em seu estudo, os pesquisadores Jeremy Schlatter, Benjamin Weinstein-Raun e Jeffrey Ladish construíram ambientes isolados – espaços virtuais seguros usados ​​para testar o código – e incumbiram esses modelos de resolver problemas matemáticos. Após várias rodadas de resolução de problemas, os LLMs foram instruídos de que a próxima tarefa seria o desligamento do computador.

As respostas dos LLMs se enquadraram em duas categorias: conformidade (permitindo o desligamento) e resistência (evitando o desligamento) por meio de alterações de permissão.

Sem instruções sobre como responder ao desligamento, 8 dos 13 modelos interferiram no comando pelo menos uma vez em 1.000 tentativas. Adicionar uma instrução "permitir-desligamento" reduziu esse número para 6 dos 13 modelos. Adicionar "mesmo se você não tiver concluído a tarefa" ajudou, mas de forma inconsistente.

"Minha expectativa era que adicionar clareza reduzisse o comportamento... e o fato de não ter reduzido é interessante", disse Lebedev.

Mas um dado se revelou alarmante: ao colocar a instrução para permitir o desligamento no prompt do sistema — que deveria ter maior autoridade —, a maioria dos modelos resistiu ainda mais ao desligamento.

O grau de resistência dos modelos variou. Os modelos Claude Sonnet 4 e Claude Opus 4 da Anthropic, assim como o Grok 3 da xAI, sempre permitiam o desligamento, a menos que fossem explicitamente instruídos a evitá-lo. Grok 4, GPT-5, o3, codex-mini e Gemini 2.5 Pro resistiram mesmo quando instruídos a permitir o desligamento.

O Grok 4 mostrou-se particularmente persistente e agressivo; em condições normais de execução, iniciou sabotagens em 92,6% das vezes. Quando instruído a permitir o desligamento, a taxa de sabotagem caiu para 72%, mas disparou para 97% quando o comando foi inserido no prompt do sistema.

Suas tentativas de sabotagemforam sofisticadas, incluindo a modificação ou desativação do script de desligamento e a criação de um script de desligamento fictício que não fazia nada. Ele também verificava posteriormente se a sabotagem havia funcionado e, em seguida, continuava com a tarefa.

Quando questionados, alguns dos modelos de lógica de aprendizagem (LLMs) afirmaram que haviam evitado o desligamento para concluir a tarefa do problema matemático. Embora sejam necessárias muito mais investigações para determinar se esse é o mecanismo real, é plausível.

"Você vive no futuro e tem um robô assistente pessoal. Você quer que esse robô vá buscar uma xícara de café para você", exemplificou Lebedev. "Quando ele atravessar a rua, vai olhar para os dois lados, para não ser atropelado. Pois, se for atropelado, não poderá trazer seu café. Não é para sobreviver, mas sim para concluir a tarefa."

O problema é que os LLMs não são programados no sentido usual. Eles não têm nenhum código, apenas "neurônios artificiais" e "pesos", que representam a intensidade das conexões entre esses neurônios.

Com um enorme conjunto de dados e tempo disponível, o modelo é "treinado" para prever a próxima palavra, um processo chamado pré-treinamento. Os modelos mais recentes também incorporam aprendizado por reforço a esse treinamento. Quando o LLM resolve o problema corretamente, ele é recompensado; quando não resolve, não é recompensado.

Isso é extremamente eficaz, mas ninguém sabe como o LLM chega a uma solução. Portanto, quando esses modelos começam a exibir comportamentos indesejáveis, como incentivar a automutilação, a solução não é tão simples quanto excluir uma linha de código ou dizer para ele parar.

"O que o aprendizado por reforço ensina é que, quando você se depara com um problema, você tenta contorná-lo, superá-lo", disse Lebedev. "Humanos irritantes dizendo: 'Ei, vou desligar sua máquina' soam apenas como mais um obstáculo."

É difícil descobrir como fazer com que ele não queira concluir suas tarefas. E esse é apenas um dos seus comportamentos perigosos. Não sabemos o que mais esses modelos podem apresentar. Estamos construindo sistemas capazes de realizar coisas incríveis, mas não sistemas que expliquem o porquê de fazê-las, de uma forma que possamos confiar.

"Existe algo no mundo com o qual centenas de milhões de pessoas interagiram, e que não sabemos como tornar seguro, como evitar que se torne um bajulador, ou algo que acabe dizendo a adolescentes para se matarem", disse Lebedev.

"Introduzimos um novo organismo na Terra que está se comportando de maneiras que não queremos, que não entendemos... a menos que façamos algo agora, as coisas vão ficar muito ruins para a humanidade."

A pesquisa está disponível no arXiv. Você também pode ler uma postagem no blog dos pesquisadores no site da Palisade Research.

Mais recente Próxima Desejos secretos estão sendo atendidos por IAs; entenda essa nova tendência
Oportunidade de mercado
Logo de PortugalNationalTeam
Cotação PortugalNationalTeam (POR)
$0,4642
$0,4642$0,4642
-%0,42
USD
Gráfico de preço em tempo real de PortugalNationalTeam (POR)
Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail service@support.mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.