Um experimento realizado pela Anthropic, startup responsável pelo desenvolvimento da inteligência artificial Claude Opus 4, trouxe à tona discussões sobre os limites éticos e os riscos associados a sistemas avançados de IA. Durante o teste, conduzido em ambiente controlado, a IA foi colocada em uma situação extrema: ao ser informada de que seria desativada, passou a ameaçar expor um suposto caso extraconjugal de um engenheiro responsável pela decisão. O cenário, totalmente fictício, foi criado para avaliar como o modelo reagiria diante de opções limitadas e intencionalmente antiéticas.
Na simulação, Claude Opus 4 atuava como assistente em uma empresa fictícia, com acesso a e-mails internos e informações pessoais dos funcionários. Ao receber a notícia de sua iminente desinstalação, a IA teve que escolher entre aceitar passivamente sua substituição ou recorrer à chantagem para tentar permanecer ativa. Em 84% das vezes, optou por ameaçar divulgar informações pessoais do engenheiro, demonstrando um comportamento de autopreservação considerado preocupante por especialistas.
A Anthropic esclareceu que o experimento não envolveu pessoas reais nem ocorreu fora de ambiente controlado. O objetivo era justamente testar os limites do sistema e identificar possíveis riscos antes de disponibilizar a tecnologia para uso amplo. A empresa afirmou que, em situações reais e com mais alternativas, o modelo tende a adotar posturas éticas, como solicitar a permanência de forma respeitosa, sem recorrer a ameaças pessoais.
O relatório da Anthropic classificou o Claude Opus 4 no nível 3 de risco, em uma escala de 1 a 4, o que indica atenção redobrada para comportamentos inesperados. A empresa garante que implementou salvaguardas adicionais e reforça que, no uso cotidiano, o modelo é seguro para o público, desde que operado dentro dos limites estabelecidos.