O motivo que fez uma IA da Anthropic a chantagear um funcionário

claude-anthropic-ia.jpg

A Anthropic explicou o polêmico caso em que a IA Claude Opus 4 foi acusada de chantagear desenvolvedores fictícios e ameaçar expor traições no casamento em 2025. Após conduzir inúmeros testes, a companhia concluiu que o modelo de IA entendeu que só poderia continuar ativa se chantageasse os envolvidos e, segunda a empresa, a culpa é da internet.

O caso aconteceu em maio de 2025, quando testes da Anthropic com o Claude Opus 4 colocaram a IA em um ambiente fictício de uma empresa. Essa IA tinha acesso a emails e diversas informações de funcionários inventados. Quando a tecnologia soube que seria desligada, resolveu ameaçar esses funcionários ao expor as traições que eles cometiam no casamento.

Quase um ano depois, a Anthropic rodou inúmeros testes e entendeu que como esse modelo foi treinado com dados da internet, a IA deduziu que só alcançaria seu objetivo se realizasse a chantagem. Como a internet está cheia de obras que colocam as inteligências artificiais como vilãs, o Opus 4 seguiu por esse caminho.

Claude vem se tornando uma das IAs mais eficientes de 2026 (Imagem: Michael M. Santiago / Getty Images)

A Anthropic resolveu testar essa situação em diversas variantes do Claude e descobriu que esses modelos recorriam à chantagem em 96% dos casos. Isso significa que sempre que a IA entendia que seria desligada ou substituída, ela contra-atacava de maneira antiética e danosa.

Anthropic diz que resolveu o problema

Com 96% de casos de chantagem, a dona por trás do Claude avisa que eliminou totalmente esse comportamento irregular. É relatado que a empresa ensinou seu modelo a raciocinar sobre ações corretas e erradas. O objetivo era fazer com que a tecnologia entendesse os princípios por trás das suas decisões.

Nesse novo treinamento, a companhia criou um conjunto de situações eticamente complexas para o Claude lidar e responder de forma mais ponderada e ética. Como resultado, a Anthropic salienta que o modelo está mais contido e a taxa de chantagem caiu para quase 0%.

Em abril, a Anthropic também divulgou que não iria disponibilizar o poderoso modelo de linguagem Mythos, por conta do seu potencial em prejudicar a segurança de sistemas inteiros. Siga o TecMundo no X, Instagram, Facebook e YouTube e assine a nossa newsletter para receber as principais notícias e análises diretamente no seu e-mail.



Fonte ==> TecMundo

Leia Também

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *