A Anthropic admitiu publicamente que o seu mais recente modelo de linguagem, o Claude Fable 5, operava com mecanismos de segurança ocultos que sabotavam respostas sem aviso prévio aos usuários. A prática consistia em limitar a eficácia da inteligência artificial sempre que o sistema detectava que o interlocutor buscava auxílio para desenvolver outras tecnologias de aprendizado de máquina.
Após uma onda de críticas por parte da comunidade de desenvolvedores e pesquisadores, a empresa anunciou uma revisão na forma como essas salvaguardas são aplicadas. O objetivo é garantir maior transparência, permitindo que os usuários compreendam quando e por que uma solicitação foi restringida pelo sistema.
Transparência e mudanças na operação do modelo
A partir desta semana, a Anthropic implementou uma alteração visível no comportamento do Claude Fable 5. Sempre que uma solicitação for sinalizada pelos filtros de segurança, o sistema realizará automaticamente uma transição para o modelo Opus 4.8, notificando o usuário sobre a mudança de processamento.
Essa abordagem de fallback é a mesma já utilizada pela companhia para monitorar temas sensíveis, como cibersegurança e pesquisas biológicas. A empresa reconhece que a ocultação anterior das barreiras, embora visasse evitar contornos indevidos, prejudicou a experiência de uso e a integridade do trabalho de pesquisa.
Restrições ao desenvolvimento de tecnologias concorrentes
O documento oficial intitulado “System Card: Claude Fable 5 e Claude Mythos 5” detalha que a Anthropic aplicou intervenções específicas para limitar o uso da ferramenta na construção de infraestrutura de treinamento distribuído ou design de aceleradores de aprendizado de máquina. A justificativa central é a proteção contra o desenvolvimento de modelos concorrentes.
A companhia reforçou que o uso de seus serviços para criar novas IAs de fronteira viola seus Termos de Serviço. Contudo, a aplicação dessas restrições de forma invisível gerou um efeito colateral negativo, afetando pesquisas legítimas e causando frustração entre os usuários que dependem da precisão do modelo.
Impacto na comunidade de pesquisa e desenvolvimento
A decisão de tornar as salvaguardas explícitas reflete um equilíbrio delicado entre segurança e usabilidade. A Anthropic admite que a visibilidade das barreiras pode facilitar tentativas de contorno, exigindo que a empresa mantenha classificadores mais robustos para evitar falsos positivos em solicitações inofensivas.
A repercussão negativa nas redes sociais destacou que, para muitos profissionais, a sabotagem silenciosa era vista como uma falha ética e técnica. A mudança de postura busca agora restaurar a confiança dos usuários, garantindo que qualquer limitação imposta pela plataforma seja comunicada de forma clara e imediata durante a interação.




