Críticos questionam promessas da Anthropic sobre o Claude Mythos

Compartilhe essa Informação

Claude Mythos Preview gera debates sobre suas reais capacidades na cibersegurança.

O Claude Mythos Preview, modelo de inteligência artificial desenvolvido pela Anthropic, tem sido amplamente discutido no setor de tecnologia, especialmente no contexto da cibersegurança. Apesar das alegações da empresa sobre suas capacidades impressionantes, especialistas estão questionando se realmente representa uma evolução significativa em relação a seus antecessores.

Gary Marcus, um conhecido empreendedor e analista, levantou três pontos que colocam em dúvida a narrativa da Anthropic sobre o Mythos. Ele mencionou críticas provenientes de engenheiros de software e especialistas em cibersegurança que desafiam a ideia de que o modelo é uma revolução no campo. Segundo ele, a forma como o Mythos foi apresentado pode ser interpretada como uma estratégia para gerar expectativa e hype em torno do produto.

A Anthropic divulgou um estudo que descreve o Claude Mythos como uma ferramenta extraordinária para a cibersegurança, alertando que, se mal utilizado, pode ser extremamente perigoso. No entanto, as análises indicam que muitas das vulnerabilidades identificadas pelo modelo são variações de apenas dois bugs conhecidos, o que diminui a percepção de sua eficácia real.

Além disso, um usuário da plataforma X criticou a utilização do Cybench como referência para medir a eficácia em cibersegurança, apontando que modelos anteriores, como o Opus 4.6, demonstraram resultados semelhantes. Essa escolha de benchmarks foi considerada por alguns como não representativa dos desafios reais que os modelos de IA enfrentam atualmente.

O cofundador da Hugging Face, Clement Delangue, compartilhou sua experiência, afirmando que sua equipe conseguiu detectar as mesmas vulnerabilidades do Mythos utilizando modelos menores e mais acessíveis, ao isolar o código relevante. Isso levanta questões sobre a real superioridade do Mythos em relação a outras soluções disponíveis no mercado.

Um aspecto importante a ser considerado é o viés do observador, uma vez que as análises feitas pela Hugging Face foram influenciadas pelo conhecimento prévio das vulnerabilidades encontradas pelo Mythos. Embora o modelo da Anthropic possa ser mais eficiente em detectar falhas complexas, isso se deve em parte ao seu tamanho e design avançado.

De acordo com o Epoch Capabilities Index, que avalia modelos de IA com base em vários benchmarks, o desempenho do Mythos é notável, mas não tão revolucionário quanto se poderia esperar. A linguagem utilizada pela Anthropic em suas comunicações tem sido interpretada como uma estratégia de marketing que gera medo e incerteza sobre a concorrência, semelhante a táticas usadas no passado por outras empresas do setor.

Os resultados dos benchmarks da Anthropic mostram avanços significativos em algumas áreas, mas em outras, a evolução não é tão impressionante. Comparações com o Epoch Capabilities Index revelam que, embora o Mythos tenha um desempenho superior, a margem em relação aos concorrentes não é tão ampla quanto a empresa sugere.

O lançamento do Claude Mythos Preview atraiu atenção significativa, e a documentação associada apresenta um modelo de IA que parece promissor. Contudo, a falta de acesso público ao modelo limita a capacidade de validação independente de suas capacidades, levando a um cenário onde a confiança nas afirmações da Anthropic é a única opção disponível para o público.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *