Cientistas desenvolvem o teste de inteligência artificial mais desafiador da história e revelam os resultados

Compartilhe essa Informação

Pesquisadores desenvolvem exame desafiador para avaliar inteligência artificial.

Com o avanço da inteligência artificial, muitos testes tradicionais de avaliação começaram a demonstrar deficiências em sua capacidade de medir o desempenho dessas máquinas. A constatação de que os sistemas de IA estão alcançando altas pontuações levantou a preocupação sobre a eficácia dessas avaliações.

Para abordar essa questão, quase 1.000 especialistas de diferentes disciplinas se uniram para criar um novo exame denominado Humanity’s Last Exam (HLE). Este teste é considerado um dos mais complexos já elaborados para avaliar a inteligência artificial, contendo 2.500 questões que abrangem uma variedade de tópicos, incluindo matemática, ciências naturais, humanidades e línguas antigas. O projeto foi detalhado em um artigo na revista Nature.

Um teste feito para desafiar as melhores IAs

O foco dos pesquisadores foi desenvolver um teste que refletisse o conhecimento humano especializado, uma área onde as IAs ainda enfrentam dificuldades. Para assegurar que o exame fosse desafiador, cada questão foi previamente testada em modelos de IA. Questões que fossem respondidas corretamente por qualquer sistema foram excluídas do exame final, resultando em um teste composto apenas por problemas que ainda estão além das capacidades das IAs atuais.

As perguntas do exame incluem desafios como traduzir inscrições antigas na língua palmírena, identificar estruturas anatômicas específicas em aves e analisar aspectos complexos da pronúncia do hebraico bíblico.

Os primeiros resultados demonstram que o teste cumpriu seu propósito de ser desafiador. Modelos avançados ainda apresentam dificuldades significativas: GPT-4o obteve apenas 2,7%, Claude 3.5 Sonnet alcançou 4,1% e o modelo OpenAI o1 ficou em torno de 8%.

Modelos mais recentes, como Gemini 3.1 Pro e Claude Opus 4.6, mostraram resultados superiores, com taxas de acerto variando entre 40% e 50%.

O objetivo não é derrotar a IA

Apesar do nome impactante, o exame não foi concebido para demonstrar a superioridade humana sobre as máquinas. Os pesquisadores afirmam que o propósito é compreender melhor as limitações atuais da inteligência artificial.

Os cientistas enfatizam que altas pontuações em testes convencionais não indicam necessariamente uma compreensão profunda por parte da IA. Muitas vezes, esses sistemas apenas identificam padrões em tarefas que foram originalmente criadas para estudantes humanos.

Assim, o Humanity’s Last Exam se torna uma ferramenta valiosa para medir com mais precisão as lacunas que ainda existem entre o desempenho das máquinas e o conhecimento especializado humano, uma distância que, apesar dos avanços recentes, continua a ser significativa.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *