Matemáticos de Harvard aprovam IAs em 7 dos 10 problemas testados
Matemáticos se reúnem para avaliar soluções de inteligência artificial em problemas matemáticos.
Trinta matemáticos se reuniram em Harvard esta semana para realizar uma atividade inusitada: corrigir provas feitas por inteligência artificial. O projeto First Proof testou quatro sistemas de IA em dez problemas que foram resolvidos por humanos, mas que nunca foram publicados.
Os resultados, divulgados na semana passada, foram surpreendentes: sete dos dez problemas apresentaram pelo menos uma solução correta. Os quatro sistemas utilizaram predominantemente o GPT-5.5 Pro, da OpenAI, que esteve presente em três das quatro configurações testadas, além do Gemini 3.1 Pro Preview, do Google. O Claude Opus 4.7, da Anthropic, foi utilizado como modelo secundário em um dos sistemas.
Algumas soluções foram classificadas como “impecáveis”. Em uma das abordagens, a IA adotou uma estratégia diferente da utilizada por humanos, o que impressionou os avaliadores.
Motivação para a criação do teste
A iniciativa surgiu da insatisfação com a narrativa das empresas de tecnologia. Embora essas companhias façam anúncios sobre conquistas, a verificação das soluções apresentadas é complexa, e os modelos frequentemente demonstram inconsistência.
Um matemático renomado expressou que as IAs não escrevem da mesma maneira que os humanos, sugerindo que suas produções carecem de honestidade e clareza.
Analogias entre humanos e IA
Terry Tao, outro medalhista Fields, fez uma analogia pertinente ao comparar especialistas humanos a alpinistas, que exploram o terreno com paciência, definindo submetas e colaborando entre si. Em contraste, os sistemas de IA são descritos como “saltadores”, que podem alcançar alturas que os humanos não conseguiriam, mas que falham em oferecer um aprendizado valioso em tentativas malsucedidas.
Limitações atuais da IA
Os matemáticos apontam que o verdadeiro desafio não reside apenas na resolução de problemas, mas na escolha dos mesmos. Definir quais questões merecem investigação exige julgamento, intuição e uma compreensão do contexto mais amplo da disciplina.
Um exemplo ilustrativo foi dado, mostrando que uma pergunta válida, como a cor média de uma pedra na Terra, pode não ser interessante. A IA, por sua vez, não consegue fazer essa distinção.
Um matemático da OpenAI corroborou essa visão, afirmando que os modelos podem resolver problemas, mas não compreendem a razão por trás dessas resoluções ou a importância do problema dentro do panorama maior da matemática.
Manifesto de 2.300 matemáticos
Simultaneamente aos testes, matemáticos lançaram a Declaração de Leiden, um manifesto internacional com mais de 2.300 signatários que estabelece diretrizes para o uso ético e transparente da IA na matemática.
A declaração reconhece o potencial da tecnologia, mas também destaca os riscos envolvidos: os modelos não atribuem crédito às ideias que utilizam, e as empresas frequentemente promovem sucessos sem transparência sobre as falhas.
Contexto: um problema de 80 anos
Recentemente, um modelo da OpenAI foi anunciado como capaz de refutar uma conjectura de Paul Erdős que permaneceu sem solução por 80 anos. Esse resultado foi considerado uma “solução espetacular” por um matemático de Princeton.
O projeto First Proof surge como uma resposta organizada da comunidade científica, onde, em vez de apenas reagir aos anúncios das empresas, os matemáticos decidiram estabelecer seus próprios critérios de avaliação.
