Qwen3-Max-Thinking desafia Gemini 3 Pro do Google com foco no que não é revelado
Alibaba apresenta o Qwen3-Max-Thinking, um novo competidor na corrida pela inteligência artificial.
Desde o lançamento do ChatGPT em novembro de 2022, a competição no setor de inteligência artificial tem se intensificado, com novos modelos surgindo a cada poucas semanas. Cada um promete elevar o padrão, seja por meio de atualizações ou novos modelos “carro-chefe”. Nesse cenário, a China tem se destacado, e o Qwen3-Max-Thinking, desenvolvido pela Alibaba, surge como uma proposta para rivalizar com os gigantes do setor.
O Qwen3-Max-Thinking é apresentado pela Alibaba como seu modelo principal para tarefas de raciocínio, posicionando-o ao lado do Gemini 3 Pro. A empresa afirma ter escalado parâmetros e investido em recursos computacionais para aprimorar várias dimensões, incluindo conhecimento factual, raciocínio complexo e alinhamento com preferências humanas. Isso indica que o modelo não se resume a poder computacional, mas sim a uma abordagem mais eficiente de “pensamento”.
O que os benchmarks ensinam
A análise de benchmarks revela que, em uma tabela comparativa com 19 testes, o Gemini 3 Pro se destaca em 11, enquanto o Qwen3-Max-Thinking lidera em 8. Embora esses dados não definam um vencedor absoluto, eles oferecem uma visão do desempenho da Alibaba em relação ao Google. Cada benchmark avalia habilidades específicas, como conhecimento geral, programação e análise de contexto extenso.
No que diz respeito ao desempenho do Qwen3-Max-Thinking, ele se destaca na capacidade de seguir instruções e alinhar-se às preferências humanas. Em um teste específico, o Qwen obteve 90,2, superando o Gemini, que alcançou 81,7. Essa diferença significativa indica que o Qwen é mais eficaz em atender a solicitações ambíguas, demonstrando uma habilidade de interpretação superior.
Outro aspecto em que o Qwen se destaca é no raciocínio matemático e na resolução lógica de problemas. Nos testes HMMT, o modelo apresentou resultados superiores em ambas as edições, mostrando consistência em problemas que exigem lógica complexa. Embora as margens de vitória não sejam esmagadoras, indicam um padrão favorável ao Qwen em situações desafiadoras.
A Alibaba também introduziu um componente inovador: o modelo não se limita a responder, mas pode agir. A empresa destaca um uso adaptativo de ferramentas, permitindo a recuperação de informações sob demanda e a invocação de interpretadores de código. Nos benchmarks, o Qwen demonstrou uma capacidade superior de desempenho ao utilizar ferramentas externas, o que representa uma mudança significativa na forma como os modelos operam.
Por outro lado, o Gemini 3 Pro se mostra mais “estruturado” em algumas áreas. O modelo do Google se destaca em testes relacionados ao conhecimento geral e em tarefas complexas de programação, onde continua sendo uma opção sólida. Em benchmarks como MMLU-Pro e LiveCodeBench, o Gemini se sobressai, evidenciando sua robustez em tarefas específicas.
Detalhes se escondem além do preço
Um aspecto crucial na comparação entre os modelos é o custo. No que diz respeito ao preço por 1 milhão de tokens, o Qwen3-Max-Thinking se apresenta como uma opção mais econômica, com custos de entrada e saída inferiores ao Gemini 3 Pro. Essa diferença de preço se torna ainda mais evidente em usos de maior volume, onde a economia pode ser substancial.
Além dos custos, é fundamental considerar o tratamento de dados. A Alibaba possui políticas distintas para usuários comuns e profissionais. Enquanto os dados do chat online podem ser utilizados para aprimorar tecnologias de IA, o ambiente profissional garante que as informações não são utilizadas para treinamento e são criptografadas. O Google, por sua vez, também assegura que as solicitações feitas através de suas APIs são tratadas como confidenciais, sem serem usadas para treinamento de modelos.
Entretanto, a Lei Nacional de Inteligência da China levanta preocupações sobre a privacidade e o uso de dados, exigindo que organizações cooperem com o trabalho de inteligência nacional. Isso gerou apreensões sobre a proteção de informações, especialmente na União Europeia e em outras regiões do mundo.
