Gartner prevê redução de 90% nos preços de inferências de IA até 2030
Redução de custos em modelos de linguagem promete transformação no setor de IA até 2030.
Realizar inferências em um grande modelo de linguagem (LLM) com um trilhão de parâmetros terá uma redução de custos de mais de 90% até 2030, em comparação com os preços praticados em 2025, para os provedores de IA generativa. Essa previsão é impulsionada por inovações em hardware e pela eficiência dos novos modelos desenvolvidos para o setor.
As melhorias de custo serão impulsionadas por uma combinação de avanços na eficiência de semicondutores e infraestrutura, inovações no design de modelos, maior utilização dos chips, aumento do uso de silício especializado para inferência e a aplicação de dispositivos de borda para casos de uso específicos. Essas mudanças representam um grande avanço na capacidade de processamento e na redução de despesas operacionais.
Estima-se que os LLMs em 2030 serão até 100 vezes mais eficientes em termos de custo do que os primeiros modelos de tamanho similar desenvolvidos em 2022. Esses ganhos consideram um cenário em que todo o processamento dos modelos ocorre utilizando chips de ponta, contrastando com um cenário que mescla hardware moderno e legado.
Embora a redução de custos pareça uma boa notícia, pode não ser totalmente benéfica para os clientes corporativos. A tecnologia exigirá significativamente mais tokens do que as aplicações convencionais atuais, o que pode impactar o repasse de economia aos usuários finais.
Modelos agênticos, por exemplo, exigem de 5 a 30 vezes mais tokens por tarefa em comparação a um chatbot padrão, além de serem capazes de executar uma gama muito maior de tarefas. Essa demanda crescente por tokens pode levar a um aumento desproporcional nas despesas para as empresas que utilizam IA generativa.
Os Chief Product Officers (CPOs) devem estar atentos para não confundir a deflação de tokens básicos com a democratização do raciocínio avançado. Embora a inteligência comoditizada se aproxime de um custo quase nulo, a capacidade computacional e os sistemas necessários para suportar raciocínios mais complexos continuam a ser escassos e valiosos.
