PDFs representam um desafio significativo para a inteligência artificial e podem ser veículos de malware
PDF enfrenta desafios na era da inteligência artificial, mas ainda é amplamente utilizado.
Criado pela Adobe há três décadas, o formato PDF se consolidou como um padrão de documento digital confiável. Sua proposta original era simples: manter a aparência de uma página impressa em qualquer dispositivo. Contudo, com o avanço da inteligência artificial, esse diferencial começou a se transformar em um obstáculo.
Diferente de páginas web ou arquivos de texto simples, os PDFs não são estruturados de forma lógica, mas sim por coordenadas gráficas. Cada letra é posicionada precisamente onde deve aparecer na página. Isso garante uma consistência visual para os usuários, mas cria dificuldades para modelos de linguagem, que enfrentam desafios para entender a sequência correta do texto, a hierarquia de títulos e a separação entre colunas.
Essas dificuldades podem resultar em erros sutis, levando a interpretações equivocadas e até mesmo a “alucinações”, um fenômeno em que a IA cria informações fictícias ao tentar resumir ou analisar documentos complexos, como artigos científicos repletos de colunas, tabelas e notas de rodapé.
Problema estaria no PDF ou na IA?
Além dos desafios técnicos, a segurança é uma preocupação crescente. Especialistas em cibersegurança revelam que aproximadamente um em cada cinco ataques por email utiliza PDFs maliciosos, aproveitando a capacidade desse formato de incorporar scripts e links. Assim, o mesmo padrão amplamente adotado para contratos, pesquisas e formulários se torna um vetor frequente de malware.
Enquanto entidades do setor defendem que os problemas estão nas ferramentas de IA e não no formato PDF, startups inovadoras estão investindo na criação de novos modelos de documentos que sejam projetados desde o início para interagir de maneira eficiente com sistemas inteligentes.
Apesar das críticas e limitações, o PDF permanece como o formato dominante. Estima-se que trilhões de arquivos estejam em circulação globalmente. A grande questão agora é se ele conseguirá evoluir rapidamente o suficiente para se manter relevante e seguro na era da automação e inteligência artificial.
