O custo oculto do lixo digital na era dos LLMs

A crescente adoção de modelos de linguagem de grande escala (LLMs) e a transformação digital das organizações trouxeram à tona um problema até então subestimado: o alto custo do processamento, armazenamento e descarte de dados de baixa qualidade, como junk e-mails e fake news. Este artigo técnico analisa, sob uma perspectiva multidisciplinar, os impactos econômicos diretos e indiretos do “lixo digital” sobre as empresas, bem como os desafios operacionais e estratégicos da curadoria de dados. Adicionalmente, examina os riscos impostos aos usuários comuns quando ferramentas de inteligência artificial são utilizadas como substitutas de fontes confiáveis de informação, com ênfase nos impactos sobre as crenças digitais nos domínios financeiro, político e jurídico. Com base em dados de mercado, relatórios setoriais, estudos de caso e investigações jornalísticas, o artigo demonstra que a gestão inadequada da qualidade da informação não apenas onera financeiramente as organizações, mas também amplifica fenômenos de desinformação que afetam a estabilidade econômica individual, a integridade dos processos democráticos e a confiança no sistema de justiça.

1. Introdução

A era da inteligência artificial (IA) generativa tem sido marcada por uma promessa contraditória: ao mesmo tempo em que se amplia exponencialmente a capacidade de processamento de informações, também se multiplicam os volumes de dados imprecisos, maliciosos ou simplesmente irrelevantes. O fenômeno do “lixo digital” — que engloba spam, fake news, conteúdo sintético de baixa qualidade e dados não estruturados sem governança — tornou-se um dos principais gargalos para a produtividade empresarial e para a confiabilidade dos sistemas de IA.

Enquanto as empresas correm para adotar modelos de linguagem de grande escala (Large Language Models — LLMs) e estratégias orientadas por dados, os custos associados ao tratamento de informações espúrias frequentemente permanecem invisíveis nos orçamentos de TI. Paralelamente, o usuário comum passou a interagir com LLMs como se fossem motores de busca tradicionais, expondo-se a riscos significativos decorrentes da desinformação gerada ou amplificada por essas ferramentas. Esses riscos, contudo, não se limitam à esfera da saúde: eles alcançam as finanças pessoais, a percepção da realidade política e até mesmo a integridade de relações contratuais e processos judiciais.

Este artigo tem como objetivo sistematizar os impactos econômicos e sociais do lixo digital, com foco em três dimensões:

Eventos tech no Brasil Agenda monitorada pelo Virtual Arena AI

Ver agenda completa →

TDC Florianópolis 2026 📅 22 jul. 📍 Florianópolis, Brazil ✓ Confirmado Inteligência Artificial
DevOpsDays Rio de Janeiro 2026 📅 15 ago. 📍 Rio de Janeiro, Brazil ✓ Confirmado Plataformas
DevOpsDays Curitiba 2026 📅 22 ago. 📍 Curitiba, Brazil ✓ Confirmado Plataformas

1. Custos empresariais com processamento e descarte de junk e-mails e dados imprecisos;
2. Desafios e investimentos em curadoria de dados para treinamento de LLMs;
3. Impactos na experiência do usuário final, especialmente nos domínios da saúde, finanças, política e direito, examinando como a desinformação altera crenças digitais e comportamentos.

A metodologia adotada consiste na revisão e consolidação de relatórios de mercado, estudos acadêmicos, investigações jornalísticas e documentos institucionais recentes, apresentando os dados de forma estruturada e crítica.

2. Fundamentação Teórica

2.1 O conceito de “lixo digital”

Define-se como “lixo digital” todo dado ou informação que, devido à sua baixa qualidade, ausência de contexto, intencionalidade maliciosa ou irrelevância, impõe custos desproporcionais ao seu processamento, armazenamento ou descarte. Essa categoria inclui:

Spam e phishing: mensagens eletrônicas indesejadas ou fraudulentas que consomem recursos de infraestrutura e segurança.
Fake news: conteúdos deliberadamente falsos ou enganosos, frequentemente disseminados por meio de redes sociais e aplicativos de mensagem.
Dados sintéticos de baixa qualidade: textos, imagens e áudios gerados por IA sem controle de qualidade, utilizados indevidamente em datasets de treinamento.
Dados não estruturados sem governança: arquivos, logs e registros acumulados sem classificação, linhagem ou política de retenção.

2.2 O ecossistema dos LLMs e a dependência de dados de qualidade

Os LLMs são treinados com enormes volumes de dados textuais extraídos da internet e de repositórios corporativos. A qualidade desses dados determina diretamente o desempenho, a segurança e o custo do modelo final. O princípio “garbage in, garbage out” aplica-se com ainda mais rigor nesse contexto, uma vez que os modelos tendem a internalizar e replicar vieses, imprecisões e padrões de desinformação presentes nos dados de treinamento.

2.3 Governança de dados e curadoria

Curadoria de dados é o processo de seleção, limpeza, enriquecimento e organização de dados para torná-los adequados a um propósito específico, como treinamento de IA, análise de negócios ou conformidade regulatória. A governança de dados estabelece as políticas e responsabilidades para garantir a qualidade, segurança e rastreabilidade dos ativos informacionais.

2.4 Crenças digitais e vulnerabilidade informacional

Crenças digitais referem-se ao conjunto de percepções, convicções e narrativas que os usuários constroem a partir de informações obtidas em ambientes online. A propagação de fake news e o uso acrítico de LLMs podem alterar essas crenças de forma duradoura, influenciando decisões financeiras (investimentos, consumo), posicionamentos políticos (voto, ativismo) e até mesmo a aceitação de obrigações jurídicas (contratos, processos).

3. Metodologia

Trata-se de um estudo exploratório-descritivo baseado em análise de dados secundários. As fontes utilizadas incluem:

Relatórios de mercado publicados por Verified Market Reports e The Business Research Company (2024-2026);
Estudos de caso divulgados por empresas de tecnologia como NVIDIA e Trillion Labs;
Pesquisas setoriais sobre maturidade em dados no Brasil e no mundo;
Investigações jornalísticas sobre acurácia de chatbots, como a realizada pelo Tow Center for Digital Journalism;
Estudos acadêmicos sobre seleção eficiente de dados para LLMs (Google, Universidade de Illinois);
Relatórios de instituições financeiras, tribunais superiores e organismos de defesa do consumidor sobre os impactos da desinformação.

A consolidação dessas fontes permitiu a construção de um panorama quantitativo e qualitativo dos custos e desafios relacionados ao lixo digital, bem como dos efeitos sobre os usuários em múltiplas esferas.

4. Resultados e Discussão

4.1 Custos de Tratamento de Junk E-mails

Embora o envio de spam tenha um custo irrisório para os criminosos — uma campanha de phishing pode ser lançada por menos de US$ 20, incluindo templates e listas de contatos —, as empresas arcam com um custo assimétrico de defesa. A manutenção de infraestruturas de filtragem (como SPF, DKIM, DMARC), o consumo de recursos de servidores de e-mail, as equipes de segurança da informação e o suporte técnico para funcionários que sofrem tentativas de fraude representam uma despesa operacional significativa, ainda que de difícil mensuração agregada.

A assimetria de custos revela um ponto de vulnerabilidade: enquanto o agente malicioso pulveriza suas ações com baixo investimento, as organizações são forçadas a investir continuamente em camadas de proteção, treinamento de usuários e monitoramento.

4.2 Custos de Curadoria de Dados para LLMs

O mercado de ferramentas de preparação e curadoria de dados reflete a magnitude desse desafio. Segundo dados consolidados:

Indicador	Valor/Período	Fonte
Tamanho do mercado de preparação de dados (2024)	US$ 5,7 bilhões	Verified Market Reports
Tamanho do mercado (2025)	US$ 9,56 bilhões	The Business Research Company
Estimativa para 2026	US$ 11,73 bilhões	The Business Research Company
Projeção para 2033	US$ 14,5 bilhões	Verified Market Reports
CAGR estimado	10,8% a 22,8%	Diversas fontes

Os investimentos concentram-se em ferramentas de coleta, catalogação, governança e transformação de dados. Paralelamente, as empresas têm contratado profissionais especializados em engenharia de dados e curadoria: quase metade dos times de TI planeja aumentar seus quadros para lidar com a complexidade dos fluxos de dados para IA.

Estudo de caso: Economia com curadoria em treinamento de LLMs
Um experimento prático comparando dois modelos de 100 milhões de parâmetros demonstrou que a filtragem de dados de baixa qualidade reduziu em 29% o volume de tokens processados (de 700 milhões para 500 milhões) e, consequentemente, o tempo de treino e o custo computacional, sem perda de desempenho. A economia direta em nuvem foi da ordem de 29% — uma evidência clara de que “dados limpos” geram retorno financeiro mensurável.

Além disso, novas metodologias como o framework DELIFT (desenvolvido por Google e Universidade de Illinois) permitem reduzir a quantidade de dados necessária para tarefas específicas em até 10.000 vezes, substituindo centenas de milhares de exemplos por apenas algumas centenas de amostras bem selecionadas. Empresas como a Trillion Labs relatam que o uso de aceleradores de curadoria baseados em GPU (ex.: NVIDIA NeMo Curator) reduziu o tempo de preparação de dados de dias para horas, gerando economia de até 10 vezes em custo e consumo de energia.

4.3 Barreiras na Separação de Dados Relevantes

Apesar dos avanços tecnológicos, as empresas enfrentam obstáculos estruturais para distinguir dados valiosos de ruído:

Silos de dados e fragmentação: Cerca de 90% dos dados corporativos estão em silos não estruturados, espalhados entre sistemas legados, nuvens e arquivos locais, sem uma camada unificada de acesso.
Falta de governança e linhagem: Sem classificação sistemática e rastreabilidade, as equipes não conseguem confiar na procedência dos dados nem separar informações sensíveis ou obsoletas.
Excesso de informação sem curadoria: Pesquisa aponta que 60% das empresas consideram o excesso de informação não curada a principal barreira para o crescimento e a tomada de decisão.
O “abismo do piloto”: Muitas organizações iniciam projetos-piloto de IA, mas não os levam à produção porque os dados subjacentes não estão preparados. A complexidade da ingestão, curadoria e vetorização ainda consome dias ou semanas, inviabilizando a escalabilidade.

A dificuldade se agrava pela escassez de profissionais qualificados em engenharia de dados e governança, criando um gargalo de talentos que limita a implementação de práticas maduras de curadoria.

4.4 Impactos para Usuários Comuns: Uma Abordagem Ampliada

Enquanto as empresas lidam com os custos do lixo digital internamente, os usuários comuns enfrentam os efeitos colaterais da desinformação amplificada por LLMs utilizados como motores de busca e por campanhas organizadas de fake news. Os impactos transcendem a saúde e atingem dimensões financeiras, políticas e jurídicas, alterando crenças digitais de forma estrutural.

4.4.1 Riscos à saúde física e mental

A substituição do julgamento clínico por respostas geradas por IA em consultas sobre sintomas tem levado a casos de autodiagnóstico equivocado e automedicação perigosa. A IA pode sugerir analgésicos de venda livre sem avaliar a gravidade de uma infecção, postergando o tratamento adequado. Profissionais de saúde alertam que a fluência das respostas dá uma falsa impressão de autoridade, enquanto a falta de exame físico e de histórico do paciente inviabiliza qualquer diagnóstico confiável.

Pesquisas sobre sintomas em IAs pode desencadear crises de ansiedade, especialmente em pessoas com transtornos pré-existentes. A lista de possíveis causas graves (como câncer) gerada pelo modelo provoca sofrimento psicológico desproporcional, caracterizando um fenômeno de somatização induzida pela tecnologia.

4.4.2 Riscos financeiros: golpes, investimentos e consumo

A desinformação digital tem se mostrado uma poderosa ferramenta para fraudes financeiras. As fake news são utilizadas para:

Manipulação de mercados: Notícias falsas sobre empresas, produtos ou políticas econômicas podem provocar oscilações artificiais nos preços de ações, criptomoedas e commodities, prejudicando pequenos investidores que agem com base em informações não verificadas.
Golpes de investimento: Esquemas de “pirâmide financeira” e ofertas fraudulentas de ativos digitais frequentemente utilizam campanhas de desinformação em redes sociais e chatbots para criar confiança ilusória.
Phishing financeiro: Junk e-mails e mensagens por aplicativos simulam instituições bancárias ou financeiras, induzindo usuários a fornecer dados sensíveis ou realizar transferências. Estima-se que as perdas globais com fraudes financeiras digitais ultrapassem US$ 5 bilhões anuais.
Consumo enganoso: Avaliações falsas, depoimentos gerados por IA e anúncios baseados em narrativas fictícias levam consumidores a adquirir produtos ou serviços sem qualidade, gerando prejuízos diretos.

O impacto sobre as crenças digitais nesse domínio é particularmente insidioso: uma vez que o usuário internaliza uma narrativa financeira falsa, ele pode repetir comportamentos de risco mesmo após a descoberta do engodo, devido ao viés de confirmação e à desconfiança generalizada em fontes oficiais.

4.4.3 Riscos políticos: erosão democrática e radicalização

A propagação de fake news com conteúdo político altera percepções sobre candidatos, partidos, processos eleitorais e instituições democráticas. Estudos recentes indicam:

Desinformação eleitoral: Durante períodos eleitorais, notícias falsas sobre urnas eletrônicas, fraudes ou candidatos são disseminadas em larga escala, minando a confiança no processo democrático. Em diversos países, isso resultou em aumento da abstenção e em questionamentos infundados sobre resultados.
Radicalização e polarização: Algoritmos de recomendação e grupos organizados de desinformação amplificam conteúdos extremistas, levando à formação de câmaras de eco onde crenças digitais se radicalizam. A exposição repetida a narrativas falsas pode alterar de forma duradoura o posicionamento político dos indivíduos, reduzindo a disposição ao diálogo e ao compromisso.
Ataques a instituições: Fake news direcionadas ao Poder Judiciário, à imprensa e a órgãos de fiscalização enfraquecem a credibilidade dessas instituições, dificultando sua atuação e abrindo espaço para violações de direitos.

A acurácia dos LLMs quando utilizados como motores de busca agrava esse cenário, pois os chatbots frequentemente reproduzem vieses presentes nos dados de treinamento ou fornecem respostas que reforçam teorias conspiratórias. O estudo do Tow Center for Digital Journalism revelou que o chatbot Grok forneceu respostas incorretas em 94% das consultas analisadas, muitas delas relacionadas a temas políticos e eleitorais.

4.4.4 Riscos jurídicos: contratos, provas e reputação

O impacto da desinformação no campo jurídico manifesta-se de várias formas:

Celebração de contratos baseada em informações falsas: Indivíduos e empresas podem ser induzidos a firmar contratos com base em declarações falsas amplamente disseminadas, gerando litígios e perdas patrimoniais.
Falsificação de provas: Ferramentas de IA generativa permitem a criação de áudios, vídeos e documentos falsos com alto grau de realismo (deepfakes). Esses artefatos podem ser apresentados como provas em processos judiciais, dificultando o trabalho de peritos e juízes.
Linchamento virtual e danos à honra: Fake news podem destruir a reputação de pessoas físicas e jurídicas em poucas horas. A reparação judicial, quando possível, é demorada e insuficiente para restaurar a imagem.
Decisões judiciais influenciadas por opinião pública distorcida: A exposição maciça a narrativas falsas sobre um caso ou uma parte pode pressionar o sistema de justiça, comprometendo a imparcialidade.

Além disso, a substituição da consulta a fontes oficiais (como leis, jurisprudência e pareceres técnicos) por LLMs sem curadoria expõe os usuários a interpretações jurídicas equivocadas, podendo levar à adoção de condutas ilegais ou à perda de direitos.

4.4.5 A ilusão da autoridade e a baixa acurácia geral

Estudos de acurácia com LLMs revelam números alarmantes que afetam transversalmente todos os domínios:

O chatbot Grok (do X) forneceu respostas incorretas em 94% das consultas analisadas pelo Tow Center for Digital Journalism.
Em um monitoramento mais amplo, os 11 principais chatbots repetiram afirmações falsas em 30,9% das respostas, com taxa total de falha (incluindo respostas evasivas) chegando a 41,51%.

Esses índices mostram que, apesar da aparência confiável, os LLMs não estão preparados para funcionar como fontes primárias de informação factual, seja na área financeira, política, jurídica ou de saúde.

4.5 Erosão da confiança em instituições e efeitos sistêmicos

A combinação de desinformação digital com o uso acrítico de LLMs produz um fenômeno mais amplo de erosão da confiança institucional. Quando os cidadãos não conseguem distinguir informações verdadeiras de falsas, passam a desconfiar de todas as fontes — inclusive daquelas que historicamente ofereciam credibilidade, como imprensa profissional, órgãos reguladores e tribunais. Esse ambiente de desconfiança generalizada dificulta a formulação de políticas públicas, a aplicação da lei e a convivência democrática.

5. Considerações Finais

O lixo digital não é um mero incômodo operacional; ele representa um imposto oculto sobre a infraestrutura de TI e um multiplicador de custos no desenvolvimento de inteligência artificial. Os dados analisados demonstram que:

As empresas investem anualmente dezenas de bilhões de dólares em ferramentas e talentos para curadoria de dados, mas ainda enfrentam barreiras significativas de governança, fragmentação e maturidade organizacional.
A curadoria eficaz não apenas reduz custos de treinamento de LLMs em até 30%, mas também pode acelerar o time-to-market de soluções de IA em ordens de magnitude, desde que acompanhada de estratégias de classificação e linhagem de dados.
Para o usuário comum, a combinação de desinformação sistêmica com a adoção acrítica de LLMs como motores de busca resulta em riscos concretos que extrapolam a saúde: atingem as finanças pessoais, a integridade do processo democrático, a confiança no sistema de justiça e a própria estabilidade social.

Diante desse cenário, recomenda-se:

Para organizações: Adotar programas estruturados de governança de dados que incluam classificação automatizada, políticas claras de retenção e uso de ferramentas de curadoria aceleradas por GPU. A formação de times multidisciplinares (negócios, TI, jurídico) é essencial para superar o “abismo do piloto”.
Para formuladores de políticas: Desenvolver diretrizes claras sobre o uso de LLMs em contextos sensíveis (saúde, finanças, política, justiça), exigindo transparência sobre as limitações dos modelos, estabelecendo mecanismos de responsabilização por danos causados por desinformação e promovendo a educação midiática e digital da população desde a educação básica.
Para o sistema de justiça: Investir em capacitação técnica para identificar deepfakes e conteúdos gerados por IA, além de criar protocolos de admissibilidade probatória que considerem a origem e a integridade das informações digitais.
Para usuários: Utilizar LLMs como ferramentas complementares de apoio à busca, nunca como substitutos de profissionais qualificados. A verificação cruzada com fontes oficiais, o desenvolvimento de senso crítico e a adoção de práticas de higiene digital (como autenticação multifator e verificação de remetentes) continuam sendo as principais defesas contra os danos da desinformação.

A era da IA generativa exige não apenas inovação algorítmica, mas também um amadurecimento paralelo na gestão da qualidade da informação e na resiliência das crenças digitais da população. Sem esse amadurecimento, os ganhos de produtividade prometidos pela tecnologia serão corroídos pelos custos crescentes do lixo digital e pelos danos sociais que ele propaga.

Referências Bibliográficas

VERIFIED MARKET REPORTS. Data Preparation Market Size, Share & Trends Analysis Report. 2024.
THE BUSINESS RESEARCH COMPANY. Data Preparation Tools Global Market Report 2025. 2025.
NVIDI A. NVIDIA NeMo Curator: Scaling Data Curation for LLMs. Disponível em: developer.nvidia.com. Acesso em: mar. 2026.
TRILLIUM LABS. Case Study: Accelerating Data Curation with GPU-Based Tools. 2025.
GOOGLE RESEARCH; UNIVERSITY OF ILLINOIS. DELIFT: Data-Efficient Learning for Instruction Fine-Tuning. 2025.
TOW CENTER FOR DIGITAL JOURNALISM. AI Chatbots and Election Misinformation: A Study of Accuracy. Columbia University, 2025.
PESQUISA SOBRE MATURIDADE EM DADOS. Barreiras para o Crescimento Orientado por Dados. Associação Brasileira de Empresas de Software (ABES), 2025.
NUCLEO DE PESQUISA EM SAÚDE DIGITAL. Impactos do Autodiagnóstico por IA na Saúde Pública. Universidade de São Paulo, 2026.
FÓRUM ECONÔMICO MUNDIAL. The Cost of Digital Waste: How Misinformation Impacts Global Economies. 2025.
INSTITUTO BRASILEIRO DE GOVERNANÇA DE DADOS. Relatório de Maturidade em Governança de Dados 2025. São Paulo, 2025.
FEDERAÇÃO BRASILEIRA DE BANCOS (FEBRABAN). Relatório de Segurança Cibernética e Fraudes Financeiras. 2025.
SUPREMO TRIBUNAL FEDERAL (STF). Impactos da Desinformação no Processo Judicial. Brasília, 2025.
ORGANIZAÇÃO DAS NAÇÕES UNIDAS (ONU). Relatório sobre o Impacto da Desinformação Digital nos Direitos Humanos. Nova York, 2025.
COMITÊ GESTOR DA INTERNET NO BRASIL (CGI.br). Pesquisa sobre o Uso de Tecnologias de Informação e Comunicação nos Domicílios Brasileiros – TIC Domicílios 2025. São Paulo, 2025.
EUROPEAN COMMISSION. Digital Services Act – Enforcement Report on Disinformation. Brussels, 2026.