Bots de inteligência artificial estão causando um caos nos sites acadêmicos e de notícias, gerando interrupções e levantando sérias questões sobre o uso de dados para treinar IAs generativas. Recentemente, plataformas cruciais como o DiscoverLife e o BMJ foram atingidas por picos de tráfego sem precedentes.
A internet está enfrentando uma nova forma de invasão digital. Não são hackers ou malware tradicionais, mas sim uma armada de bots de inteligência artificial que estão varrendo a web em busca de dados para treinar os modelos de IA mais avançados do mundo. O resultado? Sites de notícias e bases de dados científicas estão sendo literalmente sobrecarregados, comprometendo o acesso de usuários legítimos ao conhecimento.
91% das instituições entrevistadas relataram picos recentes de tráfego, majoritariamente atribuídos a bots que ignoram as regras éticas da web. Essa enxurrada de acessos tem sérios efeitos colaterais:
- Sites saem do ar, simulando ataques DDoS.
- Acervos se tornam inacessíveis para o público humano.
- Equipes técnicas, já reduzidas, ficam sobrecarregadas tentando conter o problema.
Até mesmo o protocolo robots.txt, criado para proteger arquivos da raspagem automática, está sendo desrespeitado. Recentemente, a Universidade da Carolina do Norte teve seu sistema instável por dias devido à ação desses bots.
A Nova Realidade dos Números
Os dados são alarmantes. Pela primeira vez em uma década, o tráfego automatizado de bots superou o tráfego humano na internet, representando 51% de todo o tráfego web em 2024. Esse marco histórico não é coincidência - é o resultado direto da explosão dos grandes modelos de linguagem (LLMs) e da corrida desenfreada por dados de treinamento.
No primeiro trimestre de 2025, o tráfego de bots especializados em recuperação de dados cresceu impressionantes 49% comparado ao último trimestre de 2024. Esses números revelam uma transformação fundamental na natureza da internet que conhecemos.
Para a comunidade científica, o impacto é ainda mais grave. O acesso ao conhecimento científico é fundamental para o progresso da humanidade. Quando bases de dados acadêmicas ficam sobrecarregadas, pesquisadores do mundo todo são prejudicados, potencialmente atrasando descobertas
Ameaça ao Acesso Público e à Preservação Cultural
A corrida por dados para treinar IAs não pode atropelar o direito coletivo ao conhecimento e à preservação cultural. É crucial debater e encontrar soluções para garantir que nossos tesouros culturais permaneçam acessíveis a todos.
Sites Acadêmicos Sob Ataque
O DiscoverLife, que abriga quase três milhões de fotografias de espécies, viu seus acessos diários dispararem para milhões – um volume muito acima do normal. Esse aumento drástico tem resultado em lentidão e, por vezes, na inacessibilidade completa do site.
Os bots, que são programas automatizados projetados para coletar conteúdo de sites, estão se tornando um problema cada vez maior para editoras acadêmicas e pesquisadores. Andrew Pitts, executivo da PSI, destaca que o volume excessivo de solicitações está sobrecarregando os sistemas, elevando custos e prejudicando o acesso de usuários legítimos.
O Desafio de Bloquear os Bots
Mesmo com os esforços para bloquear esses bots, a tarefa é complexa, especialmente para organizações com recursos limitados. A corrida por dados para treinar IAs está impactando diretamente a capacidade de acesso e a estabilidade de importantes repositórios de conhecimento.