Falha no Cloudflare Derruba ChatGPT e Outros Serviços; Causa Apontada para Problema no Sistema de Gerenciamento de Bots

Uma postagem no blog do cofundador e CEO da Cloudflare, Matthew Prince, detalhou a causa da “pior interrupção desde 2019”. O problema foi atribuído a uma falha no sistema de Gerenciamento de Bots, responsável por controlar quais crawlers automatizados têm permissão para rastrear sites que utilizam a CDN da empresa. A Cloudflare afirmou que cerca de 20% da web passa por sua rede, projetada para distribuir a carga e manter os sites online diante de picos de tráfego e ataques DDoS. No entanto, a falha recente desconectou muitos serviços, derrubando desde o X (antigo Twitter) até o ChatGPT e o Downdetector por várias horas, assemelhando-se a interrupções recentes causadas por problemas no Microsoft Azure e Amazon Web Services.

O sistema de controle de bots da Cloudflare tem como objetivo lidar com problemas como a coleta de informações por crawlers para treinar IA generativa. Recentemente, a empresa anunciou um sistema que utiliza IA Generativa para construir o “AI Labyrinth”, uma nova abordagem para mitigar e confundir crawlers de IA e outros bots que não respeitam as diretivas de não rastreamento.

De acordo com Prince, a causa raiz do problema foi uma mudança no comportamento de consulta do ClickHouse, que gerou um grande número de linhas duplicadas. O arquivo de configuração do modelo de aprendizado de máquina por trás do Gerenciamento de Bots, usado para identificar solicitações automatizadas, cresceu rapidamente e excedeu os limites de memória, derrubando o sistema proxy principal que processa o tráfego para os clientes que dependem do módulo de bots.

Empresas que utilizam as regras da Cloudflare para bloquear certos bots retornaram falsos positivos e cortaram tráfego legítimo, enquanto clientes que não utilizam a pontuação de bots gerada em suas regras permaneceram online. A Cloudflare listou quatro medidas para evitar que esse tipo de problema se repita:

* Reforçar a ingestão de arquivos de configuração gerados pela Cloudflare da mesma forma que faria para entradas geradas pelo usuário.
* Habilitar mais “kill switches” globais para recursos.
* Eliminar a capacidade de despejos de memória ou outros relatórios de erros sobrecarregarem os recursos do sistema.
* Revisar os modos de falha para condições de erro em todos os módulos proxy principais.