Apagão do WhatsApp: o que causou a pane nos serviços do Facebook
Após o apagão que tirou do ar os aplicativos do Facebook por sete horas nesta segunda-feira, 4, a empresa de Mark Zuckerberg veio a público com algumas explicações sobre o problema. Segundo a companhia, a pane global foi causada por erro interno durante um “trabalho de manutenção de rotina” e não foram encontradas evidências de que dados de usuários foram comprometidos.
Na terça-feira, 5, Santosh Janardhan, vice-presidente de engenharia e infraestrutura do Facebook, fez uma publicação no site da empresa com detalhes técnicos sobre o apagão. De acordo o executivo, a interrupção foi causada pelo sistema que gerencia a estrutura de “backbone” da rede social, que é uma espécie de espinha dorsal de comunicação do Facebook com a internet do mundo todo.
“O backbone é a rede que o Facebook construiu para conectar todas as nossas instalações de computação, que consistem em dezenas de milhares de quilômetros de cabos de fibra óptica cruzando o globo e conectando todos os nossos centros de dados”, explicou Janardhan. O executivo afirmou que houve uma falha em uma ferramenta de auditoria, que tem como objetivo evitar erros de comandos nessas comunicações computacionais.
“Durante um trabalho de manutenção de rotina, um comando foi emitido com a intenção de avaliar a disponibilidade da capacidade global de backbone, que involuntariamente derrubou todas as conexões em nossa rede”, afirmou o executivo.
Rodrigo Izidoro Tinini, do Centro Universitário FEI, explica que esse tipo de problema de fato é capaz de causar um apagão com duração de horas. “Quando você acessa aqui do Brasil um serviço que está nos Estados Unidos, a sua requisição passa por vários roteadores – e esse comando precisa saber qual caminho seguir. O que o Facebook está dizendo é que essas rotas desapareceram”, afirma.
Segundo a empresa, essa falha inicial provocou um “efeito cascata”, o que dificultou correções. Como o bug causou uma desconexão completa das comunicações do servidor do Facebook com os centros de dados e a internet de modo geral, outros problemas surgiram a partir disso – entre eles, o acesso a centros de dados da rede social e servidores de sistema de nomes de domínio, que se tornaram inacessíveis.
“A perda total de DNS quebrou muitas das ferramentas internas que normalmente usamos para investigar e resolver interrupções como essa”, explicou Janardhan. O DNS (Domain Name System) é como uma” lista de contatos” com os nomes das plataformas na internet: ele transforma o endereço de um site em um código de busca na internet, relacionado ao seu domínio. A falha, portanto, fez os aplicativos do Facebook desaparecerem da internet.
A empresa afirmou que vai estudar o caso para aprender lições. “Após cada problema, pequeno ou grande, fazemos um amplo processo de revisão para entender como podemos tornar nossos sistemas mais resilientes”.
O Estadão apurou que todos os sistemas internos da companhia ficaram indisponíveis para os funcionários, o que dificultou ainda mais a operação para encerrar o apagão. A reportagem apurou ainda que na terça, um dia depois do apagão, o trabalho dos funcionários da empresa não havia sido normalizado – a ordem era de não acessar os sistemas internos, exceto se o funcionário em questão estivesse envolvido com a correção do problema. No dia do apagão, funcionários não envolvidos com o problema foram dispensados do trabalho – parte tirou o dia de folga.