Embora muitas normas de continuidade de negócios enfatizem a importância de acompanhar as acções correctivas para abordar as questões identificadas, a ISO 22301 recentemente publicada (e anteriormente BS 25999-2) também requer a realização de uma análise de causa raiz - olhando não só para uma questão, mas também para a sua causa e para a forma como pode ser evitada no futuro. A análise da causa raiz (RCA) é uma abordagem que procura prevenir proactivamente a reincidência do mesmo evento adverso ou falha do sistema, rastreando as relações causais de uma falha à sua origem mais provável de impacto, e depois pôr em prática medidas para mitigar as causas subjacentes, a fim de ajudar a prevenir a reincidência do evento adverso no futuro. Embora comum em disciplinas que lidam com extrema precisão e protecção da vida (por exemplo, qualidade e saúde e segurança ambiental), não há razão para que a disciplina de continuidade de negócios não possa beneficiar de uma abordagem semelhante, particularmente para os profissionais que procuram implementar plenamente a ISO 22301. Este artigo explica a análise das causas profundas e identifica como as organizações podem beneficiar da implementação do conceito num contexto de continuidade de negócios.

O conceito de análise das causas de raiz foi originalmente desenvolvido por Sakichi Toyoda (o fundador da Toyota Motor Corporation), que desenvolveu um processo chamado os "Cinco Porquês" para compreender potenciais causas de problemas para além do que era imediatamente óbvio. A análise das causas de raiz tornou-se mais formalizada ao ser integrada em vários campos diferentes como factor de desempenho, tais como segurança, qualidade, operações e segurança da informação. Em cada uma destas áreas, responder reactivamente a um problema não era suficiente - questões futuras precisavam de ser prevenidas, e a análise de causa raiz era o caminho para permitir um melhor desempenho e mitigação de riscos através da eliminação de causas verdadeiras, em vez de apenas sintomas. A incorporação da análise das causas profundas nos esforços de acção correctiva relacionados com a continuidade dos negócios existentes poderia muito bem minimizar a probabilidade de futuros incidentes perturbadores e diminuir os tempos de recuperação.

Por vezes, executar a RCA é tão fácil como implementar os cinco porquês, perguntando repetidamente "porquê" algo ocorreu até parecer que se chegou à causa de base de como o fracasso ocorreu. A chave é uma aplicação disciplinada de fazer perguntas de sondagem. Por exemplo, analisar a causa raiz do porquê de uma organização não ter atingido um objectivo de tempo de recuperação de 24 horas para o seu ambiente SAP durante um teste recente pode parecer algo parecido com isto:

  1. Problema: O pessoal de recuperação de TI não conseguiu recuperar o sistema SAP da organização dentro do seu objectivo de tempo de recuperação de 24 horas durante o teste IT DR da semana passada .... Porquê?
  2. O pessoal de recuperação de TI disse que os SAN LUNs não foram mapeados correctamente, o que atrasou drasticamente o início da restauração a partir do disco ... Porquê?
  3. O pessoal do fornecedor responsável pela preparação do equipamento não conseguiu executar a configuração especificamente de acordo com as expectativas documentadas ... Porquê?
  4. O pessoal do fornecedor indicou que as instruções pareciam contraditórias e não forneciam o nível de detalhe necessário para executar as etapas, por isso utilizaram uma configuração básica por defeito ...Porquê?
  5. Após análise, a documentação deixou de fora vários passos cruciais necessários para permitir este complexo mapeamento LUN ...Porque é que isto não foi encontrado mais cedo?
  6. Ao realizar testes anteriores, o pessoal não aproveitou totalmente a documentação do plano existente ... O que mudou desta vez?
  7. O indivíduo responsável pela documentação do plano e pela realização de testes passados não estava disponível, e o pessoal que realizou os testes desta vez indicou não ter recebido formação adequada sobre a utilização dos planos, nem foi instruído sobre como escalar as questões relativas aos processos de recuperação.

Embora possa parecer que a causa principal foi atingida, a simples fixação da documentação não garante que a documentação futura seja exacta. Aprofundando a questão, o anterior perito em TI responsável pela documentação dos procedimentos faz frequentemente testes no local sem utilizar documentação, uma vez que tem uma vasta experiência neste campo e sentiu que poderia executar tarefas mais rapidamente, recuperando com base na experiência, em oposição aos procedimentos documentados. A exploração da questão revelou ainda que o pessoal mais recente afectado a tarefas de recuperação tinha muito menos experiência e ainda não tinha recebido um nível adequado de formação de sensibilização. Relacionado com este ponto, o Director de TI admitiu nunca ter exigido que outro pessoal validasse a documentação, uma vez que os testes levam tempo a afastar-se do apoio à produção e o aproveitamento dos "peritos" em cada fase diminui o tempo de teste.

Parte da solução para tal poderia ser implementar uma expectativa de que todos os procedimentos documentados fossem validados pelo menos anualmente por outro indivíduo de TI dentro de uma área de especialização diferente. Uma segunda parte da solução poderia ser a realização de uma formação adequada de frente (que enfatiza a familiaridade com os planos e o conhecimento dos procedimentos de escalonamento), tanto para indivíduos internos alternativos como para quaisquer recursos de fornecedores responsáveis pela execução do plano. Em conjunto, estes esforços poderiam ajudar a assegurar que toda a documentação de TI DR possa ser utilizada eficazmente por recursos internos e externos durante os testes.

Embora simples em teoria, identificar a verdadeira causa raiz e descobrir quando já se foi suficientemente longe pode ser complexo na prática. Para ajudar a compreender as causas primárias da raiz, é necessário perguntar repetidamente variantes do "porquê" (e algumas outras perguntas de sondagem), depois procurar a resposta que parece mais susceptível de ter influenciado a questão. Embora possa não haver uma "ciência difícil" para a análise das causas de raiz, quanto mais profunda for a procura das causas, mais provável é que encontre problemas para resolver. Na maioria dos casos, a maior questão que a maioria das organizações enfrenta não é, em primeiro lugar, a de explorar problemas! O nosso exemplo demonstrou este problema na recuperação do SAP. Contudo, é provável que este problema (os atalhos) exista noutras áreas, e a abordagem da causa raiz poderia melhorar o desempenho e a capacidade de recuperação noutros locais.

Dentro da continuidade do negócio, há várias áreas que podem ser comummente identificadas como causas de raiz para a mitigação do risco, resposta e questões de desempenho de recuperação, embora, mais uma vez, seja necessário rastrear as questões mais longe do que a maioria dos profissionais escolhem explorar. Para integrar adequadamente a análise das causas-raízes em actividades de melhoria contínua, cada questão deve ser adequadamente documentada, incluindo a origem da questão, uma descrição detalhada, uma data de identificação, e deve também ter um campo para capturar a análise das causas-raízes. Em vez de um indivíduo tentar identificar a causa raiz, o pessoal de continuidade de negócio deve organizar e facilitar discussões que envolvam especialistas no assunto a quem as questões possam ser atribuídas ou que possam fornecer uma visão sobre uma questão, e depois o grupo deve procurar rastrear a questão de volta à sua origem em conjunto.

Dentro da continuidade do negócio, há numerosas causas que podem levar a uma variedade de questões ou complicações. O quadro seguinte regista alguns exemplos, juntamente com as prováveis causas de raiz, embora isto esteja longe de ser uma lista completa. Também é importante notar que, tal como com as raízes das árvores que alimentam o crescimento de uma árvore, pode haver mais do que uma causa raiz que afecta um sistema e resulta num problema, por isso é importante traçar todos os caminhos potenciais da origem de uma questão de volta, em vez de apenas perseguir uma causa directa, para identificar todos os factores influenciadores.

Mais uma vez, a análise da causa raiz não é apenas a resolução de uma instância de um problema, é também a procura de oportunidades para prevenir ocorrências futuras de um problema. Uma vez identificada a origem de um problema, é importante avaliar todas as áreas do negócio para identificar outras áreas de risco e assegurar que são postas em prática medidas adequadas de mitigação do risco. Uma solução numa área pode não ser necessariamente aplicável a todas as outras áreas de uma organização, mas mesmo que não o seja, o acto de identificar outras áreas de risco semelhantes aumenta a sensibilização e permite à organização desenvolver soluções adicionais que façam sentido e abordem esses riscos antes que resultem em questões futuras ou em tempo de inactividade.

À medida que os sistemas de gestão da continuidade do negócio continuam a amadurecer, a análise da causa raiz tornar-se-á uma ferramenta poderosa para profissionais da continuidade de negócios examinar profundamente a causa dos problemas e proporcionar uma oportunidade para os corrigir antes de ocorrerem novamente.