Método ágil para quando tudo dá errado: a peça que faltava em seu plano de resposta a incidentes

Ao adaptar valores encontrados no Manifesto ágil, é possível eliminar a resposta a incidentes e obter confiança do usuário. 

 

Shannon Winter Shannon Winter

As metodologias ágeis estão sendo cada vez mais usadas fora do ambiente tradicional de desenvolvimento de software em todas as áreas de negócios – até em marketing! Então, começamos a pensar, como é o método ágil no ambiente de gerenciamento de incidentes? Na Atlassian, definimos o método ágil como uma abordagem iterativa e estruturada  para o gerenciamento de projeto e de produto. Ele fornece à sua equipe a capacidade de responder às mudanças sem sair dos trilhos.

Como erros em produção, incidentes e inatividade podem, definitivamente, ser classificados como momentos em que as coisas "saíram dos trilhos", imaginamos que uma metodologia como a ágil -- criada para ajudar as equipes a ficarem nos trilhos -- teria um local natural no gerenciamento de incidentes – especificamente, comunicação de incidentes.

Aplicar valores ágeis na resposta a incidentes

Embora haja muitas ferramentas para ajudar sua equipe a detectar, alertar, analisar e solucionar incidentes, as ferramentas sozinhas não conseguem substituir uma comunicação clara às partes interessadas. E vamos ser realistas: o risco pode ser alto. Reputação, atrito com clientes, tempo gasto no controle de danos, só para citar alguns. As metodologias ágeis podem ajudar a manter esses riscos os mais baixos possíveis. 

Muitos de vocês estão, provavelmente, familiarizados com os quatro valores principais do manifesto ágil: 1) indivíduos e iterações em processos e ferramentas, 2) trabalho com software com uma documentação abrangente, 3) colaboração do cliente em relação à negociação do contrato e 4) resposta à mudança ao seguir um plano. Vamos detalhar um pouco mais e ver como isso pode ser usado para comunicações de incidentes mais ágeis.

Princípio de comunicação de incidente: comunicação de incidente centrada em pessoas

Esse princípio é baseado no valor ágil, pessoas e interações ao longo de processos e ferramentas. Processos e ferramentas são importantes para qualquer processo de gerenciamento de incidente, mas eles não significam nada quando visualizados separados das pessoas que estão tentando fazer uso deles e da cultura que foi formada em relação a isso. O que une as lacunas entre pessoas, processos e ferramentas? Comunicação, é claro! 

A comunicação é fundamental quando ocorre um problema, seja um problema pequeno de produção ou uma falha no sistema. Até mesmo o plano de incidentes mais completo exige comunicação frequente para obter resolução e manter a confiança. 

Durante um incidente, os usuários afetados estão, provavelmente, obtendo erros frustrantes – se não estiverem totalmente debilitados – e precisam saber o que está acontecendo assim que possível. Muitos enviam e-mails, publicam tweets e/ou abrem tíquetes sobre o problema, então é do interesse de todos o conhecimento rápido da situação com uma mensagem que mostre que você sabe que algo está errado e que isso será corrigido. Na Atlassian, usamos o Statuspage para comunicação com as partes interessadas internas e externas durante tempos de inatividade e pense que você também encontrará valor rapidamente ao tentar transmitir as informações do incidente aos seus usuários de modo rápido e escalável. De fato, o Statuspage ajudou os usuários a aumentarem a velocidade da comunicação de incidentes em 50%.

Quer testá-lo?

Cadastre-se ou faça login no Statuspage >>  

 

Once you are in, learn more about best practices for subscribing your end-users and effectively communicating during an incident:

 

Mas independentemente da ferramenta que está usando para informar seus clientes, a comunicação com empatia percorre um longo caminho. Há pessoas do outro lado do problema que confiam no seu serviço e em você para mantê-las informadas se algo der errado. Embora templates sejam ótimos em um mundo ideal, serão necessárias pessoas que consigam se comunicar de modo claro, conciso e com empatia para ganhar a confiança dos clientes até mesmo nos piores momentos. Tomemos a Dyn, por exemplo. Eles tiveram uma enorme paralisação durante um dos maiores ataques de DDoS na história, mas mesmo assim os usuários agradeceram a eles peça sinceridade demonstrada durante a interrupção do serviço.

Como Werner Vogels, executivo de tecnologia da AWS, disse ao discutir a grande paralisação da AWS S3 em fevereiro de 2017:

"Customers don't like advice that says 'sit still, don't do anything.' No, that's not what they want, and for that you need to give them really good information, make them understand what's happening, given an expectation of when the service will be coming back online if you have such information."

Princípio de comunicação de incidentes: criação fácil de páginas e atualização de incidentes

Para esse princípio, usamos o valor ágil, Trabalhar com software em uma documentação abrangente. A documentação sobre seu produto deve ser clara e fácil, assim como as atualizações de incidentes. Seus usuários não devem ler entre as linhas (ou analisar parágrafos longos) para saber o que está acontecendo e quando podem esperar uma correção. Enquanto precisa pensar sobre as atualizações de incidente e garantir que está tendo empatia e solidariedade em sua comunicação, você não deve deixar que portões de aprovação ou várias revisões atrapalhem as atualizações frequentes e honestas. 

Analisando de novo o incidente da Dyn, é possível ver que a equipe não desperdiçou tempo comunicando as atualizações aos usuários. Ao longo das mais de 11 horas de incidente, eles atualizaram a página de status 11 vezes (uma média de 61 minutos entre as atualizações). A página de status possibilitou que eles tivessem um único local para comunicação sobre o incidente, em vez de desperdiçar tempo procurando listas de correspondência para enviar e-mail ou tentando comunicar as atualizações em 140 caracteres no Twitter. Ou seja, eles entenderam o que deviam fazer enquanto mantinham o foco em fazer o serviço voltar a funcionar. 

A beleza de uma ferramenta de comunicação de status diferenciada na qual você não precisa passar muito tempo para que sua página funcione. Leva menos de 30 minutos para criar uma página de status e, como no método ágil, sua página de status pode e deve ser iterativa. Pense sobre disponibilizar uma página para seus clientes e faça ainda melhor. Depois de ter passado por alguns incidentes com a página de status, como parte do processo, você pode fazer ajustes para melhorar.

Pronto para criar sua própria página de status? Cadastre-se ou faça login no Statuspage >>

Não espere até o próximo incidente para criar uma página de status. Coloque-se na melhor posição para quando houver alguma inatividade. Lembre-se: você não precisa passar muito tempo configurando uma página para isso:

Princípio de comunicação de incidente: comunicação transparente durante incidentes e além

O valor ágil Colaboração do cliente em uma negociação de contrato trata do trabalho com os clientes para fornecer o melhor produto e experiência possíveis. Para nós, isso significa ter canais de feedback adequados para que os clientes possam expor suas preocupações e alertar sobre quaisquer problemas que possam ter (usando ferramentas como Jira Service Desk, Twitter, etc.). As empresas de classe mundial entendem que os clientes esperam uma resposta aos seus feedbacks e querem estar envolvidos quando se trata de fazer melhorias no produto e no processo de resposta de incidente. Empatia e explicação passam por um longo caminho – e os clientes não deixam de pedir isso – como é possível ver nesses tweets:

Isso também significa manter a transparência de seu tempo de atividadepara que os usuários saibam exatamente o que estão adquirindo ao fazer a inscrição. Ao se inscrever para um serviço de nuvem, você acredita que o serviço será confiável. Nem sempre é um contrato físico, mas um contrato inerente, negociado entre o cliente e o provedor de serviços, que afirma que, quando algo der errado, as duas partes colaborarão para que tudo se resolva rapidamente e todos fiquem atualizados, desde a investigação até a resolução. O que nos leva ao nosso valor final em relação à resposta a uma alteração... 

Princípio de comunicação de incidentes: retrospectivas ágeis

Até mesmo os melhores planos... bem, você sabe o resto. O último valor ágil, Responder à mudança ao seguir um plano, sabemos que até mesmo os melhores planos precisarão, inevitavelmente, ser alterados durante e após um incidente. O método ágil é sobre conseguir ser capaz de se levantar após uma queda e obter feedbacks rápidos e constantes que melhoram o produto e a cultura.

Wistia, uma empresa de hospedagem de análise e vídeos da internet, aprendeu sobre a importância de permanecer ágil durante um incidente inesperado em 2013 que deixou sua infraestrutura de estatísticas paralisada. Eles não estavam preparados, o que fez com que eles recebessem milhares de tíquetes de clientes insatisfeitos. O primeiro pivô foi a criação de sua própria página de status para ajudar a facilitar o trabalho em situações como essa. Mas, ao criar sua própria ferramenta de comunicação de status, eles conseguiram dar suporte a um novo produto além do produto principal. Ficou claro que isso era um custo para sua equipe de 20 pessoas e eles não podiam arcar com isso na época. O segundo pivô foi parar de usar sua própria solução e migrar para o Statuspage. 

Jordan Munson, engenheiro de suporte na Wistia, descreveu a jogada: "Após vários meses de frustração em relação à nossa solução útil, mas quase sem recursos, decidimos que precisávamos de algo a mais, algo que não exigisse tanto. Foi quando começamos a usar o Statuspage. Desde que migramos para o Statuspage, conseguimos fazer o que queríamos -- manter nossos clientes atualizados, de modo rápido e fácil, sobre o status de nosso aplicativo. Para conseguir isso, foi preciso apenas uma grande paralisação e a criação de um novo produto. Após alguns anos, nossa solução é muito mais suave. As pessoas recebem atualizações diretamente de nós quando há uma paralisação, sabem onde procurar por atualizações e as atualizações feitas em nossa página de status são enviadas para vários locais".

A equipe de Munson pegou limões (a paralisação de 2013) e fez uma limonada (um processo de comunicação de incidentes novo – escalável – e aprimorado). Essa é uma excelente resposta ágil à mudança. 

As retrospectivas também fazem parte desse valor ágil. Uma retrospectiva fornece à equipe a chance de parar e discutir o que funcionou bem durante a comunicação do incidente, o que não funcionou muito bem e, o mais importante, o que você fará para evitar que os mesmos problemas aconteçam novamente. Não ceda à tentação de não fazer uma retrospectiva depois que um incidente é marcado como "resolvido" ou se achar que a equipe se saiu bem. Há sempre espaço para melhoria quando se trata de comunicação de incidente e há sempre uma chance de melhorar o relacionamento de ganhar a confiança de seus usuários. 

Dica profissional:

Teste essa atividade de retrospectiva do Esquema Tático da Atlassian para fornecer um ambiente seguro para sua equipe refletir e discutir o que funciona (e o que não funciona) para que você possa melhorar.

Ao revisar nosso primeiro manifesto ágil, as retrospectivas definitivamente exigem comunicação com empatia para ter êxito e proporcionar resultados duradouros. Veja abaixo algumas linguagens para considerar ao discutir como sua resolução de incidente se saiu em uma reunião de retrospectiva. Algumas das linguagens também devem estar na revisão pós-incidente (PIR) enviada aos usuários após seu serviço voltar a funcionar. Usar o método ágil significa melhorar continuamente não apenas em como você executa as tarefas relacionadas aos incidentes, mas também em como você se relaciona com os colegas de equipe e executa sua função durante uma situação estressante. 

Linguagem das pessoas

Product Language

Suposições, esperanças e medos

Tarefas, problemas e ações

Motivações, desentendimentos e comportamentos

Springs, epics, histórias e liberações

Preferências, relacionamentos e respeito

Marcos, dependências e datas

Role and responsibilities

Reuniões, calendários, e-mails e arquivos

Não se esqueça da confiança

Falamos bastante sobre confiança no método ágil e não é diferente para esse caso de uso. A comunicação de incidente efetiva requer confiança e empoderamento. As equipes na organização devem se sentir empoderadas com a aprovação e o conhecimento necessários para comunicar os usuários sobre os incidentes. As pessoas também devem conseguir confiar que todos farão seus deveres atribuídos durante uma resposta de incidente – e não hesitarão em fazer o que podem quando algo inesperado ocorrer. Confiar que suas equipes comunicarão eficazmente os incidentes permitirá que os clientes sejam informados rapidamente e, em troca, aumentará a confiança do usuário e a fidelidade ao seu serviço (67% dos clientes do Statuspage afirmam que essa ferramenta ajudou a aumentar a confiança dos usuários).  Um ganho verdadeiramente mútuo.