Close

Gerenciamento de incidentes para equipes de alta velocidade

Manual de incidentes da Atlassian

Espera-se que as equipes que executam serviços tecnológicos atualmente tenham uma disponibilidade de tempo integral.

Quando algo dá errado, seja uma queda de energia ou um recurso com falha, os membros da equipe precisam responder imediatamente e restaurar o serviço. Este processo é chamado de gerenciamento de incidente, e é um desafio complexo e contínuo para todas as empresas, grandes e pequenas.

Queremos ajudar as equipes de todos os lugares a melhorar o gerenciamento de incidentes. Inspirados por equipes como as do Google, a gente criou este manual como um resumo do processo de gerenciamento de incidentes da Atlassian. Existem duas lições que aprendemos respondendo a incidentes durante mais de uma década. Embora dependa de experiências únicas, a gente espera que ele possa ser adaptado às necessidades da sua própria equipe.

Manual de gerenciamento de incidentes

Obtenha o manual em formato impresso ou PDF

Oferecemos uma quantidade limitada de versões impressas do Manual de gerenciamento de incidentes com envio grátis. Você também pode baixar a versão em PDF.

Queremos ajudar as equipes de todos os lugares a melhorar o gerenciamento de incidentes. Inspirados por equipes como as do Google, a gente criou este manual como um resumo do processo de gerenciamento de incidentes da Atlassian. Existem duas lições que aprendemos respondendo a incidentes durante mais de uma década. Embora dependa de experiências únicas, a gente espera que ele possa ser adaptado às necessidades da sua própria equipe.


A quem se destina este guia?

Se você faz parte de uma equipe de desenvolvimento ou operações responsável por serviços de internet para clientes que precisam de uma disponibilidade integral, este manual é para você.


O que é um incidente?

Definimos incidente como um evento que causa interrupção ou redução na qualidade de um serviço e que requer uma resposta emergencial. As equipes que seguem as práticas de ITIL ou ITSM podem usar o termo incidente grande.

Um incidente é resolvido quando o serviço afetado volta a funcionar da maneira usual. Isto inclui apenas as tarefas necessárias para restaurar a funcionalidade integral.

A autópsia do incidente é realizada depois do incidente, para determinar a causa-raiz e determinar ações a fim de garantir que ele seja abordado antes que possa causar um incidente repetido.


Nossos valores relacionados a incidentes

Um processo para gerenciar incidentes não é capaz de abranger todas as situações possíveis, então nós damos autonomia às nossas equipes com orientações gerais na forma de valores. Semelhantes aos valores da empresa da Atlassian, nossos valores relacionados a incidentes foram criados para:

  • Orientar uma tomada de decisões autônoma pelas pessoas e equipes nas situações de incidentes e análises retrospectivas.
  • Construir uma cultura consistente entre as equipes sobre como nós identificamos, gerenciamos, e aprendemos com os incidentes.
  • Alinhar as equipes sobre quais atitudes elas devem ter em cada parte da identificação, resolução e reflexo do incidente.
Estágio Valores relacionados a incidentes Valor relacionado da Atlassian Justificativa
1. Detectar A Atlassian sabe antes que os nossos clientes saibam

Construir com o coração e equilíbrio

Um serviço equilibrado inclui o monitoramento e alerta adequados para detectar os incidentes antes dos clientes.

O melhor monitoramento nos alerta sobre os problemas antes que se tornem incidentes.

2. Reagir Escalonar, escalonar, escalonar

Jogar sempre em equipe

Ninguém gosta de ser acordado e a gente leva essa responsabilidade a sério. Mas as pessoas entendem que, às vezes, elas podem ser acordadas para resolver um incidente e que, no fim, elas não eram necessárias. O que costuma ser mais difícil é acordar por causa de um incidente grave e tentar recuperar o atraso quando você deveria ter sido alertado antes.

Nem sempre teremos todas as respostas; então, "não hesite em escalonar".

3. Recuperar As coisas dão errado, conserte imediatamente Não !@#$ o cliente

Nossos clientes não se importam com o motivo do serviço não estar funcionando, somente com a restauração do serviço o mais rápido possível.

Nunca hesite em resolver incidentes com rapidez para que a gente possa minimizar o impacto nos clientes.

4. Aprender Sempre sem culpa Empresa aberta, sem papo-furado Os incidentes fazem parte da execução de serviços. Melhoramos os serviços dando responsabilidade às nossas equipes, não apontando um culpado.
5. Melhorar Não deixe que o incidente se repita Seja a mudança que você quer

Identifique a causa-raiz e as mudanças que evitarão que toda a classe de incidentes ocorra novamente.

Comprometa-se em promover mudanças específicas em datas específicas.


Ferramentas necessárias

O processo de gerenciamento de incidentes descrito aqui usa várias ferramentas específicas da Atlassian e que podem ser substituídas conforme a necessidade:

  • Rastreamento de incidentes: cada incidente é rastreado como um item do Jira, com um item de acompanhamento criado para rastrear a conclusão das análises retrospectivas (a Atlassian usa uma versão bastante personalizada do Jira Software).
  • Sala de chat - um canal de comunicação de texto em tempo real é fundamental para diagnosticar e resolver o incidente como uma equipe.
  • Chat de vídeo - para muitos incidentes, o chat de vídeo com a equipe, como o Blue Jeans, pode ajudá-lo a discutir e concordar sobre as abordagens.
  • Sistema de alerta - uma ferramenta como o OpsGenie gerencia os remanejamentos e escalonamentos de plantão.
  • Ferramenta de documentação - usamos o Confluence para nossos documentos de relato de incidentes e compartilhamento das autópsias por meio de blogs.
  • Statuspage - a comunicação do status com as partes interessadas internas e externas e com os clientes por meio do Statuspage ajuda a manter todos informados.

Rastreamento de incidentes

Cada incidente é rastreado como um item Jira, com um item de acompanhamento criado para rastrear a conclusão das análises retrospectivas. O processo neste manual faz referência à versão bastante personalizada do Jira Software da Atlassian.

Os itens de incidente geralmente são criados por um engenheiro de suporte em resposta a um chamado do cliente ou por um desenvolvedor que reconhece um alerta de monitoramento como sendo um incidente. Nós pedimos que as pessoas criem um item se estiverem preocupadas com algo, ao invés de esperar para escaloná-lo.

No Jira, temos um fluxo de trabalho simples para rastrear os incidentes durante o estágio de resolução e para registrar todas as ações importantes tomadas durante a resposta ao incidente.


Gestor de incidentes

Cada incidente é conduzido pelo gerenciador de incidentes (GI), que tem a autoridade e responsabilidade geral pelo incidente. Esta pessoa é indicada pelo responsável no item do incidente. O gerenciador de incidentes tem autoridade para realizar qualquer ação necessária para resolver o incidente, o que inclui convocar qualquer pessoa da empresa e manter as pessoas envolvidas em um incidente focadas na restauração do serviço o mais rápido possível.

O gestor de incidentes é uma função, e não uma pessoa no incidente. A vantagem de definir funções durante um incidente é que isto permite que as pessoas se tornem intercambiáveis. Contanto que uma determinada pessoa saiba como executar determinada função, ela pode assumir esta função para qualquer incidente.


Você tem ideias ou sugestões para este guia?