Fechar

Manual de incidentes da Atlassian

Visão geral

Espera-se que as equipes que executam serviços tecnológicos atualmente tenham uma disponibilidade de tempo integral.

Quando algo dá errado, seja uma queda de energia ou um recurso com falha, os membros da equipe precisam responder imediatamente e restaurar o serviço. Este processo é chamado de gerenciamento de incidente, e é um desafio complexo e contínuo para todas as empresas, grandes e pequenas.

We want to help teams everywhere improve their incident management. Inspired by teams like Google, we've created this handbook as a summary of Atlassian's incident management process. These are the lessons we've learned responding to incidents for more than a decade. While it’s based on our unique experiences, we hope it can be adapted to suit the needs of your own team.

Respondendo a um incidente

O processo de resposta e as etapas a serem seguidas assim que for detectado um incidente.

Autópsia dos incidentes

Como executar uma autópsia sem culpa, identificar as causas-raiz e planejar o trabalho de remediação.

Visão geral do Manual de incidentes

A quem se destina este guia?

Se você faz parte de uma equipe de desenvolvimento ou operações responsável por serviços de internet para clientes que precisam de uma disponibilidade integral, este manual é para você.

O que é um incidente?

Definimos incidente como um evento que causa interrupção ou redução na qualidade de um serviço e que requer uma resposta emergencial. As equipes que seguem as práticas de ITIL ou ITSM podem usar o termo incidente grande.

Um incidente é resolvido quando o serviço afetado volta a funcionar da maneira usual. Isto inclui somente as tarefas necessárias para restaurar a funcionalidade integral. 

autópsia do incidente é realizada depois do incidente, para determinar a causa-raiz e determinar ações a fim de garantir que ele seja abordado antes que possa causar um incidente repetido.

Nossos valores relacionados a incidentes

Um processo para gerenciar incidentes não é capaz de abranger todas as situações possíveis, então nós damos autonomia às nossas equipes com orientações gerais na forma de valores. Semelhantes aos valores da empresa da Atlassian, nossos valores relacionados a incidentes foram criados para:

  • Orientar uma tomada de decisões autônoma pelas pessoas e equipes nas situações de incidentes e autópsias. 

  • Construir uma cultura consistente entre as equipes sobre como nós identificamos, gerenciamos, e aprendemos com os incidentes.

  • Alinhar as equipes sobre quais atitudes elas devem ter em cada parte da identificação, resolução e reflexo do incidente.

Estágio Valores relacionados a incidentes Valor relacionado da Atlassian Justificativa
1. Detectar A Atlassian sabe antes que os nossos clientes saibam

Build with Heart and Balance

Um serviço equilibrado inclui o monitoramento e alerta adequados para detectar os incidentes antes dos nossos clientes. 

O melhor monitoramento nos alerta sobre os problemas antes que se tornem incidentes.

2. Reagir Escalonar, escalonar, escalonar 

Joguem em equipe

Nobody likes being woken up and we don’t take the responsibility lightly. But people understand that occasionally they will be woken for an incident where it turns out they aren't needed. What’s usually harder is waking up to a major incident and playing catch up when you should have been alerted earlier.

Nem sempre teremos todas as respostas; então, "não hesite em escalonar".

3. Recuperar As coisas dão errado, conserte imediatamente Não !@#$ o cliente

Nossos clientes não se importam com o motivo do serviço não estar funcionando, somente com a restauração do serviço o mais rápido possível.

Nunca hesite em ter um incidente resolvido rapidamente para que possamos minimizar o impacto nos nossos clientes. 

4. Aprender Sempre sem culpa Open Company, No Bullshit Os incidentes fazem parte da execução de serviços. Melhoramos os serviços dando responsabilidade às nossas equipes, não apontando um culpado.
5. Melhorar Não deixe que o incidente se repita Be the change you seek

Identifique a causa-raiz e as mudanças que evitarão que toda a classe de incidentes ocorra novamente.

Comprometa-se em promover mudanças específicas em datas específicas.

 

Ferramentas necessárias

O processo de gerenciamento de incidentes descrito aqui usa várias ferramentas específicas da Atlassian e que podem ser substituídas conforme a necessidade:

  • Rastreamento de incidentes - cada incidente é rastreado como um item Jira, com um item de acompanhamento criado para rastrear a conclusão das autópsias (a Atlassian usou uma versão bastante personalizada do Jira Software antes do lançamento do Jira Ops).

  • Sala de chat - um canal de comunicação de texto em tempo real é fundamental para diagnosticar e resolver o incidente como uma equipe.

  • Chat de vídeo - para muitos incidentes, o chat de vídeo com a equipe, como o Blue Jeans, pode ajudá-lo a discutir e concordar sobre as abordagens.

  • Sistema de alerta - uma ferramenta como o OpsGenie gerencia os remanejamentos e escalonamentos de plantão.

  • Ferramenta de documentação - usamos o Confluence para nossos documentos de relato de incidentes e compartilhamento das autópsias por meio de blogs.

  • Statuspage - a comunicação do status com as partes interessadas internas e externas e com os clientes por meio do Statuspage ajuda a manter todos informados.

Rastreamento de incidentes

Cada incidente é rastreado como um item Jira, com um item de acompanhamento criado para rastrear a conclusão das autópsias. O processo neste manual faz referência à nossa versão bastante personalizada do Jira Software, que inspirou a criação do Jira Ops. Como tal, o processo não corresponde exatamente à funcionalidade disponível no Jira Ops atualmente.

Os itens de incidente geralmente são criados por um engenheiro de suporte em resposta a um chamado do cliente ou por um desenvolvedor que reconhece um alerta de monitoramento como sendo um incidente. Nós pedimos que as pessoas criem um item se estiverem preocupadas com algo, ao invés de esperar para escaloná-lo.

No Jira, temos um fluxo de trabalho simples para rastrear os incidentes durante o estágio de resolução e para registrar todas as ações importantes tomadas durante a resposta ao incidente.

Gestor de incidentes

Cada incidente é conduzido pelo gestor de incidentes (IM), que tem a autoridade e responsabilidade geral pelo incidente. Esta pessoa é indicada pelo responsável no item do incidente. O gestor de incidentes tem autoridade de realizar qualquer ação necessária para resolver o incidente, o que inclui convocar qualquer pessoa da empresa e manter as pessoas envolvidas em um incidente focadas na restauração do serviço, o mais rápido possível. 

O gestor de incidentes é uma função, e não uma pessoa no incidente. A vantagem de definir funções durante um incidente é que isto permite que as pessoas se tornem intercambiáveis. Contanto que uma determinada pessoa saiba como executar determinada função, ela pode assumir esta função para qualquer incidente.

Você tem ideias ou sugestões para este guia?

Ótimo! Você pode enviar um feedback para incident-handbook@atlassian.come nos contar o que você acha.

Respondendo a um incidente

O processo de resposta e as etapas a serem seguidas assim que for detectado um incidente.

Autópsia dos incidentes

Como executar uma autópsia sem culpa, identificar as causas-raiz e planejar o trabalho de remediação.

Está procurando uma ferramenta para auxiliar na execução de um processo de gerenciamento de incidentes?