Fechar

Manual de incidentes da Atlassian

Definindo incidentes e os valores relacionados a incidentes. Conheça as ferramentas corretas e as funções da equipe.

Incident Management home

Visão geral

Espera-se que as equipes que executam serviços tecnológicos atualmente tenham uma disponibilidade de tempo integral.

Quando algo dá errado, seja uma queda de energia ou um recurso com falha, os membros da equipe precisam responder imediatamente e restaurar o serviço. Este processo é chamado de gerenciamento de incidente, e é um desafio complexo e contínuo para todas as empresas, grandes e pequenas.

We want to help teams everywhere improve their incident management. Inspired by teams like Google, we've created this handbook as a summary of Atlassian's incident management process. These are the lessons we've learned responding to incidents for more than a decade. While it’s based on our unique experiences, we hope it can be adapted to suit the needs of your own team.


A quem se destina este guia?

Se você faz parte de uma equipe de desenvolvimento ou operações responsável por serviços de internet para clientes que precisam de uma disponibilidade integral, este manual é para você.


O que é um incidente?

Definimos incidente como um evento que causa interrupção ou redução na qualidade de um serviço e que requer uma resposta emergencial. As equipes que seguem as práticas de ITIL ou ITSM podem usar o termo incidente grande.

Um incidente é resolvido quando o serviço afetado volta a funcionar da maneira usual. Isto inclui somente as tarefas necessárias para restaurar a funcionalidade integral. 

autópsia do incidente é realizada depois do incidente, para determinar a causa-raiz e determinar ações a fim de garantir que ele seja abordado antes que possa causar um incidente repetido.


Nossos valores relacionados a incidentes

Um processo para gerenciar incidentes não é capaz de abranger todas as situações possíveis, então nós damos autonomia às nossas equipes com orientações gerais na forma de valores. Semelhantes aos valores da empresa da Atlassian, nossos valores relacionados a incidentes foram criados para:

  • Orientar uma tomada de decisões autônoma pelas pessoas e equipes nas situações de incidentes e autópsias. 
  • Construir uma cultura consistente entre as equipes sobre como nós identificamos, gerenciamos, e aprendemos com os incidentes.
  • Alinhar as equipes sobre quais atitudes elas devem ter em cada parte da identificação, resolução e reflexo do incidente.
Estágio Valores relacionados a incidentes Valor relacionado da Atlassian Justificativa
1. Detectar A Atlassian sabe antes que os nossos clientes saibam

Build with Heart and Balance

Um serviço equilibrado inclui o monitoramento e alerta adequados para detectar os incidentes antes dos nossos clientes. 

O melhor monitoramento nos alerta sobre os problemas antes que se tornem incidentes.

2. Reagir Escalonar, escalonar, escalonar 

Jogar sempre em equipe

Nobody likes being woken up and we don’t take the responsibility lightly. But people understand that occasionally they will be woken for an incident where it turns out they aren't needed. What’s usually harder is waking up to a major incident and playing catch up when you should have been alerted earlier.

Nem sempre teremos todas as respostas; então, "não hesite em escalonar".

3. Recuperar As coisas dão errado, conserte imediatamente Não !@#$ o cliente

Nossos clientes não se importam com o motivo do serviço não estar funcionando, somente com a restauração do serviço o mais rápido possível.

Nunca hesite em ter um incidente resolvido rapidamente para que possamos minimizar o impacto nos nossos clientes. 

4. Aprender Sempre sem culpa Open Company, No Bullshit Os incidentes fazem parte da execução de serviços. Melhoramos os serviços dando responsabilidade às nossas equipes, não apontando um culpado.
5. Melhorar Não deixe que o incidente se repita Seja a mudança que você quer

Identifique a causa-raiz e as mudanças que evitarão que toda a classe de incidentes ocorra novamente.

Comprometa-se em promover mudanças específicas em datas específicas.


Ferramentas necessárias

O processo de gerenciamento de incidentes descrito aqui usa várias ferramentas específicas da Atlassian e que podem ser substituídas conforme a necessidade:

  • Incident tracking - every incident is tracked as a Jira issue, with a followup issue created to track the completion of postmortems (Atlassian uses a heavily customized version of Jira Software for this).
  • Sala de chat - um canal de comunicação de texto em tempo real é fundamental para diagnosticar e resolver o incidente como uma equipe.
  • Chat de vídeo - para muitos incidentes, o chat de vídeo com a equipe, como o Blue Jeans, pode ajudá-lo a discutir e concordar sobre as abordagens.
  • Sistema de alerta - uma ferramenta como o OpsGenie gerencia os remanejamentos e escalonamentos de plantão.
  • Documentation tool - we use Confluence for our incident state documents and sharing postmortem via blogs.
  • Statuspage - a comunicação do status com as partes interessadas internas e externas e com os clientes por meio do Statuspage ajuda a manter todos informados.

Rastreamento de incidentes

Every incident is tracked as a Jira issue, with a followup issue created to track the completion of postmortems. The process in this handbook references our heavily customized version of Jira Software.

Os itens de incidente geralmente são criados por um engenheiro de suporte em resposta a um chamado do cliente ou por um desenvolvedor que reconhece um alerta de monitoramento como sendo um incidente. Nós pedimos que as pessoas criem um item se estiverem preocupadas com algo, ao invés de esperar para escaloná-lo.

No Jira, temos um fluxo de trabalho simples para rastrear os incidentes durante o estágio de resolução e para registrar todas as ações importantes tomadas durante a resposta ao incidente.


Gestor de incidentes

Each incident is driven by the incident manager (IM), who has overall responsibility for and authority for the incident. This person is indicated by the assignee on the incident issue. The incident manager is empowered to take any action necessary to resolve the incident, which includes paging anyone in the organization and keeping those involved in an incident focused on restoring service as quickly as possible. 

O gestor de incidentes é uma função, e não uma pessoa no incidente. A vantagem de definir funções durante um incidente é que isto permite que as pessoas se tornem intercambiáveis. Contanto que uma determinada pessoa saiba como executar determinada função, ela pode assumir esta função para qualquer incidente.


Você tem ideias ou sugestões para este guia?

Ótimo! Você pode enviar um feedback para incident-handbook@atlassian.come nos contar o que você acha.