Recursos
Gerenciamento de serviços para equipes de operações de TI, desenvolvimento e negócios

Ofereça gerenciamento de serviços de alta velocidade em escala.

Obtenha grátis

Saiba mais

Como gerenciar a entrega de serviços de TI de ponta a ponta

Confira dicas para aprimorar suas práticas de gerenciamento de serviços.

Saiba mais

Tudo o que você precisa saber para configurar o JSM

Esses guias abrangem tudo, desde o básico até práticas recomendadas detalhadas.

Veja o guia

Recursos da biblioteca do Jira Service Management

Consulte artigos técnicos, estudos de caso, relatórios e muito mais para ter todas as informações de que você precisa.

Exibir biblioteca

Recursos
Gerenciamento de serviços para equipes de operações de TI, desenvolvimento e negócios

Ofereça gerenciamento de serviços de alta velocidade em escala.

Obtenha grátis

Saiba mais

Como gerenciar a entrega de serviços de TI de ponta a ponta

Confira dicas para aprimorar suas práticas de gerenciamento de serviços.

Saiba mais

Tudo o que você precisa saber para configurar o JSM

Esses guias abrangem tudo, desde o básico até práticas recomendadas detalhadas.

Veja o guia

Recursos da biblioteca do Jira Service Management

Consulte artigos técnicos, estudos de caso, relatórios e muito mais para ter todas as informações de que você precisa.

Exibir biblioteca

Gerenciamento de incidentes para equipes de alta velocidade

Manual de incidentes da Atlassian

Espera-se que as equipes que executam serviços tecnológicos atualmente tenham uma disponibilidade de tempo integral.

Quando algo dá errado, seja uma queda de energia ou um recurso com falha, os membros da equipe precisam responder imediatamente e restaurar o serviço. Este processo é chamado de gerenciamento de incidente, e é um desafio complexo e contínuo para todas as empresas, grandes e pequenas.

Queremos ajudar as equipes de todos os lugares a melhorar o gerenciamento de incidentes. Inspirados por equipes como as do Google, a gente criou este manual como um resumo do processo de gerenciamento de incidentes da Atlassian. Existem duas lições que aprendemos respondendo a incidentes durante mais de uma década. Embora dependa de experiências únicas, a gente espera que ele possa ser adaptado às necessidades da sua própria equipe.

Obtenha o manual em formato impresso ou PDF

Oferecemos uma quantidade limitada de versões impressas do Manual de gerenciamento de incidentes com envio grátis. Você também pode baixar a versão em PDF.

Leia o manual

O que é um incidente?

Definimos incidente como um evento que causa interrupção ou redução na qualidade de um serviço e que requer uma resposta emergencial. As equipes que seguem as práticas de ITIL ou ITSM podem usar o termo incidente grande.

Um incidente é resolvido quando o serviço afetado volta a funcionar da maneira usual. Isto inclui apenas as tarefas necessárias para restaurar a funcionalidade integral.

A autópsia do incidente é realizada depois do incidente, para determinar a causa-raiz e determinar ações a fim de garantir que ele seja abordado antes que possa causar um incidente repetido.

Nossos valores relacionados a incidentes

Um processo para gerenciar incidentes não é capaz de abranger todas as situações possíveis, então nós damos autonomia às nossas equipes com orientações gerais na forma de valores. Semelhantes aos valores da empresa da Atlassian, nossos valores relacionados a incidentes foram criados para:

Orientar uma tomada de decisões autônoma pelas pessoas e equipes nas situações de incidentes e análises retrospectivas.
Construir uma cultura consistente entre as equipes sobre como nós identificamos, gerenciamos, e aprendemos com os incidentes.
Alinhar as equipes sobre quais atitudes elas devem ter em cada parte da identificação, resolução e reflexo do incidente.

Estágio	Valores relacionados a incidentes	Valor relacionado da Atlassian	Justificativa
1. Detectar	A Atlassian sabe antes que os nossos clientes saibam	Construir com o coração e equilíbrio	Um serviço equilibrado inclui o monitoramento e alerta adequados para detectar os incidentes antes dos clientes. O melhor monitoramento nos alerta sobre os problemas antes que se tornem incidentes.
2. Reagir	Escalonar, escalonar, escalonar	Jogar sempre em equipe	Ninguém gosta de ser acordado e a gente leva essa responsabilidade a sério. Mas as pessoas entendem que, às vezes, elas podem ser acordadas para resolver um incidente e que, no fim, elas não eram necessárias. O que costuma ser mais difícil é acordar por causa de um incidente grave e tentar recuperar o atraso quando você deveria ter sido alertado antes. Nem sempre teremos todas as respostas; então, "não hesite em escalonar".
3. Recuperar	As coisas dão errado, conserte imediatamente	Não !@#$ o cliente	Nossos clientes não se importam com o motivo do serviço não estar funcionando, somente com a restauração do serviço o mais rápido possível. Nunca hesite em resolver incidentes com rapidez para que a gente possa minimizar o impacto nos clientes.
4. Aprender	Sempre sem culpa	Empresa aberta, sem papo-furado	Os incidentes fazem parte da execução de serviços. Melhoramos os serviços dando responsabilidade às nossas equipes, não apontando um culpado.
5. Melhorar	Não deixe que o incidente se repita	Seja a mudança que você quer	Identifique a causa-raiz e as mudanças que evitarão que toda a classe de incidentes ocorra novamente. Comprometa-se em promover mudanças específicas em datas específicas.

Ferramentas necessárias

O processo de gerenciamento de incidentes descrito aqui usa várias ferramentas específicas da Atlassian e que podem ser substituídas conforme a necessidade:

Rastreamento de incidentes: cada incidente é rastreado como um item do Jira, com um item de acompanhamento criado para rastrear a conclusão das análises retrospectivas (a Atlassian usa uma versão bastante personalizada do Jira Software).
Sala de chat - um canal de comunicação de texto em tempo real é fundamental para diagnosticar e resolver o incidente como uma equipe.
Chat de vídeo - para muitos incidentes, o chat de vídeo com a equipe, como o Blue Jeans, pode ajudá-lo a discutir e concordar sobre as abordagens.
Sistema de alerta - uma ferramenta como o OpsGenie gerencia os remanejamentos e escalonamentos de plantão.
Ferramenta de documentação - usamos o Confluence para nossos documentos de relato de incidentes e compartilhamento das autópsias por meio de blogs.
Statuspage - a comunicação do status com as partes interessadas internas e externas e com os clientes por meio do Statuspage ajuda a manter todos informados.

Rastreamento de incidentes

Cada incidente é rastreado como um item Jira, com um item de acompanhamento criado para rastrear a conclusão das análises retrospectivas. O processo neste manual faz referência à versão bastante personalizada do Jira Software da Atlassian.

Os itens de incidente geralmente são criados por um engenheiro de suporte em resposta a um chamado do cliente ou por um desenvolvedor que reconhece um alerta de monitoramento como sendo um incidente. Nós pedimos que as pessoas criem um item se estiverem preocupadas com algo, ao invés de esperar para escaloná-lo.

No Jira, temos um fluxo de trabalho simples para rastrear os incidentes durante o estágio de resolução e para registrar todas as ações importantes tomadas durante a resposta ao incidente.

Gestor de incidentes

Cada incidente é conduzido pelo gerenciador de incidentes (GI), que tem a autoridade e responsabilidade geral pelo incidente. Esta pessoa é indicada pelo responsável no item do incidente. O gerenciador de incidentes tem autoridade para realizar qualquer ação necessária para resolver o incidente, o que inclui convocar qualquer pessoa da empresa e manter as pessoas envolvidas em um incidente focadas na restauração do serviço o mais rápido possível.

O gestor de incidentes é uma função, e não uma pessoa no incidente. A vantagem de definir funções durante um incidente é que isto permite que as pessoas se tornem intercambiáveis. Contanto que uma determinada pessoa saiba como executar determinada função, ela pode assumir esta função para qualquer incidente.

Tutorial

Configuração de um on-call schedule com o Opsgenie

Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.

Leia este tutorial

a seguir

Como respondemos a um incidente

Veja aqui o processo para responder a incidentes no manual da Atlassian. Aprenda as etapas que o gerenciador de incidentes segue da detecção à resolução.

Leia este artigo

Destaque

Jira Software

Confluence

Jira Service Management

Trello

Marketplace

O que há de novo

Compass

Jira Product Discovery

Você pode achar útil

Destaque

Gerenciamento do trabalho

Gestão de serviços de TI

Agilidade e DevOps

Por tamanho da equipe

Por função da equipe

Por setor

O que há de novo

Atlassian Together

Você pode achar útil

Saiba mais

Suporte

Conecte

O que há de novo

Atlassian Presents: Unleash

Jira Service Management

ITSM

Guia do produto

Biblioteca de recursos

Gerenciamento de serviços para equipes de operações de TI, desenvolvimento e negócios

Como gerenciar a entrega de serviços de TI de ponta a ponta

Tudo o que você precisa saber para configurar o JSM

Recursos da biblioteca do Jira Service Management

Jira Service Management

ITSM

Guia do produto

Biblioteca de recursos

Gerenciamento de serviços para equipes de operações de TI, desenvolvimento e negócios

Como gerenciar a entrega de serviços de TI de ponta a ponta

Tudo o que você precisa saber para configurar o JSM

Recursos da biblioteca do Jira Service Management

Gerenciamento de incidentes para equipes de alta velocidade

Manual de incidentes da Atlassian

Obtenha o manual em formato impresso ou PDF

A quem se destina este guia?

O que é um incidente?

Nossos valores relacionados a incidentes

Ferramentas necessárias

Rastreamento de incidentes

Gestor de incidentes

Você tem ideias ou sugestões para este guia?

Configuração de um on-call schedule com o Opsgenie

Como respondemos a um incidente