Recursos
Gerenciamento de serviços para equipes de operações de TI, desenvolvimento e negócios

Ofereça gerenciamento de serviços de alta velocidade em escala.

Obtenha grátis

Saiba mais

Como gerenciar a entrega de serviços de TI de ponta a ponta

Confira dicas para aprimorar suas práticas de gerenciamento de serviços.

Saiba mais

Tudo o que você precisa saber para configurar o JSM

Esses guias abrangem tudo, desde o básico até práticas recomendadas detalhadas.

Veja o guia

Recursos da biblioteca do Jira Service Management

Consulte artigos técnicos, estudos de caso, relatórios e muito mais para ter todas as informações de que você precisa.

Exibir biblioteca

Recursos
Gerenciamento de serviços para equipes de operações de TI, desenvolvimento e negócios

Ofereça gerenciamento de serviços de alta velocidade em escala.

Obtenha grátis

Saiba mais

Como gerenciar a entrega de serviços de TI de ponta a ponta

Confira dicas para aprimorar suas práticas de gerenciamento de serviços.

Saiba mais

Tudo o que você precisa saber para configurar o JSM

Esses guias abrangem tudo, desde o básico até práticas recomendadas detalhadas.

Veja o guia

Recursos da biblioteca do Jira Service Management

Consulte artigos técnicos, estudos de caso, relatórios e muito mais para ter todas as informações de que você precisa.

Exibir biblioteca

Gerenciamento de incidentes para equipes de alta velocidade

O que é gerenciamento de incidentes?

O gerenciamento de incidentes é o processo usado pelas equipes de operações de desenvolvimento e TI para responder a um evento ou interrupção de serviço não planejada e restaurar o serviço ao estado operacional.

Na Atlassian, um incidente é um evento que causa interrupção ou redução na qualidade de um serviço que requer uma resposta de emergência. As equipes que seguem as práticas da ITIL ou do ITSM podem usar o termo incidente grave.

Obtenha o Manual de Gerenciamento de Incidentes

Baixe o PDF para conhecer os princípios e as práticas de gerenciamento de incidentes e como aplicar essas lições usando o Jira Service Management.

Leia o manual

Os incidentes são eventos de qualquer tipo que interrompem ou reduzem a qualidade do serviço (ou ameaçam ter esse efeito). Um aplicativo de negócios que deixa de funcionar é um incidente. Um servidor da web muito lento também pode ser um incidente. A execução está muito lenta e afetando a produtividade. Pior ainda, ele apresenta o risco ainda maior de falha total. Os incidentes podem variar muito em gravidade, de uma falha no serviço web global a um pequeno número de usuários com erros intermitentes.

Um incidente é resolvido quando o serviço afetado volta a funcionar no estado pretendido. Estão incluídas apenas as tarefas necessárias para atenuar o impacto e restaurar a funcionalidade.

A importância do gerenciamento de incidentes

Valores do gerenciamento de incidentes da Atlassian

O gerenciamento de incidentes é um dos processos mais importantes que uma empresa precisa acertar. As interrupções de serviço podem custar caro para os negócios e as equipes precisam de uma maneira eficiente de responder e resolver esses itens com rapidez. As equipes precisam de um método confiável para priorizar incidentes, chegar à resolução com mais rapidez e oferecer um serviço melhor aos usuários.

Quando as equipes enfrentam um incidente, elas precisam de um plano que as ajude a:

Responder com eficácia para que possam se recuperar com rapidez.
Estabelecer com clareza a comunicação com os clientes, interessados, proprietários de serviços e outros na empresa.
Colaborar com eficácia para resolver o item com mais rapidez como equipe e remover barreiras que impedem que elas resolvam o item.
Fazer melhorias com continuidade para aprender com essas interrupções e aplicar as lições para melhorar um serviço e refinar o processo para o futuro.

Quer ver como a Atlassian lida com incidentes graves? A gente publicou o manual interno de gerenciamento de incidentes. Fique à vontade para aprender com ele, adaptá-lo e usá-lo como quiser.

Confira o manual

Tipos de processos de gerenciamento de incidentes

Tipos diferentes de empresas tendem a gravitar em direção a tipos diferentes de processos de gerenciamento de incidentes. Nenhum processo único é o melhor para todas as empresas, então é provável que você veja várias abordagens em empresas diferentes.

Muitas equipes contam com um processo de gerenciamento de incidentes de TI mais tradicional, como os descritos nas certificações ITIL. Outras equipes se voltam para um processo de gerenciamento de incidentes mais no estilo de Engenheiro de confiabilidade do site (SRE) ou DevOps.

Processo de gerenciamento de incidentes de TI

Um processo de gerenciamento de incidentes ajuda as equipes de TI a investigar, registrar e resolver interrupções ou paralisações de serviço. O fluxo de trabalho de gerenciamento de incidentes da ITIL visa reduzir o tempo de inatividade e minimizar o impacto na produtividade dos funcionários decorrentes de incidentes. Com o uso de templates criados para gerenciar incidentes, você pode criar um fluxo de trabalho de gerenciamento de incidentes repetível que garante que as equipes registrem, diagnostiquem e resolvam incidentes, mantendo um registro das atividades.

A estrutura da ITIL é usada em particular por equipes de TI que executam serviços dentro das empresas. Em geral, as equipes pegam o que precisam da ITIL, que abrange quase todos os tipos de incidentes, itens e processos que as equipes de TI podem enfrentar e descartam o restante. A ITIL é ótima quando as equipes precisam se concentrar em cultivar uma cultura de solução de problemas ativa. Os processos prescritos ajudam as equipes a rastrear incidentes e ações com consistência, o que melhora os relatórios e análises e pode levar a um serviço mais saudável e uma equipe mais bem-sucedida.

Etapas no processo de gerenciamento de incidentes de TI

Identificar e registrar um incidente

Um incidente pode vir de qualquer lugar: um funcionário, um cliente, um fornecedor, sistemas de monitoramento. Não importa a origem, as primeiras duas etapas são simples: alguém identifica um incidente e, depois, alguém o registra. Esses registros de incidente (ex.: tickets) costumam incluir:

O nome da pessoa que relatou o incidente
A data e hora que o incidente foi relatado
Uma descrição do incidente (o que está inativo ou não funciona direito)
Um número de identificação exclusivo atribuído ao incidente para o rastreamento

Categorizar

Atribua uma categoria (e subcategoria, conforme a necessidade) lógica e intuitiva a cada incidente. Fazendo assim, você possibilita a análise de dados em busca de tendências e padrões, o que é uma parte essencial de um gerenciamento de problemas efetivo e da prevenção de incidentes futuros.

Priorize

Cada incidente deve ser priorizado. Comece avaliando o impacto nos negócios, o número de pessoas que vão ser afetadas e os SLAs aplicáveis, assim como as possíveis implicações financeiras, de segurança e conformidade do incidente. Compare esse incidente com todos os outros incidentes abertos para determinar a prioridade relativa. Como prática recomendada, defina os níveis de gravidade e prioridade antes que um incidente ocorra, facilitando aos gerenciadores de incidentes medir a prioridade com rapidez.

Responder

Diagnóstico inicial: em uma situação ideal, a equipe de suporte de linha de frente pode ver um incidente do diagnóstico ao fechamento, mas se não for possível, a etapa seguinte é registrar todas as informações pertinentes e escalonar para a próxima equipe de nível.
Escalonar: a equipe seguinte assume os dados registrados e continua com o processo de diagnóstico. Se essa equipe não conseguir diagnosticar o incidente, ela vai escalonar para a próxima.
Comunicar: a equipe compartilha com frequência atualizações com interessados afetados, tanto internos quanto externos.
Investigação e diagnóstico: continua até que a natureza do incidente seja identificada. Às vezes, as equipes utilizam recursos externos ou outros membros do departamento para consultar e ajudar com a resolução.
Resolução e recuperação: nessa etapa, a equipe chega a um diagnóstico e realiza as etapas necessárias para resolver o incidente. A recuperação implica a quantia de tempo que pode levar para que as operações sejam restauradas por completo, uma vez que algumas correções (como correções de bugs etc.) podem exigir teste e implementação mesmo após a resolução adequada ser identificada.
Encerramento: se o incidente tiver sido escalonado, ele retorna à central de atendimento para ser encerrado. Para manter a qualidade e garantir um processo sem problemas, apenas os funcionários da central de atendimento têm permissão para encerrar incidentes e o proprietário do incidente deve verificar com a pessoa que relatou o incidente se a resolução é satisfatória e o incidente pode, de fato, ser encerrado.

Processo de gerenciamento de incidentes de DevOps e SRE

Com uma abordagem DevOps ou SRE para o gerenciamento de incidentes, a equipe que cria o serviço também o executa e o corrige se ele parar de funcionar. Essa abordagem ganhou popularidade com o crescimento de serviços contínuos de nuvem, aplicativos web acessados em todo mundo, microsserviços e software como serviço.

Cada vez mais, o software em que você confia para a vida e o trabalho não está hospedado em um servidor na mesma localização física que você. É provável que seja um aplicativo acessado pela web implementado em um data center para milhares ou milhões de usuários em todo o mundo. Para equipes encarregadas de executar esses serviços, agilidade e velocidade são fundamentais. Qualquer tempo de inatividade tem o potencial de afetar milhares de empresas, não apenas uma.

Uma vantagem da abordagem "você cria, você gerencia" é que ela oferece a flexibilidade que as equipes ágeis precisam, mas também pode deixar confuso quem é responsável pelo quê e quando. As equipes de DevOps podem ficar confortáveis e bem-sucedidas com processos de desenvolvimento menos estruturados. Mas é melhor padronizar um conjunto central de processos para o gerenciamento de incidentes, para que não haja perguntas de como responder no calor de um incidente e para que você possa acompanhar itens e relatar como eles são resolvidos.

Três crenças das equipes de gerenciamento de incidentes para DevOps

Faça revezamentos no plantão: em vez de certos membros da equipe especializados em estar de plantão, as equipes de DevOps revezam de acordo com um cronograma de plantão, onde todos os membros compartilham a possibilidade de serem acordados à noite para responder a um incidente.
O engenheiro que criou é a melhor pessoa para corrigir: a ideia central do princípio "você cria, você gerencia" é que as pessoas mais familiarizadas com o serviço (os criadores) são as mais bem equipadas para corrigir uma interrupção.
Crie com velocidade, mas pratique com responsabilidade: quando os engenheiros sabem que eles e os colegas de equipe estão encarregados durante as interrupções, há um incentivo adicional para garantir que você implemente código de qualidade.

Essa abordagem garante tempos de resposta e feedback mais rápidos para as equipes que precisam saber como criar um serviço confiável.

A gente descreve uma abordagem favorável a DevOps para o gerenciamento de incidentes no Manual de incidentes da Atlassian.

Ferramentas de gerenciamento de incidentes

O gerenciamento de incidentes não é feito apenas com uma ferramenta, mas com a combinação certa de ferramentas, práticas e pessoas. Veja abaixo várias das categorias de ferramentas mais comuns para o gerenciamento de incidentes efetivo:

Rastreamento de incidentes: cada incidente deve ser rastreado e documentado para que você possa identificar tendências e fazer comparações ao longo do tempo.
Sala de bate-papo: a comunicação de texto em tempo real é crucial para diagnosticar e resolver o incidente como uma equipe. E propicia um conjunto rico de dados para análise de resposta mais tarde.
Bate-papo por vídeo: o bate-papo por vídeo complementa o bate-papo de texto para muitos incidentes. A equipe do bate-papo por vídeo pode ajudar a discutir os resultados e mapear uma estratégia de resposta.
Sistema de alerta: uma ferramenta como o Jira Service Management se integra ao sistema de monitoramento e gerencia rotações e escalonamentos de plantão.
Ferramenta de documentação: uma ferramenta como o Confluence pode capturar documentos de estado de incidentes e análises retrospectivas.
Statuspage: a comunicação do status com interessados internos e com os clientes por meio do Statuspage ajuda a manter todos informados.

Tópicos sobre gerenciamento de incidentes

Manual de gerenciamento de incidentes da Atlassian

Este manual apresenta processos reais de gerenciamento de incidentes que a gente criou como uma empresa global com milhares de funcionários e mais de 200.000 clientes.

Práticas recomendadas da comunicação de incidentes

A comunicação de incidentes é o processo de alertar os usuários de que algum serviço está passando por algum tipo de interrupção ou teve queda no desempenho.

Resposta a incidentes

A resposta a incidentes é o processo de uma empresa para reagir a ameaças de TI, como ataques cibernéticos, violação de segurança e tempo de inatividade do servidor. Saiba mais sobre o processo.

De plantão

As equipes de plantão estão evoluindo com rapidez. Explore os prós e contras de diferentes abordagens ao gerenciamento de plantão.

Ferramentas

Não existe uma ferramenta única que atenda a todos os casos do gerenciamento de incidentes. Saiba como escolher ferramentas de gerenciamento de incidentes abertas, confiáveis e adaptáveis.

Análise retrospectiva

Uma análise retrospectiva de incidente, também conhecida como revisão pós-incidente, é a melhor maneira de trabalhar o que aconteceu durante um incidente e capturar as lições aprendidas.

DevOps

Para as equipes que praticam DevOps, o processo de Gerenciamento de Incidentes (GI) se concentra na transparência e em melhorias contínuas no ciclo de vida do incidente.

Tutoriais apresentados

Tutorial

Comunicação de incidentes

Neste tutorial, você vai ver como usar templates de incidentes para se comunicar com eficácia durante interrupções. Adaptável a muitos tipos de interrupção de serviço.

Tutorial

Cronograma de plantão

Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.

Quer saber mais sobre o gerenciamento de incidentes no Jira Service Management?

Acessar o guia

Tutorial

Configuração de um on-call schedule com o Opsgenie

Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.

Leia este tutorial

a seguir

Prós e contras de diferentes abordagens ao gerenciamento de plantão

As equipes de plantão estão evoluindo com rapidez. Explore os prós e contras de diferentes abordagens ao gerenciamento de plantão.

Leia este artigo

Registre-se para ver mais artigos e tutoriais

Thank you for subscribing

Destaque

Jira Software

Confluence

Jira Service Management

Trello

Marketplace

O que há de novo

Compass

Jira Product Discovery

Você pode achar útil

Destaque

Gerenciamento do trabalho

Gestão de serviços de TI

Agilidade e DevOps

Por tamanho da equipe

Por função da equipe

Por setor

O que há de novo

Atlassian Together

Você pode achar útil

Saiba mais

Suporte

Conecte

O suporte para os produtos Server termina em 15 de fevereiro de 2024

O que há de novo

Atlassian Presents: Unleash

Jira Service Management

ITSM

Guia do produto

Biblioteca de recursos

Gerenciamento de serviços para equipes de operações de TI, desenvolvimento e negócios

Como gerenciar a entrega de serviços de TI de ponta a ponta

Tudo o que você precisa saber para configurar o JSM

Recursos da biblioteca do Jira Service Management

Jira Service Management

ITSM

Guia do produto

Biblioteca de recursos

Gerenciamento de serviços para equipes de operações de TI, desenvolvimento e negócios

Como gerenciar a entrega de serviços de TI de ponta a ponta

Tudo o que você precisa saber para configurar o JSM

Recursos da biblioteca do Jira Service Management

Gerenciamento de incidentes para equipes de alta velocidade

O que é gerenciamento de incidentes?

Obtenha o Manual de Gerenciamento de Incidentes

A importância do gerenciamento de incidentes

Tipos de processos de gerenciamento de incidentes

Processo de gerenciamento de incidentes de TI

Etapas no processo de gerenciamento de incidentes de TI

Processo de gerenciamento de incidentes de DevOps e SRE

Três crenças das equipes de gerenciamento de incidentes para DevOps

Ferramentas de gerenciamento de incidentes

Tópicos sobre gerenciamento de incidentes

Manual de gerenciamento de incidentes da Atlassian

Práticas recomendadas da comunicação de incidentes

Resposta a incidentes

De plantão

Ferramentas

Análise retrospectiva

DevOps

Tutoriais apresentados

Comunicação de incidentes

Cronograma de plantão

Configuração de um on-call schedule com o Opsgenie

Prós e contras de diferentes abordagens ao gerenciamento de plantão

Registre-se para ver mais artigos e tutoriais