TI CorporativaGovernançaIncidentes X Problemas

Incidentes X Problemas

-

Publicidade

Figura - Incidentes X ProblemasApesar de já ter sido muito discutido, este é um assunto que eu gosto muito de abordar.  Primeiro porque ainda percebo a dificuldade das pessoas em explicar a diferença entre estes dois importantes processos da biblioteca ITIL. E segundo porque já me deparei com a seguinte afirmação em alguns artigos: “um incidente que não tem sua causa raiz identificada acaba se tornando um problema.”

Este conceito é incorreto! Um incidente não se torna um problema! E neste post vou explicar o porquê.

Vamos começar separando os conceitos básicos de cada um.

Segundo o ITIL (2011):

  • “Incidente: É uma interrupção não planejada de um serviço de TI ou uma redução da qualidade de um serviço de TI”.
  • “Problema: é a existência de um erro cuja causa é desconhecida. É a causa desconhecida de um ou mais incidentes”.
  • “Incidentes são causados por problemas que precisam ser resolvidos”.

Se Problema é a causa desconhecida de um ou mais Incidentes, logo um incidente não pode se tornar um problema pelo simples fato de que o incidente só ocorre porque já existe um problema, cuja a causa raiz é desconhecida.

Problemas causam Incidentes. Incidentes não causam problemas.

O processo de Gerenciamento de Incidentes tem por objetivo restaurar a operação do serviço normal o mais rápido possível e minimizar o impacto negativo sobre as operações de negócio.   Este processo tem grande importância para que os Acordos de Nível de Serviço sejam cumpridos.

O processo de Gerenciamento de Problemas tem por objetivo encontrar a causa  raiz de um ou mais incidentes de forma a eliminá-los da infraestrutura, evitando a recorrência dos incidentes e possibilitando o cumprimento dos Níveis de Serviço. Menos incidentes, maior disponibilidade.

Agora que já passamos pelos conceitos de cada um, vamos detalhar mais um pouco as diferenças entre estes dos dois processos.

Vou contar uma situação real para exemplificar os conceitos destes dois processos. Imaginem as seguintes situações:

Situação 1:

Você é um analista de infraestrutura que faz parte da gerência de incidentes. Todos os dias você executa uma rotina de inicialização dos serviços de rede dos departamentos.

Ao final do processo é gerado um relatório com os resultados.

Ao analisar o relatório, você repara que os servidores do departamento de Marketing não foram iniciados, gerando um log de erro.

Como você tem que resolver a situação imediatamente, você reinicia o switch que atende ao departamento de marketing.

No dia seguinte, o mesmo erro ocorre e os servidores do marketing não são inicializados automaticamente. Você então força a inicialização manual destes servidores.

E assim esta situação se repete por mais alguns dias.

Situação 2:

Você então não querendo perder tempo para fazer a inicialização manual e nem ficar reiniciando o switch toda hora, decide criar uma bat dentro da rotina de inicialização automática que faz com que reforce a ação naqueles servidores.

Situação 3:

O seu gerente analisa o relatório do mês e verifica os logs de erro dos servidores e te questiona sobre a situação. Você explica a situação e conta como fez para se “livrar” do erro.

Seu gerente então percebe que deve ser feita uma investigação aprofundada sobre a causa raiz do erro.  O gerente então aciona a Gerência de Problemas, que o orienta a registrar o problema, detalhando os erros ocorridos, as ações já executas e com o anexo do relatório com os logs de erro.

Situação 4:

A equipe de Gestão de Problemas entra em ação e inicia as análises de causa. Após algum tempo de investigação, a equipe descobre que o switch que atende ao servidor do departamento de Marketing está funcionando de forma instável. Como se trata de um equipamento muito antigo, a solução dada como definitiva é a troca do equipamento.

Situação 5:

O switch é trocado. Após realização de testes, os servidores são inicializados com sucesso. O registro do problema é encerrado e todas as ações documentadas.

Então:

Na situação 1: você tem um Incidente Recorrente

Na situação 2: você aplica uma Solução de Contorno

Na situação 3: você decide tratar a Causa Raiz do problema

Na situação 4: você tem o Erro Conhecido, que é um problema cuja causa já foi identificada, com a subsequente determinação de uma solução definitiva e/ou solução de contorno.

Na situação 5: você tem a aplicação da Solução Definitiva.

Como vimos, apesar de serem processos separados, o Gerenciamento de Problemas está ligado ao Gerenciamento de Incidentes. A gerência de incidentes sempre será input para a gerência de problemas durante a tratativa de um evento que cause indisponibilidade no ambiente.

Percebem que pela própria essência do processo, a resolução de um problema é tratada de forma aprofundada, diferente da gestão de incidentes? Isso porque tratar a causa raiz exige pesquisa, análises de causa (existem várias técnicas que auxiliam nas análises) e por isso demanda maior tempo para sua conclusão. Enquanto a gerência de incidentes deve “apagar o incêndio” imediatamente para normalizar o serviço. Por isso é muito importante que a gerência de problemas tenha uma equipe separada da gerência de incidentes.

Equipes separadas e registros separados!

É indicado que haja uma equipe específica para tratar dos problemas, com seus atores definidos, com rotinas de validações, priorizações junto à gerência, indicadores e divulgação dos resultados.

A TIEXAMES (2008) afirma que “nunca se deve utilizar o registro de um Incidente para tratar um Problema”. Ou seja, é necessário um registro para cada processo. Sobre este item, o ITIL (2011) recomenda que “o software da central de serviços (ferramenta de ITSM) seja capaz de vincular o registro do Incidente no registro do Problema, e vice-versa”.

Além de registros separados, mas que se relacionem (rastreabilidade), o importante é que as soluções de contorno devem ser documentadas na base de erros conhecidos para prover eficácia e agilidade no Gerenciamento de Incidentes.

Bem, espero ter ajudado na desmistificação da diferença entre Incidentes e Problemas.

Até o próximo post!

Raquel Brito
Graduada Administração de Empresas pela Universidade Candido Mendes e em Gestão de Redes de Computadores pela Universidade Estácio de Sá.MBA em Gestão de Projetos e MBA em Gestão Empresarial, ambas pela Universidade Veiga de Almeida.PMP, Green Belt e Especialista ITIL.Consultora independente, com 15 anos de experiência, atuando nas áreas de Planejamento Estratégico, Gestão de Projetos, Otimização de Processos, Governança Corporativa e Gestão da Qualidade.Atuou em empresas dos segmentos de: óleo e gás, abastecimento, telecomunicações, logística, banco de investimentos, Tecnologia da Informação, Centro de Serviços Compartilhados e Mídias Digitais e Impressas.

1 COMMENT

  1. Excelente artigo Raquel. Uma ótima explicação quanto a diferença e relação entre Incidentes e Problemas.
    Quando não há esta definição clara de papéis, o caos pode se instaurar comprometendo base de conhecimento, indicadores e até a resolução do problema.

Latest news

Rápido, seguro e nativo: Chrome chega ao Windows no Snapdragon

"Projetamos o navegador Chrome para ser rápido, seguro e fácil de usar em desktops e dispositivos móveis, e estamos sempre procurando maneiras de levar essa experiência a mais pessoas", disse Hiroshi Lockheimer, Senior Vice President, Google.

Convergir segurança física e TI garante maior proteção para instalações, redes e negócios

Hoje, com o aumento das violações de dados em todo o mundo e as regulamentações de privacidade evoluindo rapidamente, é mais importante do que nunca que segurança física e TI trabalhem juntas para proteger instalações e infraestrutura de rede.

Evoluindo de modelos LLM para modelos LAM

Os modelos LAMs marcam um avanço fundamental na inteligência artificial, transcendendo as capacidades convencionais de geração de texto dos LLMs. Ao contrário dos LLMs que respondem com texto, os LAMs captam a intenção por trás da linguagem humana, decifrando objetivos complexos. Eles então traduzem esses objetivos em ações do mundo real, como por exemplo, filtrar e-mails com base em suas tarefas agendadas.

O impacto da IA generativa nas memórias RAM e SSDs: Um olhar sobre o futuro do hardware

Algoritmos de IA otimizados podem reduzir o uso de RAM ao aplicar técnicas como computação distribuída e processamento eficiente de dados, garantindo uma melhor utilização da memória disponível. Da mesma forma, um uso eficiente dos SSDs pode minimizar o impacto das operações de entrada/saída (I/O) no desempenho.
Publicidade

5 Insights sobre Gestão da Experiência

Empresas de referência em Gestão da Experiência crescem 190% mais que a média do seu segmento. É o que aponta o Relatório do Boston Consulting Group (BCG). E os resultados positivos não param por aí: o retorno de investimento pode ser até 55% maior para acionistas das empresas em um prazo de cinco anos e o NPS chega a aumentar cerca de 70%.

Vazamento de dados do Google revela os segredos do algoritmo de buscas e mostra o que realmente funciona

O vazamento de informações desmistifica uma série de declarações feitas nos últimos anos de que o Google utiliza determinadas variáveis para ranquear os sites. Entre as milhares de páginas, que funcionam como um repositório de informações, é possível definir com mais clareza quais dados são realmente usados para classificar o conteúdo da pesquisa, e pode-se ter uma ideia de quais informações a comunidade de SEO já imaginava que eram reais — mas o Google dizia que não.

Must read

Rápido, seguro e nativo: Chrome chega ao Windows no Snapdragon

"Projetamos o navegador Chrome para ser rápido, seguro e fácil de usar em desktops e dispositivos móveis, e estamos sempre procurando maneiras de levar essa experiência a mais pessoas", disse Hiroshi Lockheimer, Senior Vice President, Google.

Convergir segurança física e TI garante maior proteção para instalações, redes e negócios

Hoje, com o aumento das violações de dados em todo o mundo e as regulamentações de privacidade evoluindo rapidamente, é mais importante do que nunca que segurança física e TI trabalhem juntas para proteger instalações e infraestrutura de rede.
- Advertisement -

You might also likeRELATED
Recommended to you