terça-feira, 13 de julho de 2010

Como diminuir o tempo de resposta a incidentes

Incidentes são inevitáveis e cada organização é diferente em termos de riscos associados com os vários tipos de incidentes. Gerenciando os riscos de uma maneira aceitável ,exige um equilíbrio entre atividades preventivas para minimizar os incidentes, o gerenciamento de mudanças e problemas e a capacidade para responder e resolver incidentes de forma eficaz e eficiente.

No ITIL v3, existem dois conceitos que os grupos que buscam melhorar seus processos devem estar familiarizados: o Ciclo de Vida Expandido do Incidente e o processo de Gerenciamento de Eventos.


CICLO DE VIDA EXPANDIDO DO INCIDENTE
Na seção Service Design do livro do ITIL, na abordagem de Gerenciamento de Disponibilidade há uma grande discussão sobre o Ciclo de Vida Expandido do Incidente (EIL) e a necessidade de compreendê-lo, a fim de melhorar a disponibilidade. Em essência, o EIL pega um incidente e divide-o em fases que podem ser formalmente previstas como parte do design de serviços e melhoradas ao longo do tempo:

Ocorrência - Embora não seja exatamente uma fase, vale a pena reconhecer que os incidentes acontecem e que devem ser tomadas medidas para reduzir de forma pragmática a sua ocorrência.

Detecção - Após iniciado um incidente, o próximo passo é detectar o evento. Preferencialmente deve ser através de um esquema de monitoramento ou, pelo menos que a detecção seja feita pela TI, mas sem descartar a hipótese de ser detectado por clientes e usuários o que está longe do ideal. Muitas vezes, a diferença entre a ocorrência e detecção é uma das maiores durações e ofereça oportunidades de melhoria.

Diagnóstico - A próxima etapa é determinar o que está errado. A primeira pergunta deve ser sempre "O que mudou?", pois sabemos que 80% dos incidentes de disponibilidade são resultado de uma mudança no ambiente. Qualquer tipo de mudança em um dado item de configuração relacionado ao serviço, deve ser incluída ou excluída o mais rápido possível para agilizar o diagnóstico.

Reparação - Após o diagnóstico vêm as atividades associadas com a reparação do item de configuração (IC) que falhou. Um novo hardware pode ser solicitado, fornecedores contatados, consultores trazidos e assim por diante. A maior diferença aqui é compreender como um dado IC foi configurado. Empresas com sistemas eficientes de gestão configuração (CMS), saberão de imediato, enquanto outros terão de realizar uma verdadeira arqueologia forense para tentar identificar isso (perderão um tempo precioso no processo).




Restabelecimento - Quando o IC for reparado, ele deve ser trazido de volta on-line, incluindo recarga de todas as imagens necessárias, aplicações e/ou dados. Novamente, o conhecimento exato e rápido sobre os ICs acelerarão esse processo, com imagens padrões a serem restauradas ao invés da construção de um sistema único a partir do zero.

Restauração - A última etapa é a restauração do serviço. Pode ser que os ICs conectados devam ser reiniciados em uma determinada ordem para restabelecer a conectividade, e assim por diante. Se a documentação do design de serviços, do projeto e/ou procedimentos operacionais padrão estiverem facilmente acessíveis e precisos, ajudarão a restaurar os grupos de serviços.

O processo de gestão de incidentes deve ser aplicado corretamente como um pré-requisito e, em seguida, o EIL é uma ferramenta poderosa, como plano de prevenção a incidentes futuros, bem como para analisar os incidentes ao procurar oportunidades de melhoria de processos.



GERENCIAMENTO DE EVENTOS

Este processo é identificado no livro ITIL Service Operation e, quando conjugado com o EIL, pode ajudar a reduzir o tempo de resposta a incidentes e melhorar o tempo médio de reposição do serviço (MTR). Mesmo que seja no livro Service Operation, a programação de eventos começa no Service Design e é um processo formal.

De uma perspectiva básica, um evento é uma mudança de estado. O processo de Gerenciamento de Evento olha as partes afetadas por um serviço e pergunta: "O que precisamos acompanhar para administrar este serviço?" Os resultados são, então, incluídos no design do serviço, incluindo a documentação. Esta é uma melhoria dramática sobre a abordagem muito comum de descobrir o que procurar, como monitorar e em seguida como responder de forma pontual, muitas vezes pós-incidente.

Nenhum comentário:

Postar um comentário