Identificação Interativa da Causa Raiz de Problemas no Gerenciamento de Mudanças de TI Ricardo Luis dos Santos
Aluno de Mestrado
Prof. Dr. Lisandro Zambenedetti Granville
Orientador
Universidade Federal do Rio Grande do Sul, Brasil
• Introdução
• Solução Proposta
• Processo de Diagnóstico
• Arquitetura Conceitual
• Root Cause Analyzer
• Modelo de Informação
• Estratégias para Seleção de Perguntas
• Avaliação
• Conclusões
• Trabalhos Futuros
Roteiro
Introdução
• Contexto
• A complexidade das infraestruturas de TI torna a tarefa de gerenciamento uma missão crítica
• O Gerenciamento de Serviços tem por objetivo implantar e controlar os processos de TI
• ITIL (Information Technology Infrastructure Library) tornou-se a mais importante coletânea de boas práticas e processos
• Gerenciamento de Mudanças de TI
• Dita a forma como uma infraestrutura de TI deve evoluir de maneira consistente e segura
• Determina como uma mudança deve ser conduzida
3 de 55
Introdução
• Gerenciamento de Problemas
• Define como o ciclo de vida de problemas de TI deve ser gerenciado
• Os principais objetivos são
• Prevenir a ocorrência de problemas
• Eliminar problemas recorrentes
• Minimizar o impacto de incidentes que não possam ser evitados
• Para atingir esses objetivos é fundamental identificar a causa raiz de problemas de TI
4 de 55
Introdução
• Cenário Atual
• Muitas organizações utilizam ferramentas que auxiliam na identificação da causa de falhas
• A causa da falha é identificada através de um conjunto de passos pré-definidos, também chamado de caso
• Quando não identificam a causa da falha, tais ferramentas fornecem informações relevantes
• Possibilitam a reutilização do conhecimento, o que resulta em uma redução de custos
• Porém, tais ferramentas possuem sérias limitações
• Não possuem um padrão para descrever os casos, que são especificados de forma estática e ad hoc
• Dificuldade na reutilização de casos
• Por serem de difícil manutenção, os casos tornam-se desatualizados
5 de 55
Introdução
• Problemas
• Diversos diagnósticos deixam de ser concluídos corretamente devido a desatualização dos casos
• A infraestrutura de TI, na qual ocorre a falha, é ignorada
• Dados de identificações anteriores não são considerados em novos diagnósticos
• Estado da arte
• Diversos aspectos relacionados à falhas e ao gerenciamento de TI são abordados, tais como, riscos, priorização, categorização e automatização
• No entanto, nenhuma das pesquisas permite identificar a causa raiz de falhas na execução de mudanças
6 de 55
Introdução
• Objetivos
• Otimizar o processo de identificação de causas raiz de falhas ocorridas em mudanças de TI
• Propor uma solução para a identificação de causas de falhas em processos de mudança
• Ser flexível às evoluções da infraestrutura de TI
• Possuir casos adaptáveis à falhas similares
• Ser compatível com o padrão para representação de infraestruturas
• Reutilizar o conhecimento adquirido por experiências anteriores
7 de 55
Interactive Diagnosis
Solução Proposta Processo de Diagnóstico
Problem Report Answered
Question
Root Cause Question
Selection
8 de 55
PR RC
Help Desk Root Cause
Analyzer
Operator
Config. Mgmt.
Database
Change Management System
Change
Planner
Change
Designer
Solução Proposta Arquitetura Conceitual
Operator
9 de 55
Deployment
System
RFC
Config. Mgmt.
Database
Diagnosis System
Change Management System
Change
Planner
Change
Designer
Solução Proposta Arquitetura Conceitual
Operator
9 de 55
Deployment
System
Diagnosis Log
Recorder
RC
Root Cause
Analyzer
RFC
Config. Mgmt.
Database
Diagnosis System
Diagnosis Log
Recorder
RC
Change Management System
Change
Planner
Change
Designer
Solução Proposta Arquitetura Conceitual
Operator
9 de 55
Deployment
System
Root Cause Analyzer
Question
Selector
Question
Verifier RC
Input
Processor
CI CI
RC RC RC
PR
RFC
Root Cause
Analyzer
Log
Log Log Log CI CI CI
Solução Proposta Root Cause Analyzer
10 de 55
Reports the
problem
CI
Priority
…
Operator Diagnosis
System
PR
Log Log Log CI CI CI
Solução Proposta Root Cause Analyzer
10 de 55
IDENTIFIES:
•Logs of previous diagnoses
•RCs, Diagnostic Sets (categories)
•Affected CIs
Diagnosis
System
PR
Operator
Root Cause Analyzer
Solução Proposta Root Cause Analyzer
11 de 55
Question Verifier
Obvious?
Threshold
80% with the
same answer
Input Processor
CI CI
RC RC RC Identification
based on
categories
Identification
based on PR
Identification
based on RCs
Question Selector
Selects the
Question has
the greatest
weight/level
Selects the
Category that
has the greatest
weight
Calculates the
weights
according to the
strategy
Log
Solução Proposta Root Cause Analyzer
• Um exemplo de infraestrutura de TI
12 de 55
Diagnosis
System
Solução Proposta Root Cause Analyzer
13 de 55
Log Log Log CI CI CI
CI Category
CI Category
Internet Third Party Services
WEB Server (215) System ► Computer System ► Server ► Web Server
DNS Server (423) System ► Computer System ► Server ► DNS Server
Apache 2.2 Software ► Web Server
PHP 5.0.2 Software ► Programming Language
Hard Disk Device ► Storage Devices
Network Card Device ► Network Cards
PR
Root Cause Analyzer
Solução Proposta Root Cause Analyzer
14 de 55
Question Verifier
Obvious?
Threshold
80% with the
same answer
Input Processor
RC RC RC Identification
based on
categories
Identification
based on PR
Identification
based on RCs
Question Selector
Selects the
Question has
the greatest
weight/level
Selects the
Category that
has the greatest
weight
Calculates the
weights
according to the
strategy
CI CI Log
Diagnosis
System
Solução Proposta Root Cause Analyzer
15 de 55
Log Log Log CI CI CI
Select diagnostic sets
based on categories
of CIs identified
RC RC RC RC RC
Configuration
Mgmt. DataBase
RCs and Diagnostic Sets
PR
Web S
erv
er
Solução Proposta Root Cause Analyzer
16 de 55
Sys
tem
Third
Party S
ervic
es
Applic
atio
n
Com
pute
r Sys
tem
Serve
r
Web S
erv
er
Devic
e
Netw
ork
Card
RC
RC
RC RC
RC
RC
RC
RC
RC
RC
RC
RC
RC
RC
RC
RC
RC
RC
RC
RC RC
RC
System ► Computer System ► Server ► Web Server
Application ► Web Server
Device ► Network Cards
Third Party Services
Web
Serv
er
Solução Proposta Root Cause Analyzer
17 de 55
Syste
m
Third
Party
Serv
ices
Softw
are
Com
pute
r Syste
m
Serv
er
Web S
erv
er
Devic
e
Netw
ork
Card
Root Cause Analyzer
Solução Proposta Root Cause Analyzer
18 de 55
Question Verifier
Obvious?
Threshold
80% with the
same answer
Input Processor
RC RC RC Identification
based on
categories
Identification
based on PR
Identification
based on RCs
Question Selector
Selects the
Question has
the greatest
weight/level
Selects the
Category that
has the greatest
weight
Calculates the
weights
according to the
strategy
CI CI Log
Root Cause Analyzer
Solução Proposta Root Cause Analyzer
18 de 55
Question Verifier
Obvious?
Threshold
80% with the
same answer
Input Processor
RC RC RC Identification
based on
categories
Identification
based on PR
Identification
based on RCs
Question Selector
Selects the
Question has
the greatest
weight/level
Selects the
Category that
has the greatest
weight
Calculates the
weights
according to the
strategy
CI CI Log
Solução Proposta Root Cause Analyzer
19 de 55
Third
Party
Serv
ices
Softw
are
W
eb S
erv
er
Devic
e
Netw
ork
Card
74
30
5
95
70
Web
Serv
er
Syste
m C
om
pute
r Syste
m
Serv
er
35
30
26
20
Root Cause Analyzer
Solução Proposta Root Cause Analyzer
20 de 55
Question Verifier
Obvious?
Threshold
80% with the
same answer
Input Processor
RC RC RC Identification
based on
categories
Identification
based on PR
Identification
based on RCs
Question Selector
Selects the
Question has
the greatest
weight/level
Selects the
Category that
has the greatest
weight
Calculates the
weights
according to the
strategy
CI CI Log
Solução Proposta Root Cause Analyzer
21 de 55
Third
Party
Serv
ices
Softw
are
W
eb S
erv
er
Devic
e
Netw
ork
Card
74
30
5
95
70
Web
Serv
er
Syste
m C
om
pute
r Syste
m
Serv
er
35
30
26
20
Solução Proposta Root Cause Analyzer
21 de 55
Third
Party
Serv
ices
Softw
are
W
eb S
erv
er
Devic
e
Netw
ork
Card
74
30
5
95
70
Web
Serv
er
Syste
m C
om
pute
r Syste
m
Serv
er
35
30
26
20
Root Cause Analyzer
Solução Proposta Root Cause Analyzer
22 de 55
Question Verifier
Obvious?
Threshold
80% with the
same answer
Input Processor
RC RC RC Identification
based on
categories
Identification
based on PR
Identification
based on RCs
Question Selector
Selects the
Question has
the greatest
weight/level
Selects the
Category that
has the greatest
weight
Calculates the
weights
according to the
strategy
CI CI Log
Solução Proposta Root Cause Analyzer
23 de 55
Third
Party
Serv
ices
Softw
are
Web S
erv
er
Devic
e
Netw
ork
Card
74
30
5
95
70
Web
Serv
er
Syste
m C
om
pute
r Syste
m
Serv
er
35
30
26
20
Questions RC 1 (10)
Questions RC 2 (20)
Questions RC 3 (40)
Questions RC 4 (25)
Questions RC 1,3 (50)
Solução Proposta Root Cause Analyzer
23 de 55
Third
Party
Serv
ices
Softw
are
Web S
erv
er
Devic
e
Netw
ork
Card
74
30
5
95
70
Web
Serv
er
Syste
m C
om
pute
r Syste
m
Serv
er
35
30
26
20
Questions RC 1 (10)
Questions RC 2 (20)
Questions RC 3 (40)
Questions RC 4 (25)
Questions RC 1,3 (50)
Root Cause Analyzer
Solução Proposta Root Cause Analyzer
24 de 55
Question Verifier
Obvious?
Threshold
80% with the
same answer
Input Processor
RC RC RC Identification
based on
categories
Identification
based on PR
Identification
based on RCs
Question Selector
Selects the
Question has
the greatest
weight/level
Selects the
Category that
has the greatest
weight
Calculates the
weights
according to the
strategy
CI CI Log
Root Cause Analyzer
Solução Proposta Root Cause Analyzer
24 de 55
Question Verifier
Obvious?
Threshold
80% with the
same answer
Input Processor
RC RC RC Identification
based on
categories
Identification
based on PR
Identification
based on RCs
Question Selector
Selects the
Question has
the greatest
weight/level
Selects the
Category that
has the greatest
weight
Calculates the
weights
according to the
strategy
CI CI Log
Solução Proposta Modelo de Informação
25 de 55
de
term
ine
sP
rob
lem►
◄possibleAnswers
determinesOthersQuestions ►
CategoryParentChild►
1 1..*
1 0..1
1..*
*
ServiceProblem ►
SolutionCategory *
1..*
ManagedElement
ExchangeElement
SolutionElement
*
Qu
estio
nC
ate
go
ry ►
Category
0..1
Question
RootCause
1..* *
1
0..*
ServiceIncident
Problem
Answer
0..1
1..*
1..*
0..1
1..* SolutionCategory ►
Solução Proposta Estratégias para Seleção de Perguntas
• A estrutura modular da solução permite utilizar diferentes estratégias para a seleção das perguntas
• As estratégias desenvolvidas utilizam as mesmas entradas e retornam uma única pergunta como resultado
• 4 diferentes estratégias propostas
• Estratégia 1 – Apenas diagnósticos concluídos
• Estratégia 2 – Todos os diagnósticos do sistema
• Estratégia 3 – Idade dos diagnósticos
• Estratégia 4 – Popularidade das perguntas
26 de 55
Solução Proposta Estratégias para Seleção de Perguntas
• Estratégia 1 – Apenas diagnósticos concluídos
• Considera apenas os diagnósticos concluídos com sucesso
• Os pesos calculados não sofrem nenhuma penalização
• O peso do elemento é computado através do somatório de todos os diagnósticos concluídos associados
Causas Raiz Perguntas Respostas Diagnósticos Concluídos
RC1 P1, P2 R1, R3 20
RC2 P1, P3 R2, R5 30
27 de 55
Solução Proposta Estratégias para Seleção de Perguntas
• Estratégia 1 – Apenas diagnósticos concluídos
• Considera apenas os diagnósticos concluídos com sucesso
• Os pesos calculados não sofrem nenhuma penalização
• O peso do elemento é computado através do somatório de todos os diagnósticos concluídos associados
Causas Raiz Perguntas Respostas Diagnósticos Concluídos
RC1 P1, P2 R1, R3 20
RC2 P1, P3 R2, R5 30
20 + 30 = 50 30 20
27 de 55
Solução Proposta Estratégias para Seleção de Perguntas
• Estratégia 2 - Todos os diagnósticos
• Considera os diagnósticos concluídos com sucesso e os diagnósticos frustrados
• O peso de um elemento é igual ao somatório dos diagnósticos concluídos, porém, subtraindo o somatório dos diagnósticos frustrados
• Um diagnóstico é considerado frustrado, quando uma pergunta é utilizada, porém, não integra o conjunto de diagnóstico da RC identificada
28 de 55
Solução Proposta Estratégias para Seleção de Perguntas
• Estratégia 2 - Todos os diagnósticos
Causas Raiz Perguntas Respostas Diagnósticos
Concluídos Frustrados
RC1 P1, P2 R1, R3 20 10
RC2 P1, P3 R2, R5 30 15
29 de 55
Solução Proposta Estratégias para Seleção de Perguntas
• Estratégia 2 - Todos os diagnósticos
Causas Raiz Perguntas Respostas Diagnósticos
Concluídos Frustrados
RC1 P1, P2 R1, R3 20 10
RC2 P1, P3 R2, R5 30 15
(20 + 30) – (10 + 15) = 25 30 – 15 = 15 20 – 10 = 10
29 de 55
Solução Proposta Estratégias para Seleção de Perguntas
• Estratégia 3 - Idade dos diagnósticos
• Considera os diagnósticos concluídos e frustrados
• Os diagnósticos são penalizados pela sua idade
Idade Tempo de Diagnóstico Penalização
1ª Até 120 dias Não se aplica
2ª Entre 121 dias e 150 dias 10%
3ª Entre 151 dias e 180 dias 20%
4ª Entre 181 dias e 210 dias 30%
5ª Entre 211 dias e 240 dias 40%
6ª Entre 241 dias e 270 dias 50%
7ª Entre 271 dias e 300 dias 60%
8ª Entre 301 dias e 330 dias 70%
9ª Entre 331 dias e 360 dias 80%
10ª A partir de 360 dias 90%
30 de 55
Solução Proposta Estratégias para Seleção de Perguntas
• Estratégia 3 - Idade dos diagnósticos
10
1
)( )(i
iiixtopesoElemen
i – idade de um diagnóstico
βi – diferença entre 100% e o percentual de penalização
aplicado à idade i
αi – total de diagnósticos concluídos
ωi – total de diagnósticos frustrados
31 de 55
Solução Proposta Estratégias para Seleção de Perguntas
• Estratégia 3 - Idade dos diagnósticos
10
1
)( )(i
iiixtopesoElemen
Causas Raiz Perguntas Respostas
Diagnósticos
Concluídos
Diagnósticos
Frustrados
1ª idade 10ª idade 1ª idade 10ª idade
RC1 P1, P2 R1, R3 1 24 4 8
RC2 P1, P3 R2, R5 4 15 1 2
32 de 55
Causas Raiz Perguntas Respostas
Diagnósticos
Concluídos
Diagnósticos
Frustrados
1ª idade 10ª idade 1ª idade 10ª idade
RC1 P1, P2 R1, R3 1 24 4 8
RC2 P1, P3 R2, R5 4 15 1 2
Solução Proposta Estratégias para Seleção de Perguntas
• Estratégia 3 - Idade dos diagnósticos
4,3 + 1,6 = 5,9
100% (1 - 4) + 10% (24 - 8) = 1,6
100% (4 - 1) + 10% (15 - 2) = 4,3
1,6
32 de 55
Solução Proposta Estratégias para Seleção de Perguntas
• Estratégia 4 – Popularidade das perguntas
• Considera os diagnósticos concluídos e frustrados
• O peso das categorias e RCs é efetuado conforme a Estratégia 2
• O peso de uma pergunta considera o peso das RCs associadas e a popularidade
• Popularidade é definida como a razão entre quantidade de ocorrências de uma pergunta e o número total de RCs selecionadas
33 de 55
Solução Proposta Estratégias para Seleção de Perguntas
• Estratégia 4 – Popularidade das perguntas
αx – ocorrências da pergunta x nos conjuntos de diagnóstico
selecionados
n – total de RCs selecionadas
βRCi – probabilidade de identificação de uma RC
αRCi, x – quantidade de ocorrências da pergunta no conjunto de
diagnóstico analisado
2
1
,
)(
n
i
xRCiRCix
xn
tapesoPergun
34 de 55
Solução Proposta Estratégias para Seleção de Perguntas
• Estratégia 4 – Popularidade das perguntas
Causas Raiz Perguntas Respostas
Diagnósticos
Concluídos
Diagnósticos
Frustrados
1ª idade 10ª idade 1ª idade 10ª idade
RC1 P1, P2 R1, R3 1 24 4 8
RC2 P1, P3 R2, R5 4 15 1 2
2
1
,
)(
n
i
xRCiRCix
xn
tapesoPergun
35 de 55
Causas Raiz Perguntas Respostas
Diagnósticos
Concluídos
Diagnósticos
Frustrados
1ª idade 10ª idade 1ª idade 10ª idade
RC1 P1, P2 R1, R3 1 24 4 8
RC2 P1, P3 R2, R5 4 15 1 2
Solução Proposta Estratégias para Seleção de Perguntas
• Estratégia 4 – Popularidade das perguntas
(2/2 + ((13/29 * 1) + (16/29 * 1))) /2 = 1
19 – 3 = 16 25 – 12 = 13 (1/2 + ((13/29 * 1) + (16/29 * 0))) /2 = 0,4741
(1/2 + ((13/29 * 0) + (16/29 * 1))) /2 = 0,5259
35 de 55
• O principal objetivo é evidenciar as seguintes características da solução
• A capacidade de adaptar o diagnóstico às nuances da infraestrutura de TI
• A possibilidade de gerar de diagnósticos diferentes a partir de uma mesma falha
• Considere
• Uma empresa possui a necessidade de instalar um servidor de webmail
• Dois cenários com diferentes infraestruturas
36 de 55
Avaliação Estudo de Caso 1
• Uma RFC tem o propósito de instalar um serviço de webmail
• Cenário 1 – As atividades da RFC são executadas em apenas 1 servidor
• Cenário 2 – As atividades da RFC são executadas em 2 servidores
37 de 55
Avaliação Estudo de Caso 1
• Uma RFC tem o propósito de instalar um serviço de webmail
• Cenário 1 – As atividades da RFC são executadas em apenas 1 servidor
• Cenário 2 – As atividades da RFC são executadas em 2 servidores
37 de 55
Avaliação Estudo de Caso 1
Ocorre uma falha
• Infraestruturas identificadas
38 de 55
Avaliação Estudo de Caso 1
39 de 55
Avaliação Estudo de Caso 1
• Cenário 1
CI Categorias Pesos
E-mail Service Service E-mail 25 17
Web Page Access Service Web Page Server 25 7
Webmail Access Service Webmail 25 1
Exim Software Mail Server 35 15
SquirrelMail Software Webmail 35 9
Apache Software Web Server 35 1
WebServer System Computer System Web Server 21 16 7
39 de 55
Avaliação Estudo de Caso 1
• Cenário 1
CI Categorias Pesos
E-mail Service Service E-mail 25 17
Web Page Access Service Web Page Server 25 7
Webmail Access Service Webmail 25 1
Exim Software Mail Server 35 15
SquirrelMail Software Webmail 35 9
Apache Software Web Server 35 1
WebServer System Computer System Web Server 21 16 7
40 de 55
Avaliação Estudo de Caso 1
• Cenário 2
CI Categorias Pesos
E-mail Service Service E-mail 25 17
Web Page Access Service Web Page Server 25 7
Webmail Access Service Webmail 25 1
Exim Software Mail Server 35 15
SquirrelMail Software Webmail 35 9
Apache Software Web Server 35 1
WebServer System Computer System Web Server 26 21 5
E-mail Server System Computer System Mail Server 26 21 7
Logical Connection Network 38
Switch Devices Network Devices 40 36
40 de 55
Avaliação Estudo de Caso 1
• Cenário 2
CI Categorias Pesos
E-mail Service Service E-mail 25 17
Web Page Access Service Web Page Server 25 7
Webmail Access Service Webmail 25 1
Exim Software Mail Server 35 15
SquirrelMail Software Webmail 35 9
Apache Software Web Server 35 1
WebServer System Computer System Web Server 26 21 5
E-mail Server System Computer System Mail Server 26 21 7
Logical Connection Network 38
Switch Devices Network Devices 40 36
• Workflows de diagnóstico gerados
41 de 55
Avaliação Estudo de Caso 1
• Workflows de diagnóstico gerados
41 de 55
Avaliação Estudo de Caso 1
O path dos arquivos de e-mail
está errado
As portas do Switch não foram
configuradas corretamente
• O principal objetivo é analisar os resultados gerados pela aplicação das quatro estratégias
• Não há alterações, durante o estudo de caso, na infraestrutura identificada e na atividade que falhou
• Caso uma pergunta seja selecionada por mais de uma estratégia, a resposta, fornecida pelo operador, será a mesma
• Considere
• Uma empresa atua na prestação de serviços Web
• A atual infraestrutura consiste de 2 servidores
• DB Server – Utilizado para serviços relacionados ao Banco de Dados
• Web Server – Utilizado para propósito geral
42 de 55
Avaliação Estudo de Caso 2
• Alguns serviços oferecidos pela empresa
• Hospedagem de sites
• Envio/recebimento de e-mails
• Site para e-commerce
• Webmail
• A fim de atender a crescente demanda 2 novos servidores serão instalados
• Hosting Server – Será utilizado para hospedar os sites dos clientes
• Mail Server – Será utilizado para hospedar os serviços de e-mail
43 de 55
Avaliação Estudo de Caso 2
• A RFC abaixo visa a instalar 2 novos servidores e a migrar os serviços existentes
44 de 55
Avaliação Estudo de Caso 2
• A RFC abaixo visa a instalar 2 novos servidores e a migrar os serviços existentes
44 de 55
Avaliação Estudo de Caso 2
Ocorre uma falha
• Ilustração da infraestrutura da empresa
45 de 55
Avaliação Estudo de Caso 2
• Ilustração da infraestrutura identificada
45 de 55
Avaliação Estudo de Caso 2
• Ilustração da infraestrutura identificada
45 de 55
Avaliação Estudo de Caso 2
46 de 55
Avaliação Estudo de Caso 2
Categorias Nível
Pesos Calculados
Est. 1 Est. 2 Est. 3 Est. 4
Service 1 1083 242 157,30 242
Web Page Server 2 558 82 33,20 82
DataBase 2 519 195 127,60 195
Network 1 1058 345 188,10 345
Services 2 512 189 113,40 189
Devices 2 485 136 66,20 136
System 1 603 167 54,30 167
Computer System 2 545 153 52,90 153
Hosting Server 3 319 175 49,90 175
DB Server 3 192 -22 3,00 -22
Software 1 1115 343 126,60 343
Web Server 2 607 138 86,80 138
DB Server 2 443 169 36,20 169
47 de 55
Avaliação Estudo de Caso 2
• Workflows de diagnóstico gerados
47 de 55
Avaliação Estudo de Caso 2
• Workflows de diagnóstico gerados
A configuração do PHP não permite
a utilização da linguagem em sites
de usuários
48 de 55
Avaliação Estudo de Caso 2
• Workflows de diagnóstico gerados
48 de 55
Avaliação Estudo de Caso 2
• Workflows de diagnóstico gerados
A configuração do PHP não permite
a utilização da linguagem em sites
de usuários
Conclusões
49 de 55
• Neste trabalho foi enfatizada a necessidade das organizações em otimizar o processo de identificação da causa raiz falhas em mudanças de TI
• Na prática, muitas organizações utilizam ferramentas que possuem diversas limitações
• A solução proposta permite o processo de identificação de causa raiz de falhas, observando
• A interatividade com o operador
• O reúso do conhecimento adquirido
• A flexibilidade às evoluções da infraestrutura
• Compatibilidade com o CIM, largamente utilizado
Conclusões
50 de 55
• Principais contribuições
• A solução modular que permite as organizações personalizar partes da solução para melhor refletirem suas necessidades especiais
• Outras contribuições
• Expansão do CIM para representar informações de diagnósticos anteriores e de casos adaptáveis
• Flexibilidade do diagnóstico gerado e a utilização de casos adaptáveis
• Estratégias propostas para a seleção de perguntas
Conclusões
51 de 55
• Resultados obtidos
• Evidenciam a flexibilidade dos diagnósticos gerados
• As estratégias propostas geram workflows diferentes, considerando a mesma infraestrutura e a mesma falha
• Permitem recomendar o uso das estratégias para históricos de diagnósticos com diferentes características
• Estratégia 1 – históricos com uma pequena quantidade de registros
• Estratégia 2 – históricos volumosos e recentes
• Estratégia 3 – históricos com no mínimo 10 meses de registros
• Estratégia 4 – base de dados com uma grande quantidade de perguntas populares
Conclusões
52 de 55
• Resultados da pesquisa
• 2 trabalhos diretamente relacionados ao tema da pesquisa publicados em eventos de grande relevância
• IM 2011 (Mini-conference of 12th IFIP/IEEE International Symposium on Integrated Network Management): “A Solution for Identifying the Root Cause of Problems in IT Change Management”
• SBRC 2011 (XXIX Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos): “Identificação Interativa da Causa Raiz de Problemas em Execuções de Mudanças de TI”
• 1 trabalho a ser submetido a partir dos resultados da dissertação ainda não publicados
• IM 2013 - 13th IFIP/IEEE International Symposium on Integrated Network Management
Conclusões
53 de 55
• Resultados da pesquisa
• 5 trabalhos colaborando com outros colegas
• NOMS 2010 (12th IEEE/IFIP Network Operations and Management Symposium)
• Computer-Generated Comprehensive Risk Assessment for IT Project Management
• On Strategies for Planning the Assignment of Human Resources to IT Change Activities
• WGRS/SBRC 2010 (15º Workshop de Gerência e Operação de Redes e Serviços)
• Similaridade para Avalição de Riscos em Planos de Mudança de TI
• SBES 2011 (25º Simpósio Brasileiro de Engenharia de Software)
• Variáveis de Projetos de TI na Balança : Uma Abordagem Bayesiana para Previsão de Custos de Suporte
• IM 2011 (12th IFIP/IEEE International Symposium on Integrated Network Management)
• Leveraging IT Project Lifecycle Data to Predict Support Costs
Trabalhos Futuros
54 de 55
• Explorar novas métricas e estratégias para a seleção de perguntas
• Taxa de falsos positivos e negativos
• Confiança
• Aplicar a solução em outros contextos
• Obter dados reais para avaliação
• Investigar o uso de classes do CIM (actions e checks) visando a melhorar o bootstrapping do sistema
• Automatizar a identificação de determinados tipos de falhas
Obrigado pela sua atenção!
Perguntas?
Referências
• J. P. Sauvé, R. A. Santos, R. R. Almeida et al., “On the Risk Exposure and Priority Determination of Changes in IT Service Management,” in XVIII IFIP/IEEE International Workshop on Distributed Systems: Operations and Management (DSOM 2007), 2007, pp. 147–158
• ITIL, “ITIL - Information Technology Infrastructure Library. Office of Government Commerce (OGC),” 2009, Available: http://www.itilofficialsite.com/. Accessed: aug. 2010
• G. Machado, F. Daitx, W. Cordeiro et al., “Enabling rollback support in IT change management systems,” in Network Operations and Management Symposium, 2008. NOMS 2008. IEEE, April 2008, pp. 347–354
• W. Cordeiro, G. Machado, F. Andreis et al., “ChangeLedge: Change design and planning in networked systems based on reuse of knowledge and automation,” Computer Networks, vol. 53, no. 16, pp. 2782 – 2799, 2009
• ITIL, “ITIL - Information Technology Infrastructure Library: Service Operation Version 3.0. Office of Government Commerce (OGC),” 2007
• DMTF, “Distributed Management Task Force: Common Information Model. Distributed Management Task Force (DMTF),” 2009, Available: http://www.dmtf.org/standards/cim. Accessed: aug. 2010
Referências
• J. Sauvé, R. Santos, R. Reboucas, A. Moura, and C. Bartolini, “Change priority determination in it service management based on risk exposure,” Network and Service Management, IEEE Transactions on, vol. 5, no. 3, pp. 178 –187, september 2008
• A. Brown and A. Keller, “A best practice approach for automating it management processes,” in Network Operations and Management Symposium, 2006. NOMS 2006. 10th IEEE/IFIP, 3-7 2006, pp. 33 –44
• A. Moura, J. Sauve, and C. Bartolini, “Business-driven it management - upping the ante of it : exploring the linkage between it and business to improve both it and business results,” Communications Magazine, IEEE, vol. 46, no. 10, pp. 148 –153, october 2008
• A. Keller, J. Hellerstein, J. Wolf, K.-L. Wu, and V. Krishnan, “The champs system: change management with planning and scheduling,” in Network Operations and Management Symposium, 2004. NOMS 2004. IEEE/IFIP, vol. 1, 23-23 2004, pp. 395 –408 Vol.1
• M. Jantti and A. Eerola, “A Conceptual Model of IT Service Problem Management,” in Service Systems and Service Management, 2006 International Conference on, vol. 1, Oct. 2006, pp. 798–803
• R. Gupta, K. Prasad, and M. Mohania, “Automating itsm incident management process,” in Autonomic Computing, 2008. ICAC ’08. International Conference on, 2-6 2008, pp. 141 –150
Referências
• K. Appleby, G. Goldszmidt, and M. Steinder, “Yemanja-a layered event correlation engine for multi-domain server farms,” in Integrated Network Management Proceedings, 2001 IEEE/IFIP International Symposium on, 2001
• M. Steinder and A. S. Sethi, “Probabilistic fault diagnosis in communication systems through incremental hypothesis updating,” Computer Networks, vol. 45, no. 4, pp. 537 – 562, 2004
• W. L. C. Cordeiro, G. Machado, D. F.F. et al., “A template-based solution to support knowledge reuse in IT change design,” in Network Operations and Management Symposium, 2008. NOMS 2008. IEEE, April 2008, pp. 355–362
• J. A. Wickboldt, L. A. Bianchin, R. C. Lunardi et al., “Improving it change management processes with automated risk assessment,” in XII IFIP/IEEE International Workshop on Distributed Systems: Operations and Management (DSOM 2009), 2009
• R. C. Lunardi, F. G. Andreis, W. L. d. C. Cordeiro, J. A. Wickboldt, B. L. Dalmazo, R. L. d. Santos, L. A. Bianchin, L. P. Gaspary, L. Z. Granville, and C. Bartolini, “On strategies for planning the assignment of human resources to it change activities,” in Network Operations and Management Symposium, 2010. NOMS 2010. IEEE, apr. 2010, pp. 248–255
Avaliação Estudo de Caso 2
• CIs identificados e categorias associadas CI Categorias
Hosted Sites Service Web Page Server
DataBase Access Service DataBase
Web Page Access Service Web Page Server
PHP Interpreter Service Web Page Server
CMS Service Service Web Page Server
Logical Connection Network Services
Joomla Software Web Server
PHP Software Web Server
Apache Software Web Server
MySQL Software Web Server
DB Server System Computer System DB Server
Hosting Server System Computer System Hosting Server
Switch Network Devices
Sistema ChangeLedge
Change
Initiator
Operator Change
Authority
Change Management System
Config. Mgmt.
Database
Change
Planner
Change
Designer
Risk
Analyzer
Rollback
Planner
Deployment System
CI CI CI
Rollback
Engine
Change
Deployer
Rollback
Support
Generator
Operator
Solução Proposta Modelo de Informação
de
term
ine
s ►
Pro
ble
m
po
ssib
les ►
An
sw
ers
◄d
ete
rmin
es
Oth
ers
Qu
estio
ns 1..*
0..1
1
Logical Element
EnabledLogical
Element
MessageLog
RecordLog ◄recordedAnswers
◄recordedQuestions
1
0..1
Question
RootCause
1..*
1 1
1
1
Problem
Answer
0..1
◄ recordedProblem
1
1
1..*
1 *
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Softw
are
Com
pute
r Syste
m
Serv
er
Web
Serv
er
Web S
erv
er
Devic
e
Netw
ork
Card
74
30
5
95
70
35
30
26
20
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Applic
atio
n Com
pute
r Syste
m
Serv
er
Web
Serv
er
Web S
erv
er
Devic
e
Netw
ork
Card
74
30
5
95
70
35
30
26
20
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Softw
are
Com
pute
r Syste
m
Serv
er
Web
Serv
er
Web S
erv
er
Devic
e
Netw
ork
Card
74
30
5
95
70
35
30
26
20
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Softw
are
Com
pute
r Syste
m
Serv
er
Web S
erv
er
Devic
e
Netw
ork
Card
74
30
5
95
70
35
30
26
20
Web
Serv
er
Questions RC 1 (10)
Questions RC 2 (20)
Questions RC 3 (40)
Questions RC 4 (25)
Qestions RC 1, 3 (50)
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Softw
are
Com
pute
r Syste
m
Serv
er
Web S
erv
er
Devic
e
Netw
ork
Card
74
30
5
95
70
35
30
26
20
Web
Serv
er
Questions RC 1 (10)
Questions RC 2 (20)
Questions RC 3 (40)
Questions RC 4 (25)
Common Questions
Solução Proposta Root Cause Analyzer
How many
bits is the
application?
16 bits 32 bits
64 bits
Web S
erv
er
70
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Com
pute
r Syste
m
Serv
er
Devic
e
Netw
ork
Card
74
30
5
95 35
30
26
20
Questions RC 1 (10)
Questions RC 2 (20)
Questions RC 3 (40)
Questions RC 4 (25)
Common Questions
Softw
are
Web
Serv
er
Web S
erv
er
70
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Com
pute
r Syste
m
Serv
er
Devic
e
Netw
ork
Card
74
30
5
95 35
30
26
20
Questions RC 1 (10)
Questions RC 2 (20)
Questions RC 3 (40)
Questions RC 4 (25)
Common Questions
Softw
are
Web
Serv
er
Web S
erv
er
70
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Softw
are
Com
pute
r Syste
m
Serv
er
Devic
e
Netw
ork
Card
74
30
5
95 35
30
26
20
95 – 70 = 25
Questions RC 1 (10)
Questions RC 2 (20)
Questions RC 3 (40)
Questions RC 4 (25)
Common Questions
Web
Serv
er
Web S
erv
er
70
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Softw
are
Com
pute
r Syste
m
Serv
er
Devic
e
Netw
ork
Card
74
30
5
25 35
30
26
20
Web
Serv
er
Web S
erv
er
70
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Softw
are
Com
pute
r Syste
m
Serv
er
Devic
e
Netw
ork
Card
74
30
5
25 35
30
26
20
Web
Serv
er
Web S
erv
er
70
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Softw
are
Com
pute
r Syste
m
Serv
er
Devic
e
Netw
ork
Card
74
30
5
25 35
30
26
20
Web
Serv
er
Web
Serv
er
Web S
erv
er
70
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Softw
are
Com
pute
r Syste
m
Serv
er
Devic
e
Netw
ork
Card
74
30
5
25 35
30
26
20
Questions RC 9 (2)
Questions RC 6 (5)
Questions RC 7 (12)
Questions RC 8 (12)
Common Questions
Questions RC 5 (15)
Questions RC 10 (3)
Questions RC 11 (25)
Web
Serv
er
Web S
erv
er
70
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Softw
are
Com
pute
r Syste
m
Serv
er
Devic
e
Netw
ork
Card
74
30
5
25 35
30
26
20
Questions RC 9 (2)
Questions RC 6 (5)
Questions RC 7 (12)
Questions RC 8 (12)
Common Questions
Questions RC 5 (15)
Questions RC 10 (3)
Questions RC 11 (25)
Solução Proposta Root Cause Analyzer
How many
bits is the
application?
16 bits 32 bits
64 bits
The devices
are well
plugged?
No Yes
Web
Serv
er
Web S
erv
er
70
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Softw
are
Com
pute
r Syste
m
Serv
er
Devic
e
Netw
ork
Card
74
30
5
25 35
30
26
20
Questions RC 9 (2)
Questions RC 6 (5)
Questions RC 7 (12)
Questions RC 8 (12)
Common Questions
Questions RC 5 (15)
Questions RC 10 (3)
Questions RC 11 (25)
Web
Serv
er
Web S
erv
er
70
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Softw
are
Com
pute
r Syste
m
Serv
er
Devic
e
Netw
ork
Card
74
30
5
25 35
30
26
20
Questions RC 9 (2)
Questions RC 6 (5)
Questions RC 7 (12)
Questions RC 8 (12)
Common Questions
Questions RC 5 (15)
Questions RC 10 (3)
Questions RC 11 (25)
Solução Proposta Root Cause Analyzer
How many
bits is the
application?
16 bits 32 bits
64 bits
The devices
are well
plugged?
Network
card
detected?
No Yes
No Yes
Web
Serv
er
Web S
erv
er
70
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Softw
are
Com
pute
r Syste
m
Serv
er
Devic
e
Netw
ork
Card
74
30
5
25 35
30
26
20
Questions RC 9 (2)
Questions RC 6 (5)
Questions RC 7 (12)
Questions RC 8 (12)
Common Questions
Questions RC 5 (15)
Questions RC 10 (3)
Questions RC 11 (25)
Web
Serv
er
Web S
erv
er
70
Solução Proposta Root Cause Analyzer
Syste
m
Third
Party
Serv
ices
Softw
are
Com
pute
r Syste
m
Serv
er
Devic
e
Netw
ork
Card
74
30
5
25 35
30
26
20
Questions RC 9 (2)
Questions RC 6 (5)
Questions RC 7 (12)
Questions RC 8 (12)
Common Questions
Questions RC 5 (15)
Questions RC 10 (3)
Questions RC 11 (25)
Solução Proposta Root Cause Analyzer
How many
bits is the
application?
16 bits 32 bits
64 bits
The devices
are well
plugged?
Network
card
detected?
Network
card is
configured
correctly?
Network card
not
configured
No Yes
No Yes
Yes
No