multilayer failure detection method for network services based on distributed components
DESCRIPTION
Multilayer Failure Detection Method for Network Services Based on Distributed Components. Eisuke Hirota, Kazuhiko Kinoshita, Hideki Tode, Koso Murakami, Shinji Kikuchi, Satoshi Tsuchiya, Atsuji Sekiguchi, Tsuneo Katsuyama Department of Information Networking, Osaka University, JAPAN - PowerPoint PPT PresentationTRANSCRIPT
Multilayer Failure Detection Method for Network Services Based on Distributed
Components
Eisuke Hirota, Kazuhiko Kinoshita, Hideki Tode, Koso Murakami, Shinji Kikuchi, Satoshi Tsuchiya, Atsuji Sekiguchi, Tsuneo Katsuyama
Department of Information Networking, Osaka University, JAPAN
Department of Computer Science and Intelligent Systems, Osaka Prefecture University, JAPAN
Fujitsu Laboratories Limited, JAPAN
Apresentação: Adriano da Luz
Definições
Componente: É uma aplicação que pode ser usada em conjunto com outras para fornecer um serviço
Os componentes podem ser distribuídos para aumentar a escalabilidade do serviço oferecido
Quando um componente falha, outro com mesma função pode substituí-lo
Proposta
Detectar falhas em uma rede baseada em componentes distribuídos
Tipos de falhas: Falha de software do componente Falha de hardware do nodo Falha na estrutura física da rede
Motivações
É estimado que 75% do tempo para a recuperação de uma falha na camada de aplicação é gasto somente para encontrar a falha
Recuperação de falhas na camada física é muito demorada
É difícil fazer detecção de falhas em múltiplas camadas
Modelo
Gerência
Feita por redes overlay onde os componentes trocam informações
Modelo
Um componente troca mensagens do tipo keep-alive com seus vizinhos periodicamente
Quando um componente não recebe resposta de um vizinho ele inicia o método de detecção de falhas
O nodo que invoca o método é chamado de nodo base O nodo suspeito de falha é chamado de nodo alvo A resposta a uma mensagem enviada a um vizinho é
chamada de response information A verificação desta resposta é chamada de operation
check
Modelo
Cada nodo possui um ID global e conhece o ID de todos os nodos que podem ser alcançados com 2 saltos
Funcionamento
O nodo base envia uma mensagem requisitando um operation check em todos os componentes do nodo alvo. Esta mensagem é enviada para a cada componente que é vizinho aos componentes do nodo alvo. Esta mensagem se chama Request for response message (RRM)
Um nodo que está na rota de passagem da RRM é chamado de relay node
Funcionamento
Funcionamento
Funcionamento
Falha no componente
É detectado uma falha em um componente quando o nodo base recebe resposta de um componente rodando no nodo alvo mas não recebe resposta de outro componente rodando no mesmo nodo alvo
Falha no nodo
É detectado quando não há resposta de nenhum componente no nodo
Consequentemente não há respostas em nenhuma rota da RRM
Falha na rede
É detectado quando as respostas em duas rotas de RRM são contraditórias para um mesmo componente são contraditórias
Validação do modelo Criado uma simulação para comparar este modelo com
outros modelos já existentes
São comparados o número de mensagens trocadas em cada modelo e a eficiência de cada modelo em redes pequenas médias e grandes
Conclusão
Este modelo funciona apenas para casos simples. Casos mais complexos como falhas em mais de um nodo simultaneamente não são tratados
Em comparação com outros métodos ele apresenta melhor escalabilidade