Documentos sobre manejo de fallas en sistemas distribuidos

10

¿Qué documentos sobre el manejo de errores en sistemas distribuidos me recomiendan?

Alexandru
fuente
2
No estoy familiarizado con el tema, pero ¿no hay demasiados? Además, ¿recomendar para qué?
Tsuyoshi Ito
55
La pregunta parece ser demasiado amplia; Supongo que la mitad de todos los trabajos en informática distribuida están de alguna manera relacionados con la tolerancia a fallas.
Jukka Suomela
2
Definitivamente demasiado amplio. vote para cerrar ...
Suresh Venkat
Quizás la pregunta no sea tan mala. Traté de recomendar algunos trabajos a continuación.
Dai Le
1
La pregunta hubiera sido mejor si originalmente hubiera incluido esta información como motivación.
Dave Clarke

Respuestas:

8

Es posible que desee echar un vistazo a las obras que ganaron Tushar D. Chandra, Vassos Hadzilacos y Sam Toueg, el Premio Edsger W. Dijkstra en 2010 :

Estos documentos introducen la noción de detectores de fallas en un sistema distribuido en un marco general y preciso. Intuitivamente, intentaron estudiar la cantidad mínima de información de falla necesaria para resolver el consenso. Resulta que no necesita un detector de fallas perfecto para resolver el consenso. Incluso detectores de fallas poco confiables que cumplan ciertas condiciones mínimas serán suficientes para la tarea. Estos documentos fueron muy influyentes sobre cómo lidiar con fallas en sistemas distribuidos.

Dai Le
fuente
3

¿Qué tipo de fallas en el sistema? ¿Está buscando soluciones para manejar las fallas bizantinas o simplemente el modelo clásico de detención de fallas? Las soluciones en presencia de nodos bizantinos en un sistema distribuido son el problema más intrigante. El problema fue formalizado por Leslie Lamport (el problema de los generales bizantinos "y el artículo de 1999 de Barbara Liskov y Miguel Castro presenta la solución práctica de trabajo más cercana" Tolerancia a la falla bizantina práctica ". Los modelos formales originales para tratar la tolerancia a la falla incluyen el estado- enfoque de máquina de Fred Schneider y replicación con sello de vista Estoy de acuerdo en que la pregunta es muy general, el campo es inmenso y la teoría forma la base de la mayoría de los sistemas que se ejecutan hoy en línea. Quizás un modelo de falla más específico y el dominio del problema ayudarían a obtener mejores respuestas

kryptos
fuente
3

Aquí hay una colección de patrones para manejar errores de manejo en sistemas distribuidos:

Alternativamente, para un trabajo más genérico, está el libro Introducción a la programación distribuida confiable de Rachid Guerraoui y Luis Rodrigues, que tiene una amplia gama de algoritmos prácticos que incluyen muchas variantes de recuperación de fallas. El texto más clásico Algoritmos distribuidos de Nancy Lynch cubre un terreno similar desde una perspectiva más teórica.

Dave Clarke
fuente