¿Qué documentos sobre el manejo de errores en sistemas distribuidos me recomiendan?
reference-request
dc.distributed-comp
Alexandru
fuente
fuente
Respuestas:
Es posible que desee echar un vistazo a las obras que ganaron Tushar D. Chandra, Vassos Hadzilacos y Sam Toueg, el Premio Edsger W. Dijkstra en 2010 :
Estos documentos introducen la noción de detectores de fallas en un sistema distribuido en un marco general y preciso. Intuitivamente, intentaron estudiar la cantidad mínima de información de falla necesaria para resolver el consenso. Resulta que no necesita un detector de fallas perfecto para resolver el consenso. Incluso detectores de fallas poco confiables que cumplan ciertas condiciones mínimas serán suficientes para la tarea. Estos documentos fueron muy influyentes sobre cómo lidiar con fallas en sistemas distribuidos.
fuente
¿Qué tipo de fallas en el sistema? ¿Está buscando soluciones para manejar las fallas bizantinas o simplemente el modelo clásico de detención de fallas? Las soluciones en presencia de nodos bizantinos en un sistema distribuido son el problema más intrigante. El problema fue formalizado por Leslie Lamport (el problema de los generales bizantinos "y el artículo de 1999 de Barbara Liskov y Miguel Castro presenta la solución práctica de trabajo más cercana" Tolerancia a la falla bizantina práctica ". Los modelos formales originales para tratar la tolerancia a la falla incluyen el estado- enfoque de máquina de Fred Schneider y replicación con sello de vista Estoy de acuerdo en que la pregunta es muy general, el campo es inmenso y la teoría forma la base de la mayoría de los sistemas que se ejecutan hoy en línea. Quizás un modelo de falla más específico y el dominio del problema ayudarían a obtener mejores respuestas
fuente
Aquí hay una colección de patrones para manejar errores de manejo en sistemas distribuidos:
Alternativamente, para un trabajo más genérico, está el libro Introducción a la programación distribuida confiable de Rachid Guerraoui y Luis Rodrigues, que tiene una amplia gama de algoritmos prácticos que incluyen muchas variantes de recuperación de fallas. El texto más clásico Algoritmos distribuidos de Nancy Lynch cubre un terreno similar desde una perspectiva más teórica.
fuente