Estoy tratando de aprender cómo funcionan las características de clústeres de conmutación por error con Windows 2008 R2, ya que las voy a usar como parte de SQL Server 2012 siempre activado.
He podido encontrar información sobre cómo configurarlo y qué hace. Sin embargo, tengo problemas para encontrar un buen documento técnico sobre cómo funciona realmente en detalle (por ejemplo, con keepalived hay documentos que explican con qué frecuencia se envían los paquetes de latidos, cómo se ven, etc.).
Sé que esta es una pregunta bastante amplia, pero me gustaría tener una buena comprensión de los mecanismos de esta función.
windows
windows-server-2008-r2
failovercluster
Kyle Brandt
fuente
fuente
Respuestas:
Dado que es un producto patentado, no creo que vaya a realizar un análisis a nivel binario del protocolo o incluso diagramas de flujo, pero creo que puede obtener información útil de:
El diseño y la arquitectura del Microsoft Cluster Service : este documento, en coautoría de uno de mis héroes de CompSci, Jim Gray (RIP, Jim), publicado en 1998 IEEE Proceedings of FTCS, describe el diseño básico del producto Microsoft Cluster Server como fue en Windows NT 4.0, de donde evolucionaron los productos posteriores. Incluso hay un diagrama de flujo aquí, aunque probablemente esté muy desactualizado con respecto a las generaciones actuales del producto.
Detección y recuperación de fallas en la red en un clúster de Windows Server 2000 de dos nodos : este artículo, aunque fechado, describe los detalles de bajo nivel de la máquina de estado utilizada para determinar la disponibilidad de red de los nodos en un clúster.
[MS-CMRP]: Clúster de conmutación por error: especificación de protocolo de API de administración (ClusAPI) : este documento hace declaraciones sobre cómo funciona el producto internamente, aunque su propósito no es documentar específicamente los protocolos y flujos de comunicación dentro del clúster.
Esta funcionalidad se ha vuelto más configurable en versiones posteriores del producto. Al buscar el nombre de la herramienta de administración de línea de comandos,
cluster.exe
y la palabra "latido" dirigida contra el sitio de Microsoft parece dar muchos resultados potencialmente buenos ( uno de los primeros resultados que encontré tiene un párrafo que contiene la frase "... aquí cada nodo tiene una interfaz en cada red de clúster, hay N * (N - 1) latidos de unidifusión enviados por red cada 1,2 segundos ... ", que suena exactamente como el tipo de cosas que está buscando, aunque describiendo Windows Server 2003.)Y, por supuesto, si desea ver más de los niveles bajos, configúrelo y tírele un sniffer.
fuente