De las personas que administran sus propios clústeres (es decir, no utilizan / pagan Amazon Autoscale, Rightscale, Scalr, etc.), ¿cómo administran sus instancias en EC2 y manejan (por ejemplo) la conmutación por error? Me pregunto si la mayoría de la gente acaba de escribir sus propias cargas de scripts contra la API EC2, como sospecho.
Ese es sin duda nuestro enfoque: preparar nuestro propio demonio de monitoreo / reinicio basado en Python Boto que se ejecuta fuera del sitio, escuchando UDP UDP de nuestras instancias. En caso de falla, tomamos instantáneas de volúmenes, registramos imágenes, iniciamos nuevas instancias, eliminamos volúmenes antiguos, etc.
De vez en cuando, al piratear nuestros scripts, creo que debe haber algunas herramientas de código abierto que se encarguen de estos problemas y que no tengan las restricciones de (digamos) Scalr, pero siempre vuelvo de Google con las manos vacías. (Cosas como Scalr son bastante limitadas en el conjunto / versiones / configuraciones compatibles de software, y tienen formas engorrosas especializadas e IMO de manipular estas configuraciones).
Además, el ecosistema Linux-HA / Pacemaker (Heartbeat, ldirectord, etc.) parece que no es realmente adecuado para EC2 . (Pero luego encontré esto , aunque no estoy seguro de que sea realmente una solución de alta calidad).
RightScale tiene excelentes artículos sobre cómo automatizar la conmutación por error en EC2. Si bien la mayoría de ellos le muestran cómo hacerlo utilizando RightScale, los principios son generales y probablemente útiles para cualquiera que esté pensando en cómo configurar una arquitectura de conmutación por error en EC2.
fuente
Los problemas que usted describe (HA, monitoreo de servidores personalizados, servicios de 'duct-taping') generalmente son manejados por un proveedor de PaaS. Rightscale y Scalr ya se mencionaron en una respuesta anterior y hay buenas opciones adicionales (vea aquí algunas opciones de PaaS:
/programming/9542784/looking-for-paas-providers-recommendations )
Debe considerar cuál de los proveedores se adapta mejor a lo que necesita.
Aviso: trabajo para cloudify, un proveedor de PaaS de código abierto.
fuente
Recientemente escribí una publicación en nuestro blog de ingeniería sobre cómo usar ELB junto con Auto Scaling para lograr la conmutación por error automática para cualquier tipo de aplicación. Cubre cómo se pueden usar las comprobaciones de estado de ELB para hacer ping al estado de su aplicación y activar acciones de escalado automático.
fuente
Instala heartbeat en ambos servidores Adjunta una IP elástica al servidor 'activo' Configura un script para realizar la conmutación por error iniciando una solicitud de API para obtener la IP elástica Tan pronto como el servidor 'stand-by' obtuvo la IP elástica ( toma alrededor de 30-60 segundos) puede ser el maestro / activo.
No tengo los detalles para proporcionar aquí.
fuente
Amazon ya ofrece Equilibrio de carga elástico ... ¿Por qué reinventar la rueda?
fuente