Como no hay intercambio de pila dedicado de Ingeniería de Confiabilidad del Sitio, encontré que este es uno cerrado.
Existen múltiples recursos excelentes para usar como inspiración para la diapositiva sobre los principios de SRE [diapositivas de SRE].
Aún no puedo encontrar:
- corto
- conciso
- ejemplos
- Motivar el gasto de recursos para implementar SRE en la organización.
La mayoría de lo que experimenté en mi vida profesional fueron casos y números altamente confidenciales. Me preocupa que la mayoría de los números que los SRE conocen deben permanecer "internos" para ser presentados internamente dentro de las corporaciones.
Sin embargo, tal vez conozca algún estudio, (preferiblemente un conjunto de) buenos ejemplos de post-morthems (incluso uno por uno es bueno), a partir del cual podríamos presentar argumentos sólidos como "después de introducir el modelo SRE en la velocidad de la organización de los cambios producidos a partir de n ¿Cómo liberar los impulsos por x, con un aumento de la disponibilidad en y y una disminución de los costos en z "(lluvia de ideas) u otros puntos de datos duros?
[Diapositivas de SRE] - algunos ejemplos:
- Ingeniería de confiabilidad del sitio: una historia de adopción empresarial (un seminario web de ITSM Academy) por ITSM Academy, Inc.
- SRE From Scratch por Grier Johnson, ingeniero de plataforma en Square
- GOTO 2017 • Ingeniería de confiabilidad del sitio en Google • Christof Leng
PD: Si esta pregunta pudiera reformularse para ajustarse mejor a las pautas de este sitio, por favor envíeme una sugerencia en el comentario y déme un cambio para mejorar. De lo contrario, agradeceré otras plataformas mejores (Sin embargo, reddit.com/r/sre no me causó una gran impresión)
Respuestas:
Los tipos de números que está buscando pueden ser difíciles de encontrar, porque son muy variables (incluso dentro de una organización, varía de servicio a servicio y de equipo a equipo, en mi experiencia). El libro de trabajo de SRE ahora está disponible de forma gratuita e incluye dos estudios de caso (capítulo 3) que pueden ser útiles. Además, el libro electrónico SRE de New Relic hace un muy buen trabajo al resumir SRE de manera concisa.
Otra forma de abordar esto sería tratar de usar lo que sabe sobre su servicio hoy para crear una evaluación de riesgos y estimar el tiempo de inactividad que puede evitar si tuviera SRE y soporte de desarrollo para eliminar esos riesgos.
fuente
Estoy operando en organizaciones DevOps y Site Reliability Engineering en varias compañías. Diría que SRE tiene la ventaja de ser mucho más concreto que DevOps.
DevOps enfatiza principios y mentalidades, por ejemplo, las tres formas de DevOps: pensamiento de sistemas, amplificación de bucles de retroalimentación y una cultura de experimentación y aprendizaje continuo. DevOps más de una extensión a Agile que un modelo operativo diferente.
La Ingeniería de Confiabilidad del Sitio enfatiza los enfoques, métricas y medidas específicas que Google (y otros) aplican para lograr un alto nivel de disponibilidad de servicio y confianza en el cliente. f.ex: la relación entre trabajo y mejoras, análisis cuantitativo de riesgos y enfoques matemáticos para SLI y SLO.
Debido a que SRE implementa DevOps , es un poco injusto tratar de comparar organizaciones que hacen una pero no la otra, por lo que sugeriría que todo el contenido de Accelerate se pueda aplicar fácilmente a la Ingeniería de confiabilidad del sitio, por lo tanto, si usted necesita análisis analizados por datos revisados por pares para comenzar allí.
fuente