Puntos de datos que motivan la introducción de SRE en la organización

8

Como no hay intercambio de pila dedicado de Ingeniería de Confiabilidad del Sitio, encontré que este es uno cerrado.

Existen múltiples recursos excelentes para usar como inspiración para la diapositiva sobre los principios de SRE [diapositivas de SRE].

Aún no puedo encontrar:

  • corto
  • conciso
  • ejemplos
  • Motivar el gasto de recursos para implementar SRE en la organización.

La mayoría de lo que experimenté en mi vida profesional fueron casos y números altamente confidenciales. Me preocupa que la mayoría de los números que los SRE conocen deben permanecer "internos" para ser presentados internamente dentro de las corporaciones.

Sin embargo, tal vez conozca algún estudio, (preferiblemente un conjunto de) buenos ejemplos de post-morthems (incluso uno por uno es bueno), a partir del cual podríamos presentar argumentos sólidos como "después de introducir el modelo SRE en la velocidad de la organización de los cambios producidos a partir de n ¿Cómo liberar los impulsos por x, con un aumento de la disponibilidad en y y una disminución de los costos en z "(lluvia de ideas) u otros puntos de datos duros?

[Diapositivas de SRE] - algunos ejemplos:

PD: Si esta pregunta pudiera reformularse para ajustarse mejor a las pautas de este sitio, por favor envíeme una sugerencia en el comentario y déme un cambio para mejorar. De lo contrario, agradeceré otras plataformas mejores (Sin embargo, reddit.com/r/sre no me causó una gran impresión)

Grzegorz Wierzowiecki
fuente
3
El Manual SRE es una gran lectura para un equipo que intenta implementar las prácticas SRE.
user9921
1
Chef.io tiene un montón de recursos, incluidos 4 webminars sobre devops y velocidad que pueden inquietarlo: chef.io/resources algunas historias de clientes como Rakuten también podrían darle algunas ideas, no sé una guía definitiva de reglas estrictas que diga
Tensibai
El libro ACCELERATE (Forsgene, Gene) hace lo mismo para DevOps, pero algunos puntos de datos pueden ser compatibles, como un servicio MTTR (tiempo medio de recuperación)
Peter Muryshkin

Respuestas:

3

Los tipos de números que está buscando pueden ser difíciles de encontrar, porque son muy variables (incluso dentro de una organización, varía de servicio a servicio y de equipo a equipo, en mi experiencia). El libro de trabajo de SRE ahora está disponible de forma gratuita e incluye dos estudios de caso (capítulo 3) que pueden ser útiles. Además, el libro electrónico SRE de New Relic hace un muy buen trabajo al resumir SRE de manera concisa.

Otra forma de abordar esto sería tratar de usar lo que sabe sobre su servicio hoy para crear una evaluación de riesgos y estimar el tiempo de inactividad que puede evitar si tuviera SRE y soporte de desarrollo para eliminar esos riesgos.

Eric Harvieux
fuente
Con el tiempo entendí que algunos tomadores de decisiones no se darán cuenta de los riesgos después de que ocurrieron. Por lo tanto, debe realizar evaluaciones de riesgos y esperar a que sucedan cosas que predijo que suceden o buscar puntos de datos, por ejemplo, a cuántas empresas sucedieron x & y que no incorporaron prácticas de seguridad versus viceversa.
Grzegorz Wierzowiecki
1

Estoy operando en organizaciones DevOps y Site Reliability Engineering en varias compañías. Diría que SRE tiene la ventaja de ser mucho más concreto que DevOps.

  • DevOps enfatiza principios y mentalidades, por ejemplo, las tres formas de DevOps: pensamiento de sistemas, amplificación de bucles de retroalimentación y una cultura de experimentación y aprendizaje continuo. DevOps más de una extensión a Agile que un modelo operativo diferente.

  • La Ingeniería de Confiabilidad del Sitio enfatiza los enfoques, métricas y medidas específicas que Google (y otros) aplican para lograr un alto nivel de disponibilidad de servicio y confianza en el cliente. f.ex: la relación entre trabajo y mejoras, análisis cuantitativo de riesgos y enfoques matemáticos para SLI y SLO.

Debido a que SRE implementa DevOps , es un poco injusto tratar de comparar organizaciones que hacen una pero no la otra, por lo que sugeriría que todo el contenido de Accelerate se pueda aplicar fácilmente a la Ingeniería de confiabilidad del sitio, por lo tanto, si usted necesita análisis analizados por datos revisados ​​por pares para comenzar allí.

Richard Slater
fuente