La ingeniería de confiabilidad del sitio o SRE es un enfoque de ingeniería de software para solucionar los problemas de operaciones TI utilizando ingeniería de software.
Las tareas que siempre habían sido realizadas por equipos de operaciones mayormente de forma manual, son entregadas a ingenieros de software para resolver los problemas y gestionar los sistemas de producción a través de la aplicación de artefactos de código.
Los equipos SRE usan ingeniería de software o simplemente código para gestionar y administrar sistemas de gran tamaño, brindando una mayor escalabilidad y sostenibilidad para los administradores de sistemas.
La estandarización y la automatización son dos elementos claves en el trabajo diario de un SRE.
De esta manera, los SRE incrementan la confiabilidad de un sistema durante su desarrollo e implementación y durante el ciclo de vida del mismo.
Las funciones de los SRE
Para ser ingeniero de confiabilidad del sitio o SRE, es necesario contar con una trayectoria de desarrollo de software con experiencia en operaciones, de administración de sistemas o de operaciones de TI.
Los equipos de SRE se encargan de la forma en que se implementa, configura y supervisa el código, la disponibilidad del sistema, la latencia, la gestión de cambios, la respuesta ante emergencias y la gestión de la capacidad de los servicios en producción.
La ingeniería de confiabilidad del sitio permite que los equipos determinen qué características nuevas se pueden lanzar y en qué momento, gracias al uso de acuerdos de nivel de servicio (SLA) para definir la confiabilidad requerida del sistema mediante indicadores de nivel de servicio (SLI) y objetivos de nivel de servicio (SLO).
Un SLI es una medida definida de aspectos específicos sobre los niveles de servicio que se proporcionan. Los más importantes incluyen la latencia de las solicitudes, la disponibilidad, la tasa de errores y el rendimiento del sistema.
Un SLO se basa en el valor o el rango objetivo para un nivel de servicio específico basado en el SLI.
Luego se determina un objetivo de nivel de servicio en función del downtime que se acordó como aceptable, denominado «estimación de errores», que representa el límite máximo de interrupciones y errores permitidos.
Los ingenieros de confiabilidad del sitio dividen su trabajo entre las tareas operativas y del proyecto. Según las prácticas recomendadas de SRE de Google, los ingenieros de confiabilidad del sitio pueden dedicar hasta un 50 % del tiempo a las operaciones estando bajo supervisión directa para no excederse.
El resto del tiempo se deben dedicar a las tareas de desarrollo, como crear funciones nuevas, ampliar el sistema e implementar procesos de automatización.
El equipo de desarrollo puede ocuparse del resto del trabajo operativo y de los servicios con bajo rendimiento para evitar que los ingenieros inviertan demasiado tiempo en las operaciones de una aplicación o un servicio.
La automatización es una parte importante del trabajo de los ingenieros de confiabilidad del sitio. Si deben resolver un problema varias veces, deben automatizar la solución. Así también se garantiza que las tareas operativas ocupen solo la mitad de su carga de trabajo.
Mantener el equilibrio entre las operaciones y la labor de desarrollo es un elemento clave de la SRE.
¿Quieres aumentar la resiliencia en tus datos?
Si te gusto este blog y quieres aumentar la resiliencia de tus datos, no dudes en revisar nuestros servicios