.
Responsabilidades e atribuições
-
Garantir a confiabilidade, disponibilidade, escalabilidade e performance dos sistemas em produção;
-
Definir, monitorar e evoluir indicadores de SLIs, SLOs, SLAs e Error Budgets;
-
Implementar e aprimorar práticas de observabilidade, incluindo logs, métricas, tracing e alertas;
-
Atuar na resposta a incidentes críticos, análises de causa raiz (RCA) e condução de pós-mortem sem culpabilização;
-
Automatizar processos operacionais visando redução de atividades manuais e aumento da eficiência;
-
Trabalhar em conjunto com times de Desenvolvimento, DevOps e Arquitetura para prevenir falhas sistêmicas;
-
Planejar e validar estratégias de alta disponibilidade, escalabilidade, capacidade e disaster recovery;
-
Apoiar decisões técnicas por meio da análise de métricas de confiabilidade, performance e utilização dos sistemas;
-
Contribuir para a evolução contínua da cultura de confiabilidade e excelência operacional.
Requisitos e qualificações
-
Graduação em Ciência da Computação, Engenharia de Software, Sistemas de Informação ou áreas correlatas;
-
Experiência sólida de atuação com SRE, Operações de TI, Cloud ou Engenharia de Software;
-
Vivência em ambientes críticos, distribuídos e de alta disponibilidade;
-
Experiência com monitoramento, gestão de incidentes e confiabilidade operacional;
-
Experiência em ambientes AWS de larga escala;
-
Conhecimento avançado em Docker e Kubernetes;
-
Experiência com ferramentas de observabilidade, monitoramento e troubleshooting;
-
Conhecimento em automação utilizando Python e Shell Script;
-
Conhecimento em conceitos de resiliência, disaster recovery, capacity planning e segurança;
-
Experiência com Chaos Engineering;
-
Conhecimento em OpenTelemetry e observabilidade distribuída.
-
Pós-graduação ou MBA em Cloud Computing, Engenharia de Sistemas, SRE ou áreas correlatas;
-
Certificação AWS Solutions Architect Associate ou Professional;
-
Certificações Kubernetes (CKA, CKAD ou similares);
-
Certificações em SRE, Observabilidade, Resiliência ou Segurança.
Compass UOL is a global firm and part of the AI Revolution Company, together transforming organizations using Artificial Intelligence, Generative AI, and other of today’s most advanced technologies.
We equip our team with proprietary and external AI-driven tools to design and build digital-native platforms, integrating cutting-edge technologies and enabling companies to innovate, transform their businesses, and drive success in their markets.
To achieve this, we attract and develop the best talent, creating opportunities that enhance people’s lives and highlight the positive impact of disruptive technologies.
We empower borderless talent and promote knowledge and opportunities in the latest market trends, driving significant personal and professional growth.
Join us and be part of the AI-driven revolution.