Site Reliability Engineering - Pleno

  • Pj
  • Período integral
  • Remoto
  • Tecnologia

Sobre a Suflex
A Suflex é uma empresa de tecnologia SaaS focada em soluções para restaurantes e cozinhas profissionais. Nosso propósito é simplificar processos, aumentar a eficiência operacional e transformar a jornada de clientes com produtos inovadores e de alto impacto.
Buscamos SRE Pleno (foco em confiabilidade, observabilidade e automação) para fortalecer nossas plataformas.
Responsabilidades e Atribuições:

  • Monitorar e garantir a disponibilidade, performance e resiliência dos serviços

  • Configurar e evoluir métricas, logs e alertas acionáveis

  • Investigar incidentes e propor soluções permanentes (post-mortem e RCA)

  • Criar rotinas e automações para prevenção de falhas

  • Apoiar os times de backend e frontend na instrumentação das aplicações

  • Mapear gargalos de consumo, escalabilidade e tempo de resposta

  • Melhorar continuamente SLIs, SLOs e acordos de confiabilidade internos

  • Documentar padrões de monitoramento, resposta e contingência

  • Participar de discussões técnicas para antecipar riscos de produção

  • Confortável em atuar em times multidisciplinares e ambiente 100% remoto

Requisitos e qualificações:

  • Experiência com observabilidade (Grafana, Prometheus, Loki, ELK, Sentry, Datadog ou similares)

  • Vivência com incidentes em produção e troubleshooting

  • Conhecimento em AWS ou outra cloud (CloudWatch, RDS, ECS/EKS, Load Balancer)

  • Familiaridade com logs estruturados, tracing e métricas de aplicação

  • Experiência com containers (Docker) e pipelines de deploy

  • Habilidades com versionamento (Git) e colaboração com devs

  • Noções de automação e infraestrutura (IaC, CI/CD ou scripts)

  • Conhecimento básico de redes, segurança e escalabilidade

  • Desejável familiaridade com metodologias ágeis (Scrum/Kanban)