Szkolenie: SRE Fundamentals — niezawodność jako praktyka inżynierska
Szkolenie wprowadzające w filozofię i metodykę Site Reliability Engineering opartą na podejściu Google. Uczestnicy poznają kluczowe koncepcje: SLI (Service Level Indicators), SLO (Service Level Objectives), SLA oraz Error Budget jako narzędzie zarządzania ryzykiem. Kurs uczy jak zdefiniować i mierzyć niezawodność systemu, identyfikować toil (powtarzalną pracę manualną) i go redukować oraz budować kulturę postmortem bez szukania winnych. Po szkoleniu uczestnik wraca do swojego zespołu z gotowym zestawem pytań, metryk i narzędzi do natychmiastowego zastosowania — bez konieczności wdrażania nowych systemów
SRE Fundamentals — niezawodność jako praktyka inżynierska
Cele szkolenia
Szkolenie przygotowuje inżynierów do wdrożenia kultury Site Reliability Engineering oraz zarządzania niezawodnością systemów jako problemu inżynierskiego w środowiskach DevOps i cloud
Szkolenie uczy definiowania, monitorowania i interpretacji SLI, SLO oraz SLA, a także zarządzania Error Budget w celu podejmowania świadomych decyzji o release frequency i ryzyku produkcyjnym
Szkolenie rozwija umiejętności identyfikacji toil, ograniczania alert fatigue oraz redukcji pracy manualnej poprzez automatyzację procesów i observability
Szkolenie uczy prowadzenia efektywnych blameless postmortem oraz analizy incydentów z wykorzystaniem root cause analysis jako elementu continuous improvement
Szkolenie pokazuje jak budować zdrową kulturę on-call, definiować metryki MTTR i MTTA oraz wdrażać praktyki reliability engineering w zespołach IT
Szkolenie wprowadza uczestników w ekosystem narzędzi SRE takich jak Prometheus, Grafana, PagerDuty, Terraform i Kubernetes oraz pokazuje ich rolę w utrzymaniu niezawodności usług
Dla kogo?
Inżynierowie DevOps chcący pogłębić wiedzę na temat niezawodności systemów
Administratorzy systemów przechodzący w rolę SRE
Tech leadowie i architekci odpowiedzialni za niezawodność systemów produkcyjnych
Liderzy technicznych planujący wprowadzenie praktyk SRE w organizacji
Efekty kształcenia
Uczestnik definiuje SLI i SLO dla swojego systemu oraz wskazuje które metryki niezawodności mają realne znaczenie dla użytkownika, a które stanowią jedynie szum monitoringowy
Uczestnik oblicza Error Budget dla swojego SLO oraz określa maksymalną dopuszczalną liczbę incydentów i czas niedostępności usług w skali miesiąca
Uczestnik identyfikuje konkretny toil w swoim zespole, analizuje jego koszt operacyjny i proponuje automatyzację wspierającą reliability engineering
Uczestnik prowadzi blameless postmortem na podstawie rzeczywistego incydentu oraz formułuje action items z właścicielami i terminami realizacji
Uczestnik rozróżnia podejście klasycznych operations od Site Reliability Engineering i uzasadnia wdrożenie praktyk SRE w swoim zespole
Uczestnik analizuje Four Golden Signals oraz wykorzystuje metryki latency, traffic, errors i saturation do oceny kondycji systemu
Uczestnik projektuje podstawowe runbooks i playbooks wspierające skuteczny on-call oraz ograniczające alert fatigue
Uczestnik mapuje wymagania biznesowe na cele SLO i potrafi komunikować wpływ niezawodności systemu na decyzje biznesowe i produktowe
Wymagania
Doświadczenie w administracji systemami Linux/Unix lub DevOps
Podstawowa wiedza o systemach produkcyjnych i wdrażaniu aplikacji
Zrozumienie koncepcji monitoring i alertingu
Znajomość podstaw infrastruktury chmurowej będzie plusem
W cenie otrzymasz:
Materiały szkoleniowe
Certyfikat ukończenia szkolenia
W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki