Szkolenie: SRE Fundamentals — niezawodność jako praktyka inżynierska

Szkolenie wprowadzające w filozofię i metodykę Site Reliability Engineering opartą na podejściu Google. Uczestnicy poznają kluczowe koncepcje: SLI (Service Level Indicators), SLO (Service Level Objectives), SLA oraz Error Budget jako narzędzie zarządzania ryzykiem. Kurs uczy jak zdefiniować i mierzyć niezawodność systemu, identyfikować toil (powtarzalną pracę manualną) i go redukować oraz budować kulturę postmortem bez szukania winnych. Po szkoleniu uczestnik wraca do swojego zespołu z gotowym zestawem pytań, metryk i narzędzi do natychmiastowego zastosowania — bez konieczności wdrażania nowych systemów

  • Trenerzy praktycy
  • Kameralne grupy
2550 PLN+23% VAT (3136,50 PLN brutto / 1 os.)

Czas trwania szkolenia:2 dni (16h)

Poziom zaawansowania:

Kod kursu:SRE/FND

sresite-reliability-engineeringsli-slo-slaerror-budget

Dostępne terminy szkolenia

  • Termin
  • Trener
  • Cena
  • Lokalizacja
  • Zapis
Nowe terminy szkolenia już wkrótce! Śledź naszą stronę, aby być na bieżąco.

Forma szkolenia

Interesuje Cię szkolenie stacjonarne?

Powiadom o kolejnych terminach

Interesuje Cię szkolenie w innym terminie?

SRE Fundamentals — niezawodność jako praktyka inżynierska

Cele szkolenia

  • Szkolenie przygotowuje inżynierów do wdrożenia kultury Site Reliability Engineering oraz zarządzania niezawodnością systemów jako problemu inżynierskiego w środowiskach DevOps i cloud

  • Szkolenie uczy definiowania, monitorowania i interpretacji SLI, SLO oraz SLA, a także zarządzania Error Budget w celu podejmowania świadomych decyzji o release frequency i ryzyku produkcyjnym

  • Szkolenie rozwija umiejętności identyfikacji toil, ograniczania alert fatigue oraz redukcji pracy manualnej poprzez automatyzację procesów i observability

  • Szkolenie uczy prowadzenia efektywnych blameless postmortem oraz analizy incydentów z wykorzystaniem root cause analysis jako elementu continuous improvement

  • Szkolenie pokazuje jak budować zdrową kulturę on-call, definiować metryki MTTR i MTTA oraz wdrażać praktyki reliability engineering w zespołach IT

  • Szkolenie wprowadza uczestników w ekosystem narzędzi SRE takich jak Prometheus, Grafana, PagerDuty, Terraform i Kubernetes oraz pokazuje ich rolę w utrzymaniu niezawodności usług


Dla kogo?

  • Inżynierowie DevOps chcący pogłębić wiedzę na temat niezawodności systemów

  • Administratorzy systemów przechodzący w rolę SRE

  • Tech leadowie i architekci odpowiedzialni za niezawodność systemów produkcyjnych

  • Liderzy technicznych planujący wprowadzenie praktyk SRE w organizacji


Efekty kształcenia

  • Uczestnik definiuje SLI i SLO dla swojego systemu oraz wskazuje które metryki niezawodności mają realne znaczenie dla użytkownika, a które stanowią jedynie szum monitoringowy

  • Uczestnik oblicza Error Budget dla swojego SLO oraz określa maksymalną dopuszczalną liczbę incydentów i czas niedostępności usług w skali miesiąca

  • Uczestnik identyfikuje konkretny toil w swoim zespole, analizuje jego koszt operacyjny i proponuje automatyzację wspierającą reliability engineering

  • Uczestnik prowadzi blameless postmortem na podstawie rzeczywistego incydentu oraz formułuje action items z właścicielami i terminami realizacji

  • Uczestnik rozróżnia podejście klasycznych operations od Site Reliability Engineering i uzasadnia wdrożenie praktyk SRE w swoim zespole

  • Uczestnik analizuje Four Golden Signals oraz wykorzystuje metryki latency, traffic, errors i saturation do oceny kondycji systemu

  • Uczestnik projektuje podstawowe runbooks i playbooks wspierające skuteczny on-call oraz ograniczające alert fatigue

  • Uczestnik mapuje wymagania biznesowe na cele SLO i potrafi komunikować wpływ niezawodności systemu na decyzje biznesowe i produktowe


Wymagania

  • Doświadczenie w administracji systemami Linux/Unix lub DevOps

  • Podstawowa wiedza o systemach produkcyjnych i wdrażaniu aplikacji

  • Zrozumienie koncepcji monitoring i alertingu

  • Znajomość podstaw infrastruktury chmurowej będzie plusem


W cenie otrzymasz:

  • Materiały szkoleniowe

  • Certyfikat ukończenia szkolenia

  • W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki

Program szkolenia

Pobierz program w PDF

Filozofia i koncepcje SRE

  • Co to jest Site Reliability Engineering — pochodzenie z Google, ewolucja od classic ops

  • SRE vs DevOps vs Operations — różnice w mentalności, odpowiedzialności i narzędziach

  • Rola inżyniera SRE — hybrid developer-operator, co musi umieć (coding, Linux, networks, databases)

  • Toil — co to jest i dlaczego go redukować (manual work, repetitive tasks, no leverage)

  • Inżynieria vs walka z ogniami — shift na automatyzację i przejrzyste procesy

  • SRE w branży — Google, Netflix, Spotify, Allegro i jak adaptują podejście organizacje różnej wielkości

  • Ekosystem narzędzi SRE — Prometheus, Grafana, PagerDuty, Terraform, Kubernetes — co i dlaczego (przegląd, każde omawiane szczegółowo w kolejnych kursach ścieżki)

SLI, SLO, SLA — słownik niezawodności

  • Definiowanie Service Level Indicators (SLI) — co rzeczywiście zależy użytkownikom (nie wszystko trzeba mierzyć)

  • Service Level Objectives (SLO) — cele niezawodności i budżet błędów, jak wybrać realistyczne wartości

  • Service Level Agreements (SLA) — zobowiązania komercyjne i konsekwencje

  • Google's Four Golden Signals — latency, traffic, errors, saturation i jak je interpretować

  • Definiowanie SLO dla typowych systemów — API, bazy danych, kolejki — ćwiczenie na rzeczywistych przykładach

  • Mapowanie biznesowych wymagań na SLI/SLO — jak rozmawiać z product managerami

Error Budget — zarządzanie ryzykiem na produkcji

  • Koncepcja Error Budget — ile błędów możemy sobie pozwolić w danym okresie (SLO 99% = 0.01% błędów)

  • Matematyka Error Budget — od SLO do liczby 9 (99%, 99.9%, 99.99%, itd), obliczanie dostępności w sekundach/minutach

  • Decyzje o release frequency — jak szybko możemy wdrażać bez przekraczania budżetu

  • Priorytetyzacja pracy — bugs vs nowe features na podstawie budżetu, kiedy można być agresywnym

  • Komunikacja Error Budget w zespole i z biznesem — jak wyjaśnić wpływ incydentów na możliwości i decyzje o releasach

  • Ćwiczenie: oblicz Error Budget dla swojego systemu — uczestnicy liczą na podstawie własnych danych lub przygotowanego case study

On-call i kultura dyżurów

  • Czym jest on-call w SRE — rotacja, odpowiedzialności, eskalacje

  • Alert fatigue — dlaczego zbyt wiele alertów zabija on-call i jak temu zapobiec

  • Runbooks i playbooks — jak przygotować inżyniera na dyżur i standaryzować reakcje

  • Metryki zdrowego on-call — MTTA, MTTR, liczba stron na dyżur

  • Granica między toilem a incydentem — kiedy reagować, kiedy automatyzować

  • Przegląd narzędzi on-call — PagerDuty, OpsGenie, Grafana OnCall — czym się różnią i jak wybrać

Postmortem culture i blameless reviews

  • Kultura bezpieczeństwa psychicznego — blameless investigation jako narzędzie psychologiczne

  • Struktura postmortem — timeline budowy incydentu, root cause analysis, action items z właścicielami

  • Dokumentowanie incydentów bez szukania winnych — fokus na systemy a nie ludzi

  • Analiza przyczyn — pytanie "why" pięć razy, hierarchie przyczyn (immediate vs root)

  • Continuous improvement — wyciąganie wniosków z każdego problemu, tracking action items

  • Szablon postmortem — analiza przykładowego dokumentu (Google, Atlassian), przegląd struktury i typowych błędów

Wybrane opinie

Przeczytaj pozytywne opinie pochodzące z ankiet satysfakcji z naszych szkoleń wypełnianych wyłącznie przez ich uczestników po realizacji usługi

4.8
Ocena pochodzi ze średniej ocen Sages w serwisie Google i nie jest weryfikowanaŚrednia ocen Sages w serwisie Google Ocena pochodzi ze średniej ocen Sages w serwisie Google i nie jest weryfikowana

8.05.2026

Uczestnik szkoleniaOptymalizacja modeli uczenia głębokiego w procesie treningu i inferencji

Szymon Posiadała, WB Electronics S.A.

Kompetentny, sympatyczny prowadzący, bardzo merytoryczne szkolenie, dużo informacji przydatnych w codziennej pracy wraz z przykładami. Dodatkowo szkolenie było dostosowane pod konkretne potrzeby zespołu i uczestników

Więcej opinii