Szkolenie: SRE Fundamentals — niezawodność jako praktyka inżynierska

Szkolenie wprowadzające w filozofię i metodykę Site Reliability Engineering opartą na podejściu Google. Uczestnicy poznają kluczowe koncepcje: SLI (Service Level Indicators), SLO (Service Level Objectives), SLA oraz Error Budget jako narzędzie zarządzania ryzykiem. Kurs uczy jak zdefiniować i mierzyć niezawodność systemu, identyfikować toil (powtarzalną pracę manualną) i go redukować oraz budować kulturę postmortem bez szukania winnych. Po szkoleniu uczestnik wraca do swojego zespołu z gotowym zestawem pytań, metryk i narzędzi do natychmiastowego zastosowania — bez konieczności wdrażania nowych systemów

Trenerzy praktycy
Kameralne grupy

2550 PLN+23% VAT (3136,50 PLN brutto / 1 os.)

Czas trwania szkolenia:2 dni (16h)

Poziom zaawansowania:

Kod kursu:SRE/FND

sresite-reliability-engineeringsli-slo-slaerror-budget

Dostępne terminy szkolenia

Nowe terminy szkolenia już wkrótce! Śledź naszą stronę, aby być na bieżąco.

Forma szkolenia

Interesuje Cię szkolenie stacjonarne?

Zapytaj o szkolenie

Powiadom o kolejnych terminach

Interesuje Cię szkolenie w innym terminie?

SRE Fundamentals — niezawodność jako praktyka inżynierska

Cele szkolenia

Szkolenie przygotowuje inżynierów do wdrożenia kultury Site Reliability Engineering oraz zarządzania niezawodnością systemów jako problemu inżynierskiego w środowiskach DevOps i cloud
Szkolenie uczy definiowania, monitorowania i interpretacji SLI, SLO oraz SLA, a także zarządzania Error Budget w celu podejmowania świadomych decyzji o release frequency i ryzyku produkcyjnym
Szkolenie rozwija umiejętności identyfikacji toil, ograniczania alert fatigue oraz redukcji pracy manualnej poprzez automatyzację procesów i observability
Szkolenie uczy prowadzenia efektywnych blameless postmortem oraz analizy incydentów z wykorzystaniem root cause analysis jako elementu continuous improvement
Szkolenie pokazuje jak budować zdrową kulturę on-call, definiować metryki MTTR i MTTA oraz wdrażać praktyki reliability engineering w zespołach IT
Szkolenie wprowadza uczestników w ekosystem narzędzi SRE takich jak Prometheus, Grafana, PagerDuty, Terraform i Kubernetes oraz pokazuje ich rolę w utrzymaniu niezawodności usług

Dla kogo?

Inżynierowie DevOps chcący pogłębić wiedzę na temat niezawodności systemów
Administratorzy systemów przechodzący w rolę SRE
Tech leadowie i architekci odpowiedzialni za niezawodność systemów produkcyjnych
Liderzy technicznych planujący wprowadzenie praktyk SRE w organizacji

Efekty kształcenia

Uczestnik definiuje SLI i SLO dla swojego systemu oraz wskazuje które metryki niezawodności mają realne znaczenie dla użytkownika, a które stanowią jedynie szum monitoringowy
Uczestnik oblicza Error Budget dla swojego SLO oraz określa maksymalną dopuszczalną liczbę incydentów i czas niedostępności usług w skali miesiąca
Uczestnik identyfikuje konkretny toil w swoim zespole, analizuje jego koszt operacyjny i proponuje automatyzację wspierającą reliability engineering
Uczestnik prowadzi blameless postmortem na podstawie rzeczywistego incydentu oraz formułuje action items z właścicielami i terminami realizacji
Uczestnik rozróżnia podejście klasycznych operations od Site Reliability Engineering i uzasadnia wdrożenie praktyk SRE w swoim zespole
Uczestnik analizuje Four Golden Signals oraz wykorzystuje metryki latency, traffic, errors i saturation do oceny kondycji systemu
Uczestnik projektuje podstawowe runbooks i playbooks wspierające skuteczny on-call oraz ograniczające alert fatigue
Uczestnik mapuje wymagania biznesowe na cele SLO i potrafi komunikować wpływ niezawodności systemu na decyzje biznesowe i produktowe

Wymagania

Doświadczenie w administracji systemami Linux/Unix lub DevOps
Podstawowa wiedza o systemach produkcyjnych i wdrażaniu aplikacji
Zrozumienie koncepcji monitoring i alertingu
Znajomość podstaw infrastruktury chmurowej będzie plusem

W cenie otrzymasz:

Materiały szkoleniowe
Certyfikat ukończenia szkolenia
W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki

Filozofia i koncepcje SRE

Co to jest Site Reliability Engineering — pochodzenie z Google, ewolucja od classic ops
SRE vs DevOps vs Operations — różnice w mentalności, odpowiedzialności i narzędziach
Rola inżyniera SRE — hybrid developer-operator, co musi umieć (coding, Linux, networks, databases)
Toil — co to jest i dlaczego go redukować (manual work, repetitive tasks, no leverage)
Inżynieria vs walka z ogniami — shift na automatyzację i przejrzyste procesy
SRE w branży — Google, Netflix, Spotify, Allegro i jak adaptują podejście organizacje różnej wielkości
Ekosystem narzędzi SRE — Prometheus, Grafana, PagerDuty, Terraform, Kubernetes — co i dlaczego (przegląd, każde omawiane szczegółowo w kolejnych kursach ścieżki)

SLI, SLO, SLA — słownik niezawodności

Definiowanie Service Level Indicators (SLI) — co rzeczywiście zależy użytkownikom (nie wszystko trzeba mierzyć)
Service Level Objectives (SLO) — cele niezawodności i budżet błędów, jak wybrać realistyczne wartości
Service Level Agreements (SLA) — zobowiązania komercyjne i konsekwencje
Google's Four Golden Signals — latency, traffic, errors, saturation i jak je interpretować
Definiowanie SLO dla typowych systemów — API, bazy danych, kolejki — ćwiczenie na rzeczywistych przykładach
Mapowanie biznesowych wymagań na SLI/SLO — jak rozmawiać z product managerami

Error Budget — zarządzanie ryzykiem na produkcji

Koncepcja Error Budget — ile błędów możemy sobie pozwolić w danym okresie (SLO 99% = 0.01% błędów)
Matematyka Error Budget — od SLO do liczby 9 (99%, 99.9%, 99.99%, itd), obliczanie dostępności w sekundach/minutach
Decyzje o release frequency — jak szybko możemy wdrażać bez przekraczania budżetu
Priorytetyzacja pracy — bugs vs nowe features na podstawie budżetu, kiedy można być agresywnym
Komunikacja Error Budget w zespole i z biznesem — jak wyjaśnić wpływ incydentów na możliwości i decyzje o releasach
Ćwiczenie: oblicz Error Budget dla swojego systemu — uczestnicy liczą na podstawie własnych danych lub przygotowanego case study

On-call i kultura dyżurów

Czym jest on-call w SRE — rotacja, odpowiedzialności, eskalacje
Alert fatigue — dlaczego zbyt wiele alertów zabija on-call i jak temu zapobiec
Runbooks i playbooks — jak przygotować inżyniera na dyżur i standaryzować reakcje
Metryki zdrowego on-call — MTTA, MTTR, liczba stron na dyżur
Granica między toilem a incydentem — kiedy reagować, kiedy automatyzować
Przegląd narzędzi on-call — PagerDuty, OpsGenie, Grafana OnCall — czym się różnią i jak wybrać

Postmortem culture i blameless reviews

Kultura bezpieczeństwa psychicznego — blameless investigation jako narzędzie psychologiczne
Struktura postmortem — timeline budowy incydentu, root cause analysis, action items z właścicielami
Dokumentowanie incydentów bez szukania winnych — fokus na systemy a nie ludzi
Analiza przyczyn — pytanie "why" pięć razy, hierarchie przyczyn (immediate vs root)
Continuous improvement — wyciąganie wniosków z każdego problemu, tracking action items
Szablon postmortem — analiza przykładowego dokumentu (Google, Atlassian), przegląd struktury i typowych błędów

Wybrane opinie

Przeczytaj pozytywne opinie pochodzące z ankiet satysfakcji z naszych szkoleń wypełnianych wyłącznie przez ich uczestników po realizacji usługi

4.8

8.05.2026

Uczestnik szkolenia “Optymalizacja modeli uczenia głębokiego w procesie treningu i inferencji”

Szymon Posiadała, WB Electronics S.A.

Kompetentny, sympatyczny prowadzący, bardzo merytoryczne szkolenie, dużo informacji przydatnych w codziennej pracy wraz z przykładami. Dodatkowo szkolenie było dostosowane pod konkretne potrzeby zespołu i uczestników

8.05.2026

Uczestnik szkolenia “Optymalizacja modeli uczenia głębokiego w procesie treningu i inferencji”

Aleksandra Barbay, WB Electronics S.A.

Szkoleniowiec był profesjonalistą. Ogromna wiedza, świetny sposób przekazywania wiedzy, odpowiedzi na wszelkie pytania, świetnie przygotowana prezentacja oraz część kodowa. Fajnie że ma doświadczenie w Computer Vision bo to dokładnie zagadnienie które nas interesowało. Szkolenie na prośbę było bardziej zaawansowane i prosiliśmy o krótkie wstępy i dużo praktyki. Wszystko bylo

8.05.2026

Uczestnik szkolenia “Optymalizacja modeli uczenia głębokiego w procesie treningu i inferencji”

Aleksandra Barbay, WB Electronics S.A.

Więcej opinii

Podobne szkolenia

Praca z kontenerami w chmurze Azure

Liczba dni: 2

2450 PLN

Szkolenie Azure Containers to praktyczny kurs, który uczy wdrażania, zarządzania i skalowania aplikacji w kontenerach Docker w chmurze Microsoft Azure, obejmując automatyzację, bezpieczeństwo, nowoczesne architektury i najlepsze praktyki DevOps

azure-containerskontenerycloud-nativemicrosoft-azure

Docker w praktyce

Liczba dni: 2

2365 PLN

Szkolenie Docker w praktyce to intensywny kurs DevOps, który uczy wdrażania, zarządzania i automatyzacji aplikacji w kontenerach Docker, obejmując budowę obrazów, konfigurację sieci, bezpieczeństwo, orkiestrację oraz integrację z narzędziami takimi jak Docker Compose i Kubernetes

kontenerycontainerizationdevopsdocker

DevOps dla PM

Liczba dni: 1

Na zamówienie

Szkolenie DevOps dla PM to praktyczny kurs dla liderów IT i członków zespołów projektowych, który wprowadza w kluczowe zasady DevOps, automatyzację procesów, kulturę organizacyjną, monitoring, Lean oraz narzędzia wspierające efektywne wytwarzanie i wdrażanie oprogramowania

agile-dla-pmwspolpraca-dev-opsdevops-w-pmproject-management-it

Kategorie szkoleń

Terminarz - szkolenia otwarte

Szkolenia zamknięte dla Firm

E-learning

Stacja IT - warsztaty dla programistów

Kodołamacz - kursy AI, bootcampy

AI Programming - Nowy kurs PRO by Kodołamacz

Upskilling, reskilling i optymalizacja w IT

AI Programming

AI dla uczelni

AI i analityka danych

Testowanie

Zarządzanie

DevOps / CloudOps

Programowanie

AI & Data Driven Business

Inżynieria uczenia maszynowego i AI

UX Design

Data Science

Big Data

AI-Powered Business Intelligence

Vouchery

Dofinansowania

Promocje

Dokumenty

FAQ

Chatboty

Rozwiązania AI

Cyfrowa dostępność

Usługi DevOps

Dostępność cyfrowa

USOS

SSOP

Omega-PSIR

UNIplaner

Rektorat

Portal Pracowniczy

Wszystkie rozwiązania

Co nas wyróżnia

Referencje

Opinie ze szkoleń

Zespół

Kariera

Aktualne projekty

Wszystkie wpisy

Case studies

Aktualności

Artykuły

Kategorie szkoleń

Terminarz - szkolenia otwarte

Szkolenia zamknięte dla Firm

E-learning

Stacja IT - warsztaty dla programistów

Kodołamacz - kursy AI, bootcampy

AI Programming - Nowy kurs PRO by Kodołamacz

Upskilling, reskilling i optymalizacja w IT

AI Programming

AI dla uczelni

AI i analityka danych

Testowanie

Zarządzanie

DevOps / CloudOps

Programowanie

AI & Data Driven Business

Inżynieria uczenia maszynowego i AI

UX Design

Data Science

Big Data

AI-Powered Business Intelligence

Vouchery

Dofinansowania

Promocje

Dokumenty

FAQ

Chatboty

Rozwiązania AI

Cyfrowa dostępność

Usługi DevOps

Dostępność cyfrowa

USOS