Szkolenie dostępne na zamówienie

Szkolenie: Chaos Engineering - proaktywne wykrywanie słabych punktów

Praktyczny kurs dla inżynierów SRE i DevOps chcących wyjść poza reaktywne zarządzanie awariami i proaktywnie wykrywać słabe punkty systemu zanim znajdą je użytkownicy. Uczestnicy uczą się planować i przeprowadzać kontrolowane eksperymenty chaosowe w środowiskach Kubernetes przy użyciu LitmusChaos i Chaos Mesh, korzystać z natywnych narzędzi chmurowych AWS Fault Injection Service i Azure Chaos Studio, integrować eksperymenty z potokiem CI/CD oraz organizować Game Day jako symulację awarii angażującą cały zespół. Kurs uwzględnia komercyjne narzędzia Steadybit i Gremlin oraz najnowsze trendy włącznie z integracją chaosu z agentami AI

Trenerzy praktycy
Kameralne grupy

Czas trwania szkolenia:2 dni (16h)

Poziom zaawansowania:

Kod kursu:SRE/CHAOS

chaos-engineeringkubernetes-resiliencesre-devopsgame-day-testing

Szkolenie na zamówienie

Dostosowany program
Indywidualna wycena
Dowolny termin

Chaos Engineering - proaktywne wykrywanie słabych punktów

Cele szkolenia

Szkolenie przygotowuje inżynierów SRE i DevOps do prowadzenia kontrolowanych eksperymentów chaosowych w środowiskach produkcyjnych, chmurowych i Kubernetes
Szkolenie uczy strukturyzowania eksperymentów Chaos Engineering poprzez definiowanie hipotez, obserwację stanu ustalonego, analizę metryk oraz ocenę odporności systemów
Szkolenie rozwija umiejętność pracy z LitmusChaos, Chaos Mesh oraz narzędziami AWS Fault Injection Service i Azure Chaos Studio wykorzystywanymi do testowania niezawodności
Szkolenie pokazuje jak integrować eksperymenty chaosowe z procesami CI/CD i Continuous Chaos w celu automatycznej weryfikacji jakości wdrożeń
Szkolenie pokazuje jak przeprowadzać Game Day, planowane symulacje awarii wspierające budowanie kultury niezawodności i resilience engineering
Szkolenie uczy identyfikowania słabych punktów architektury oraz ograniczania ryzyka awarii zanim wpłyną one na użytkowników i procesy biznesowe
Szkolenie rozwija kompetencje związane z observability, SLO, fault injection oraz analizą zachowania systemów podczas kontrolowanych zakłóceń
Szkolenie pokazuje najnowsze trendy w Chaos Engineering, w tym wykorzystanie agentów AI do generowania hipotez i automatyzacji eksperymentów

Dla kogo?

Inżynierowie SRE i DevOps odpowiedzialni za niezawodność systemów produkcyjnych
Architekci systemów weryfikujący hipotezy odporności przed wdrożeniem
Liderzy techniczni chcący wprowadzić kulturę Chaos Engineering w organizacji
Inżynierowie platform wewnętrznych projektujący samoobsługową weryfikację odporności
Menedżerowie zespołów odpowiedzialnych za usługi krytyczne dla biznesu

Efekty kształcenia

Uczestnik definiuje hipotezę chaosową oraz dobiera zakres eksperymentu Chaos Engineering minimalizując ryzyko wpływu na środowisko produkcyjne
Uczestnik konfiguruje i uruchamia eksperymenty LitmusChaos wykorzystując komponenty ChaosEngine i ChaosExperiment w środowisku Kubernetes
Uczestnik tworzy eksperymenty PodChaos, NetworkChaos i StressChaos w Chaos Mesh oraz analizuje ich wpływ na niezawodność systemów
Uczestnik projektuje i realizuje scenariusze fault injection z wykorzystaniem AWS Fault Injection Service i Azure Chaos Studio
Uczestnik integruje eksperymenty chaosowe z procesami CI/CD oraz wdraża praktyki Continuous Chaos wspierające jakość wdrożeń
Uczestnik analizuje metryki observability, SLO oraz wyniki eksperymentów w celu oceny odporności aplikacji i infrastruktury
Uczestnik wdraża mechanizmy bezpiecznego przeprowadzania eksperymentów chaosowych z uwzględnieniem RBAC, polityk bezpieczeństwa i audytowalności
Uczestnik planuje i przeprowadza Game Day obejmujący runbook, role zespołowe, komunikację kryzysową oraz analizę rezultatów
Uczestnik identyfikuje słabe punkty architektury systemowej oraz rekomenduje działania zwiększające resilience i dostępność usług
Uczestnik wykorzystuje nowoczesne narzędzia Chaos Engineering oraz rozwiązania AI wspierające automatyzację eksperymentów i analizę wyników

Wymagania

Doświadczenie z Kubernetes na poziomie operacyjnym - deployments, services, namespaces, kubectl
Znajomość podstawowych wzorców odporności (circuit breaker, retry, timeout)
Praktyczne doświadczenie z jednym z dostawców chmurowych (AWS lub Azure)
Zrozumienie SLI i SLO, uczestnik powinien wiedzieć jak mierzyć dostępność swojego systemu
System operacyjny Linux (Ubuntu 22.04 lub nowszy, Fedora 40 lub nowsza), macOS lub Windows z WSL 2
Docker Engine zainstalowany i przetestowany przed szkoleniem (docker run hello-world kończy się sukcesem)
Stabilne łącze internetowe do pobierania obrazów kontenerowych podczas szkolenia

W cenie otrzymasz:

Materiały szkoleniowe
Certyfikat ukończenia szkolenia
W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki

Chaos Engineering wobec klasycznego testowania awarii, czym różni się eksperyment od przypadkowego błędu
Hipoteza stanu ustalonego, jak zdefiniować normalny stan systemu i wybrać metryki weryfikacyjne
Zasady bezpiecznego eksperymentowania, minimalizacja zasięgu, warunki przerwania, środowisko staging wobec produkcji
Planowanie eksperymentu - hipoteza, zakres, obserwacje, czas trwania, kryteria sukcesu
Krajobraz narzędzi w 2026 roku - open source (LitmusChaos, Chaos Mesh, ChaosBlade), komercyjne (Steadybit, Gremlin, Harness Chaos), natywne chmurowe
Dojrzałość organizacyjna w Chaos Engineering, ścieżka od pierwszego eksperymentu do continuous chaos
Umiejscowienie chaosu w cyklu wytwórczym oprogramowania, od testów lokalnych po Game Day

Środowisko warsztatowe, instalacja kind, kubectl, Helm, podinfo i Prometheusa podczas szkolenia
Architektura LitmusChaos - Chaos Center, ChaosEngine, ChaosExperiment, ChaosHub
Instalacja LitmusChaos przez Helm i pierwszy eksperyment
Eksperymenty na Podach - pod-delete, pod-cpu-hog, container-kill
Eksperymenty sieciowe - network-loss, network-latency, network-corruption
Litmus Probes jako mechanizm weryfikacji hipotezy
Workflow chaosowy, łańcuchowanie eksperymentów dla złożonych scenariuszy
Integracja LitmusChaos z agentami AI przez Litmus MCP Server jako trend roku 2026

Chaos Mesh jako alternatywa LitmusChaos, projekt CNCF, krótkie porównanie
Architektura Chaos Mesh - Chaos Controller Manager, Chaos Daemon, Dashboard
PodChaos, NetworkChaos, StressChaos, IOChaos, TimeChaos, KernelChaos
Workflow w Chaos Mesh, definiowanie złożonych scenariuszy w jednym manifeście
Schedule jako sposób cyklicznego uruchamiania eksperymentów
Kiedy LitmusChaos a kiedy Chaos Mesh, kryteria wyboru w organizacji
Krótkie omówienie ChaosBlade jako narzędzia spoza ekosystemu Kubernetes
Komercyjne alternatywy - Steadybit, Gremlin, Harness Chaos Engineering, kiedy mają sens

AWS Fault Injection Service - architektura, eksperymenty na EC2, ECS, EKS, RDS, Lambda
Konfiguracja eksperymentu w AWS FIS - action, target, stop conditions, IAM
Azure Chaos Studio - architektura, targets i capabilities, eksperymenty na AKS i usługach PaaS
Bezpieczeństwo i IAM, minimalne uprawnienia do uruchamiania eksperymentów chmurowych
Eksperymenty wieloregionalne, symulacja awarii strefy dostępności
Wyniki i raportowanie, analiza danych eksperymentu, dokumentowanie wniosków
Testowanie strategii disaster recovery przez kontrolowane awarie regionu
Krótkie omówienie Google Cloud Chaos jako uzupełnienie dla zespołów wielochmurowych

Continuous chaos jako ewolucja podejścia, od pojedynczych eksperymentów do automatycznej weryfikacji
Eksperymenty chaosowe w potoku CI/CD jako bramka jakości wdrożeń
Integracja LitmusChaos z GitHub Actions, GitLab CI, Argo Workflows
Automatyczne uruchamianie eksperymentów po wdrożeniu nowej wersji
Weryfikacja stanu ustalonego przez SLO, automatyczny rollback w razie naruszenia
Reliability score jako agregowany wskaźnik dojrzałości systemu
Kontrola zasięgu w produkcji, polityki bezpieczeństwa, RBAC, audytowalność
Integracja chaosu z agentami AI - Litmus MCP Server, automatyzacja generowania hipotez

Czym jest Game Day i czym różni się od ćwiczeń disaster recovery
Planowanie Game Day - scenariusz, role (facilitator, obserwatorzy, zespół reagujący), harmonogram
Runbook i komunikacja, co musi wiedzieć każdy uczestnik przed startem
Przeprowadzenie symulacji, iniekcja awarii, obserwacja reakcji zespołu, dokumentacja na żywo
Retrospektywa Game Day, analiza wyników, identyfikacja luk, plan naprawczy
Game Day jako narzędzie onboardingu nowych członków zespołu i zespołów dyżurujących
Skalowanie Game Day na poziom organizacji, regularne ćwiczenia kross-zespołowe
Mierzenie zwrotu z inwestycji w Game Day i Chaos Engineering ogółem

Wybrane opinie

Przeczytaj pozytywne opinie pochodzące z ankiet satysfakcji z naszych szkoleń wypełnianych wyłącznie przez ich uczestników po realizacji usługi

4.8

24.07.2026
Uczestnik szkolenia “Docker w praktyce”
Juliusz Drygalski, Capgemini Polska Sp. z o.o.
Bo było. Bardzo dużo przekazanej wiedzy i dobrze wszystko wytłumaczone. Prowadzący topka
24.07.2026
Uczestnik szkolenia “Architektura systemowa i integracja systemów”
Michał Michalczuk
Ogólnie bardzo dobre, ale bardzo skondensowane i intesywne - zabrakło czasu na więcej praktyki
23.07.2026
Uczestnik szkolenia “Jira - organizacja i zarządzanie projektami”
Agata Lewandowska, Towarowa Giełda Energii S.A.
Było dostosowane pod konkretny zespół i konkretne tematy.
22.07.2026
Uczestnik szkolenia “Inżynieria wymagań w AI”
Artur Łagosz, Sygnity S.A.
Usystematyzowało pracę przy tworzeniu wartościowych promptów, pokazało jak działać w pewnym obszarze, konkretnie posługując się notesem w Copilocie
21.07.2026
Karol Orzechowski, VIOO LABS Polska Sp. z o.o.
Topic and the trainer were sensational
17.07.2026
Yevgeniy Wyszyński, Samsung Electronics Polska
Prowadzący był dobrze przygotowany, materiał odzwierciedlał wszystko co jest potrzebne dla nauki
17.07.2026
Marcin Matyszkowicz, Samsung Electronics Polska
Super interaakcja z prowadzącym, na luzie a bardzo merytorycznie

Więcej opinii

Podobne szkolenia

SRE dla Kubernetes - niezawodność aplikacji kontenerowych

Liczba dni: 3

Na zamówienie

Praktyczny kurs dla inżynierów pracujących z Kubernetes, którzy chcą wyjść poza samo wdrożenie aplikacji i skupić się na jej niezawodności na produkcji. Uczestnicy poznają mechanizmy zapewnienia dostępności - konfigurację probes, zarządzanie zasobami, polityki PodDisruptionBudget i graceful shutdown - a także automatyczne skalowanie z HPA, VPA i KEDA. Kurs obejmuje wzorce odporności mikrousług implementowane w warstwie aplikacji oraz w warstwie service mesh, praktyczne narzędzia diagnostyczne dedykowane środowiskom Kubernetes oraz wprowadzenie do progressive delivery z Argo Rollouts i Flagger

progressive-deliveryautoscaling-kuberneteskubernetes-sreservice-mesh

SRE Fundamentals — niezawodność jako praktyka inżynierska

Liczba dni: 2

2550 PLN

Szkolenie wprowadzające w filozofię i metodykę Site Reliability Engineering opartą na podejściu Google. Uczestnicy poznają kluczowe koncepcje: SLI (Service Level Indicators), SLO (Service Level Objectives), SLA oraz Error Budget jako narzędzie zarządzania ryzykiem. Kurs uczy jak zdefiniować i mierzyć niezawodność systemu, identyfikować toil (powtarzalną pracę manualną) i go redukować oraz budować kulturę postmortem bez szukania winnych. Po szkoleniu uczestnik wraca do swojego zespołu z gotowym zestawem pytań, metryk i narzędzi do natychmiastowego zastosowania — bez konieczności wdrażania nowych systemów

blameless-postmortemerror-budgetsli-slo-slasite-reliability-engineering

Praca z kontenerami w chmurze Azure

Liczba dni: 2

2450 PLN

Szkolenie Azure Containers to praktyczny kurs, który uczy wdrażania, zarządzania i skalowania aplikacji w kontenerach Docker w chmurze Microsoft Azure, obejmując automatyzację, bezpieczeństwo, nowoczesne architektury i najlepsze praktyki DevOps

azure-containerskontenerycloud-nativemicrosoft-azure

Kategorie szkoleń

Terminarz - szkolenia otwarte

Szkolenia zamknięte dla Firm

E-learning

Stacja IT - warsztaty dla programistów

Kodołamacz - kursy AI, bootcampy

AI Programming - Nowy kurs PRO by Kodołamacz

Upskilling, reskilling i optymalizacja w IT

AI Programming

AI dla uczelni

AI i analityka danych

Testowanie

Zarządzanie

DevOps / CloudOps

Programowanie

AI & Data Driven Business

Inżynieria uczenia maszynowego i AI

UX Design

Data Science

Big Data

AI-Powered Business Intelligence

Vouchery

Dofinansowania

Promocje

Dokumenty

FAQ

Chatboty

Rozwiązania AI

Cyfrowa dostępność

Usługi DevOps

Dostępność cyfrowa

USOS

SSOP

Omega-PSIR

UNIplaner

Rektorat

Portal Pracowniczy

Wszystkie rozwiązania

Co nas wyróżnia

Referencje

Opinie ze szkoleń

Zespół

Kariera

Aktualne projekty

Wszystkie wpisy

Case studies

Aktualności

Artykuły

Szkolenie: Chaos Engineering - proaktywne wykrywanie słabych punktów

Szkolenie na zamówienie

Chaos Engineering - proaktywne wykrywanie słabych punktów

Cele szkolenia

Dla kogo?

Efekty kształcenia

Wymagania

W cenie otrzymasz:

Program szkolenia

Fundamenty Chaos Engineering

LitmusChaos - eksperymenty deklaratywne w Kubernetes

Chaos Mesh i porównanie ekosystemu

Chaos Engineering w chmurze

Continuous Chaos i integracja z CI/CD

Game Day - symulacja awarii dla całego zespołu

Wybrane opinie

Podobne szkolenia

SRE dla Kubernetes - niezawodność aplikacji kontenerowych

SRE Fundamentals — niezawodność jako praktyka inżynierska

Praca z kontenerami w chmurze Azure