Szkolenie: Apache Airflow – orkiestracja przetwarzania
Szkolenie Apache Airflow – orkiestracja przetwarzania to praktyczne wprowadzenie do projektowania, harmonogramowania i automatyzacji workflowów Big Data z użyciem Apache Airflow, obejmujące tworzenie DAG-ów, operatory, sensory, XCom, parametryzację, TaskGroup oraz dataset-based scheduling
- Trenerzy praktycy
- Kameralne grupy
Czas trwania szkolenia:1 dzień (8h)
Kod kursu:BIGDATA/AIRFLOW
Apache Airflow – orkiestracja przetwarzania
Cele szkolenia
Szkolenie przygotowuje do samodzielnego projektowania i implementowania orkiestracji workflowów oraz potoków ETL w Apache Airflow, w tym tworzenia DAG-ów i definiowania zależności zadań
Szkolenie uczy harmonogramowania pipeline’ów danych, zarządzania retry, backfillingiem, regułami uruchamiania oraz monitorowania statusów zadań w środowisku Big Data
Szkolenie pokazuje użycie XCom, zmiennych, połączeń i parametrów do współdzielenia danych oraz konfiguracji workflowów i automatyzacji przetwarzania
Szkolenie rozwija umiejętność grupowania zadań z wykorzystaniem TaskGroup, przetwarzania warunkowego oraz dataset-based scheduling w praktycznych warsztatach Apache Airflow
Szkolenie omawia najlepsze praktyki implementacji workflow orchestration oraz integracji Apache Airflow z narzędziami Big Data i bazami danych
Dla kogo?
Programiści Python i inżynierowie danych z podstawową znajomością Big Data i chęcią tworzenia oraz utrzymywania workflowów Airflow
Inżynierowie danych i specjaliści ETL odpowiedzialni za orkiestrację procesów przetwarzania i integrację systemów, znający SQL
Administratorzy systemów i DevOps wdrażający oraz utrzymujący środowiska Airflow i monitorowanie zadań produkcyjnych
Architekci danych i analitycy chcący automatyzować przepływy danych, harmonogramy i zależności oparte na datasetach
Efekty kształcenia
Uczestnik projektuje i implementuje DAG-i oraz zależności zadań w Apache Airflow dla workflowów ETL i pipeline’ów danych
Uczestnik harmonogramuje i optymalizuje uruchamianie potoków danych, wykorzystując retry, backfilling oraz mechanizmy workflow orchestration
Uczestnik korzysta z XCom, zmiennych i połączeń do wymiany danych oraz konfiguracji zadań pomiędzy elementami workflowów
Uczestnik grupuje zadania przy użyciu TaskGroup oraz obsługuje przetwarzanie warunkowe i rozwidlanie workflowów
Uczestnik wdraża dataset-based scheduling oraz monitoruje zależności danych i statusy workflowów w Apache Airflow
Uczestnik integruje Apache Airflow z narzędziami Big Data i bazami danych w procesach ETL oraz automatyzacji przetwarzania danych
Wymagania
Konieczna znajomość podstawowych pojęć z zakresu Big Data
Silnie rekomendowane jest posiadanie wiedzy i umiejętności z zagadnień ujętych w ramach szkolenia Big Data i platforma Hadoop - wprowadzenie
Silnie rekomendowana znajomość języka Python
Silnie rekomendowana znajomość narzędzi: Apache Spark, Hive, MySQL
Rekomendowana znajomość relacyjnego modelu danych
Rekomendowana znajomość poleceń SQL
W cenie otrzymasz:
Materiały szkoleniowe
Certyfikat ukończenia szkolenia
W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Program szkolenia
Podstawy Apache Airflow
Zastosowanie Apache Airflow
Diagram potoku zadań
Architektura
Kiedy nie należy używać Airflow
Potoki zadań
Zadania i operatory
Sensory i podpięcia
Zależności pomiędzy zadaniami
Przetwarzanie warunkowe i rozwidlanie
Reguły uruchamiania zadań
Statusy zadań
Harmonogramowanie potoków
Interwały uruchomienia
Elementy zaawansowane
Obsługa zaległości (backfilling)
Kontekst zadania (słownik)
Zasady poprawnej implementacji zadań
Współdzielenie danych pomiędzy zadaniami
XCom
Połaczenia
Korzystanie ze zmiennych
Obsługa parametrów
Grupowanie zadań (TaskGroup)
Zbiory danych (datasets)
Harmonogramy oparte o zbiory danych
Typy wykonawców
Wybrane opinie
Przeczytaj pozytywne opinie pochodzące z ankiet satysfakcji z naszych szkoleń wype łnianych wyłącznie przez ich uczestników po realizacji usługi

