Szkolenie: Przetwarzanie strumieni danych w Apache Spark
Szkolenie z przetwarzania strumieni danych w Apache Spark uczy analizy i przetwarzania danych w czasie rzeczywistym, omawia architekturę Spark Structured Streaming, prezentuje praktyczne zastosowania, optymalizację oraz integrację z narzędziami Big Data
- Trenerzy praktycy
- Kameralne grupy
Czas trwania szkolenia:1 dzień (8h)
Kod kursu:BIGDATA/SPARK/STREAMS
Przetwarzanie strumieni danych w Apache Spark
Cele szkolenia
Szkolenie przygotowuje do samodzielnego projektowania i implementowania procesów przetwarzania strumieni danych z wykorzystaniem Apache Spark
Szkolenie uczy rozpoznawania i stosowania mechanizmów obsługi danych strumieniowych, w tym okien czasowych, znaczników czasowych oraz obsługi zdarzeń opóźnionych
Szkolenie pokazuje, jak analizować możliwości i ograniczenia platformy Spark w kontekście przetwarzania strumieniowego oraz jak wdrażać rozwiązania odporne na awarie
Dla kogo?
Programistów i inżynierów danych rozpoczynających pracę z przetwarzaniem strumieniowym w środowisku Big Data
Specjalistów IT posiadających podstawową znajomość Apache Spark i języka Python lub Scala, chcących rozwinąć umiejętności w zakresie analizy danych w czasie rzeczywistym
Osób odpowiedzialnych za wdrażanie i utrzymanie rozwiązań analitycznych opartych o przetwarzanie strumieni danych
Efekty kształcenia
Uczestnik projektuje procesy przetwarzania strumieni danych w Apache Spark
Uczestnik analizuje i wdraża mechanizmy obsługi okien czasowych i znaczników czasowych
Uczestnik konfiguruje źródła, transformacje i ujścia danych strumieniowych
Uczestnik rozpoznaje i rozwiązuje problemy związane z danymi opóźnionymi i spóźnionymi
Uczestnik monitoruje i optymalizuje wydajność przetwarzania strumieniowego
Uczestnik wdraża rozwiązania odporne na awarie w środowisku Spark
Wymagania
Podstawowa znajomość języka Python/Scala
Znajomość platformy Spark obejmująca zarówno przetwarzanie danych RDD jak i funkcjonalność Spark SQL, zalecane ukończenie kursu Apache Spark z wykorzystaniem języka Python alternatywnie Apache Spark z wykorzystaniem języka Scala
Podstawowa znajomość Apache Kafka
W cenie otrzymasz:
Materiały szkoleniowe
Certyfikat ukończenia szkolenia
W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Program szkolenia
Wprowadzenie do przetwarzania strumieni danych
Cele
Przetwarzanie wsadowe, mikrowsadowe i strumieniowe
Przetwarzanie stanowe i bezstanowe
Znacznik czasowe
Okna
Typy dostępnych operacji
Porządek danych, dane opóźnione, dane spóźnione
Obsługa awarii
Complex Event Processing
API wysokopoziomowe
Spark Structured Streaming
Wprowadzenie
Podstawy - struktura i logika programu
Typy obsługi tabel wynikowych
Obsługa znaczników czasowych
Wykorzystanie okien i ich typy
Szczegóły API (źródła, transformacje, ujścia, uruchamianie)
Obsługa zdarzeń opóźnionych
Konfiguracja i wykorzystanie punktów kontrolnych
Wybrane opinie
Przeczytaj pozytywne opinie pochodzące z ankiet satysfakcji z naszych szkoleń wypełnianych wyłącznie przez ich uczestników po realizacji usługi

