Przetwarzanie strumieni danych w środowiskach Big Data
Czas trwania szkolenia:3 dni (24h)
Kod kursu:BIGDATA/STREAM
Poziom zaawansowania:
O szkoleniu Przetwarzanie strumieni danych w środowiskach Big Data
W cenie otrzymasz:
- Materiały szkoleniowe
- Certyfikat ukończenia szkolenia
- W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Dla kogo?
- Twórcy rozwiązań Big Data, którzy rozpoczynają swoją przygodę ze strumieniami danych
- Programiści chcący poznać mechanizmy i narzędzia przetwarzania strumieni danych w systemach Big Data
Wymagania
- Praktyczna znajomość programowania obiektowego Java
- Podstawowa znajomość języka Scala
- Znajomość platformy Hadoop i jej podstawowych narzędzi, zalecane ukończenie kursu Big Data i platforma Hadoop - wprowadzenie (BIGDATA/BASE)
- Znajomość platformy Spark obejmująca zarówno przetwarzanie danych RDD jak i funkcjonalność Spark SQL, zalecane ukończenie kursu Apache Spark z wykorzystaniem języka Scala (BIGDATA/SPARK)
Zalety
- Jedno z niewielu szkoleń adresujących tematykę przetwarzania strumieni danych dokonując kompleksowego przeglądu jej mechanizmów i narzędzi
- Kurs przechodzi od najbardziej podstawowych zagadnień do najbardziej z łożonych co pozwala opanować skomplikowany świat przetwarzania strumieni danych
- Narzędzia Apache możliwe do uruchomienia w rozwiązaniach lokalnych (on-premise), dostępne na platformach chmurowych
- Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
- Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
- Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how
Cele szkolenia
- Zrozumienie najważniejszych mechanizmów przetwarzania strumieni danych
- Poznanie najważniejszych narzędzi przetwarzania strumieni danych Big Data wraz z ich możliwościami oraz specyfiką, która je wyróżnia.
- Implementacja szeregu procesów przetwarzających strumienie danych
Program
Wprowadzenie do przetwarzania strumieni danych
- Cele
- Przetwarzanie wsadowe, mikrowsadowe i strumieniowe
- Przetwarzanie stanowe i bezstanowe
- Znacznik czasowe
- Okna
- Typy dostępnych operacji
- Porządek danych, dane opóźnione, dane spóźnione
- Obsługa awarii
- Complex Event Processing
- API wysokopoziomowe
Kafka jako broker wiadomości
- Wprowadzenie do systemów wymiany wiadomości
- Czym jest Kafka
- Architektura
- Temat (topic)
- Konsumenci
- Administracja
- API producentów i konsumentów
Spark Streaming
- Wprowadzenie
- Podstawy - struktura i logika programu
- Architektura
- Dostępne źródła danych, strumienie wejściowe, odbiorniki
- Transformacje bezstanowe i stanowe
- Operacje wynikowe - ujścia (sink)
- Mechanizmy zabezpieczające przed awariami
Spark Structured Streaming
- Wprowadzenie
- Podstawy - struktura i logika programu
- Typy obsługi tabel wynikowych
- Obsługa znaczników czasowych
- Szczegóły API (źródła, transformacje, ujścia, uruchamianie)
- Obsługa zdarzeń opóźnionych
Kafka Streams
- Wprowadzenie
- Podstawowe pojęcia
- Strumienie a tabele
- Obsługa znaczników czasowych
- Kluczowe operacje
- Zapytania interaktywne
- Przykładowa prosta aplikacja
- Kafka Streams DSL - szczegóły API
- Przykładowa złożona aplikacja
Wprowadzenie do Apache Flink
- Wprowadzenie
- Architektura
- Uruchomienie klastra
- Podstawy - struktura i logika programu
- Podstawy DataStream API
- Flink w akcji
- Obsługa znaczników czasowych
- Okna
- Wyzwalacze
- Konektory
- Podsumowanie