Trwają zapisy do grupy

Przetwarzanie strumieni danych w środowiskach Big Data

Przetwarzanie strumieni danych (stream data processing) z roku na rok zyskuje na znaczeniu w szczególności w przypadku rozwiązań Big Data. Jest wymagane w wielu uznanych architekturach, oferuje możliwości, które nie sposób osiągnąć przy tradycyjnym/wsadowym przetwarzaniu danych. Kurs wprowadza uczestników w świat mechanizmów przetwarzania strumieni danych oraz najważniejszych narzędzi Big Data, które taki typ przetwarzania udostępniają. Zakres szkolenia obejmuje: podstawy platformy Kafka jako brokera wiadomości, Spark Streaming, Spark Structured Streaming, Kafka Streaming, a także wprowadzenie platformy Flink. Innymi słowy, szkolenie zawiera wprowadzenie do przetwarzania strumieni danych w środowiskach Big Data oraz przegląd najważniejszych rozwiązań począwszy od najprostszych, aż po najbardziej skomplikowane.

2550 PLN+23% VAT (3136 PLN brutto / 1 os.)

Czas trwania szkolenia:3 dni (24h)

Poziom zaawansowania:

Kod kursu:BIGDATA/STREAM

scalaspark

Dostępne terminy

  • Termin
  • Trener
  • Cena
  • Zapis
  • Lokalizacja

Termin:

25 listopada
Trwają zapisy na szkolenie

Trener:

Krzysztof Jankiewicz

Cena:

2550 PLN netto
Ikona podpowiedziDowiedz się więcej o cenach szkoleń - zapraszamy do kontaktu
+23% VAT

Lokalizacja:

Zdalne
Zdalne
Ikona podpowiedziZapytaj o inne lokalizacje - w tym celu skorzystaj z chatu

Forma szkolenia

Interesuje Cię szkolenie stacjonarne?

Dostępne terminy

Interesują Cię inne terminy?

Przetwarzanie strumieni danych w środowiskach Big Data

Cele szkolenia

  • Zrozumienie najważniejszych mechanizmów przetwarzania strumieni danych

  • Poznanie najważniejszych narzędzi przetwarzania strumieni danych Big Data wraz z ich możliwościami oraz specyfiką, która je wyróżnia.

  • Implementacja szeregu procesów przetwarzających strumienie danych


Dla kogo?

  • Twórcy rozwiązań Big Data, którzy rozpoczynają swoją przygodę ze strumieniami danych

  • Programiści chcący poznać mechanizmy i narzędzia przetwarzania strumieni danych w systemach Big Data


Zalety

  • Jedno z niewielu szkoleń adresujących tematykę przetwarzania strumieni danych dokonując kompleksowego przeglądu jej mechanizmów i narzędzi

  • Kurs przechodzi od najbardziej podstawowych zagadnień do najbardziej złożonych co pozwala opanować skomplikowany świat przetwarzania strumieni danych

  • Narzędzia Apache możliwe do uruchomienia w rozwiązaniach lokalnych (on-premise), dostępne na platformach chmurowych

  • Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań

  • Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką

  • Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how


Wymagania

  • Praktyczna znajomość programowania obiektowego Java

  • Podstawowa znajomość języka Scala

  • Znajomość platformy Hadoop i jej podstawowych narzędzi, zalecane ukończenie kursu Big Data i platforma Hadoop - wprowadzenie (BIGDATA/BASE)

  • Znajomość platformy Spark obejmująca zarówno przetwarzanie danych RDD jak i funkcjonalność Spark SQL, zalecane ukończenie kursu Apache Spark z wykorzystaniem języka Scala (BIGDATA/SPARK)


W cenie otrzymasz:

  • Materiały szkoleniowe

  • Certyfikat ukończenia szkolenia

  • W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki

Program

Pobierz program w PDF

Wprowadzenie do przetwarzania strumieni danych

  • Cele

  • Przetwarzanie wsadowe, mikrowsadowe i strumieniowe

  • Przetwarzanie stanowe i bezstanowe

  • Znacznik czasowe

  • Okna

  • Typy dostępnych operacji

  • Porządek danych, dane opóźnione, dane spóźnione

  • Obsługa awarii

  • Complex Event Processing

  • API wysokopoziomowe

Kafka jako broker wiadomości

  • Wprowadzenie do systemów wymiany wiadomości

  • Czym jest Kafka

  • Architektura

  • Temat (topic)

  • Konsumenci

  • Administracja

  • API producentów i konsumentów

Spark Streaming

  • Wprowadzenie

  • Podstawy - struktura i logika programu

  • Architektura

  • Dostępne źródła danych, strumienie wejściowe, odbiorniki

  • Transformacje bezstanowe i stanowe

  • Operacje wynikowe - ujścia (sink)

  • Mechanizmy zabezpieczające przed awariami

Spark Structured Streaming

  • Wprowadzenie

  • Podstawy - struktura i logika programu

  • Typy obsługi tabel wynikowych

  • Obsługa znaczników czasowych

  • Szczegóły API (źródła, transformacje, ujścia, uruchamianie)

  • Obsługa zdarzeń opóźnionych

Kafka Streams

  • Wprowadzenie

  • Podstawowe pojęcia

  • Strumienie a tabele

  • Obsługa znaczników czasowych

  • Kluczowe operacje

  • Zapytania interaktywne

  • Przykładowa prosta aplikacja

  • Kafka Streams DSL - szczegóły API

  • Przykładowa złożona aplikacja

Wprowadzenie do Apache Flink

  • Wprowadzenie

  • Architektura

  • Uruchomienie klastra

  • Podstawy - struktura i logika programu

  • Podstawy DataStream API

  • Flink w akcji

  • Obsługa znaczników czasowych

  • Okna

  • Wyzwalacze

  • Konektory

  • Podsumowanie

Autorem szkolenia jest Krzysztof Jankiewicz

Konsultant IT i wykładowca akademicki. Specjalista w zakresie ogólnie rozumianego przetwarzania danych. Począwszy od relacyjnych systemów baz danych, poprzez architekturę, utrzymanie i wykorzystywanie hurtowni danych, bazy danych NoSQL, systemy danych przestrzennych, po narzędzia i platformy Big Data. Od samego początku pracy zawodowej stara się jako konsultant znajdować czas na kontakty przemysłem, gdzie swoją wiedzę może konfrontować i rozwijać w oparciu o rzeczywiste przypadki. Począwszy od…