Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache

LICZBA DNI: 5 (40h)

KOD KURSU: BIGDATA/APACHE/JAVA

POZIOM SZKOLENIA:

# oop

# java

# scala

# gcp

# spark-sql

# spark-streaming

# big-data

# map-reduce

# yarn

# spark

# hive

# kafka

Najbliższy termin:

13 września 2021

4300 PLN netto + 23% VAT

Jeszcze 8 miejsc w tej cenie.

  • stacjonarne
  • zdalne

STACJONARNE

W CENIE

  • 5 dni pracy z trenerem
  • Materiały szkoleniowe
  • Lunch
  • Certyfikat ukończenia szkolenia

ZDALNE

W CENIE

  • 5 dni pracy z trenerem na żywo online
  • Materiały szkoleniowe
  • Certyfikat ukończenia szkolenia

Czy wiesz, że możesz uzyskać nawet do 100% DOFINANSOWANIA na szkolenie? Napisz do nas »

Oferta dla firm

Dostosuj zakres, czas i miejsce szkolenia do potrzeb Twojego zespołu. Uzyskaj indywidualną wycenę szkolenia dla grupy.

Weź udział w szkoleniu

Termin

Lokalizacja

Cena / os

13

września

Warszawa,

Poznań,

Zdalne,

4300 PLN netto
+ 23% VAT

Termin

13

września

Lokalizacja

Warszawa,

Poznań,

Zdalne,

Cena / os

4300 PLNnetto
+ 23% VAT

Powiadom
o kolejnych terminach

O szkoleniu

DLA KOGO?

Programiści chcący poznać podstawy Big Data

WYMAGANIA

Praktyczna wiedza z programowania obiektowego w języku Java

ZALETY

Warsztatowy charakter zajęć

Użycie wielu różnych narzędzi niezbędnych w codziennej pracy z Big Data

Ćwiczenia praktyczne odbywają się w środowisku chmury obliczeniowej (Google Cloud Platform)

Kameralne grupy - szkolenia technologiczne prowadzimy w grupach liczących do 8 osób. Pozwala to na indywidualne podejście oraz aktywizację każdego uczestnika

Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań

Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką

Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how

Cele szkolenia

Praktyczna umiejętność projektowania platformy do przetwarzania dużej ilości danych

Zdobycie wiedzy na temat powszechnie używanych narzędzi typu open-source w Big Data

Program

  • Przedstawienie domeny
  • Problemy Big Data - wydajność, skalowalność, dostępność
  • Przykład systemów Big Data i stosowanych rozwiązań
  • Przegląd technologii Big Data
  • Zalety programowania funkcyjnego
  • Różnice w stosunku do języka Java
  • Elementy języka wykorzystywane w kontekście Big Data
  • Ćwiczenia praktyczne (case class, companion object, pattern matching, implicit)
  • JSON
  • Avro
  • Parquet
  • Comparison of efficiency
  • Best suited formats for Big Data tools
  • Architektura i konfiguracja
  • RDD vs Dataset vs DataFrame
  • DataFrame UDF vs Dataset API
  • Transformacje
  • Uruchamianie jobów
  • Zaawansowane konstrukcje
  • Spark-catalyst i techniki optymalizacji - deep dive
  • Debugging
  • Spark unit testing
  • Koncept data partitioning i shuffling
  • Integracja z Apache Hadoop
  • Spark streaming
  • Przetwarzanie real-time
  • Zastosowanie Spark Streaming
  • Projektowanie joba przetwarzającego dane strumieniowo
  • Checkpointing
  • Exactly-once delivery possibilities
  • Wstęp do architektury
  • Opis poszczególnych komponentów (HDFS, YARN, MapReduce)
  • Porównanie MapReduce oraz Spark jobs
  • Hive (zapytania, architektura, partycjonowanie)
  • Spark on YARN
  • Gromadzenie logów i debugging
  • Automatyzacja pobierania danych z różnych źródeł
  • Architektura
  • Przykładowe zastosowania
  • Integracja danych między MySQL i GCS
  • Przykłady transformacji danych
  • Partycjonowanie danych przy zapisie
  • Architektura
  • Porównanie z podobnymi narzędziami
  • Pub/Sub vs Producer/Consumer
  • Tworzenie i konfiguracja producenta oraz konsumenta
  • Topic i partycjonowanie
  • Consumer groups
  • Replikacje i retencja
  • ZooKeeper
  • Opis i architektura
  • Struktura danych
  • Zarządzanie komponentami
  • Indeksacja danych
  • Druid i platformy Big Data oparte na Apache Hadoop
  • Przetwarzanie real-time i batch
  • Druid rollup, segments i granularność zapytań
  • Automatyzacja przetwarzań
  • Tworzenie data pipeline
  • Python vs Bash
  • Definiowanie Dagów
  • Architektura

Autor szkolenia:

Rafał Rozpondek

Specjalizuje się w przetwarzaniu Big Data, głównie w rozwiązaniach z rodziny Apache. Wspiera i projektuje liczne platformy Big Data wdrażane zarówno w cloudzie jak i on-premise. Fan technologii automatyzujących (Apache Ariflow, Apache NiFi) oraz Apache Druida. Od kilku lat prowadzi szkolenia Big Data, gdzie skutecznie przekazuje wiedzę na temat technologii Big Data (Apache Hadoop, Spark, Nifi, Airflow, Druid, Kafka).

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.