Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache

LICZBA DNI: 5 (40h)

KOD KURSU: BIGDATA/APACHE/JAVA

Powiadom
o kolejnych terminach

# oop

# java

# scala

# gcp

# spark-sql

# spark-streaming

# big-data

# map-reduce

# yarn

# spark

# hive

# kafka

O szkoleniu

DLA KOGO?

Programiści chcący poznać podstawy Big Data

WYMAGANIA

Praktyczna wiedza z programowania obiektowego w języku Java

ZALETY

Warsztatowy charakter zajęć

Użycie wielu różnych narzędzi niezbędnych w codziennej pracy z Big Data

Ćwiczenia praktyczne odbywają się w środowisku chmury obliczeniowej (Google Cloud Platform)

Cele szkolenia

Praktyczna umiejętność projektowania platformy do przetwarzania dużej ilości danych

Zdobycie wiedzy na temat powszechnie używanych narzędzi typu open-source w Big Data

Program

  • Przedstawienie domeny
  • Problemy Big Data - wydajność, skalowalność, dostępność
  • Przykład systemów Big Data i stosowanych rozwiązań
  • Przegląd technologii Big Data
  • Zalety programowania funkcyjnego
  • Różnice w stosunku do języka Java
  • Elementy języka wykorzystywane w kontekście Big Data
  • Ćwiczenia praktyczne (case class, companion object, pattern matching, implicit)
  • JSON
  • Avro
  • Parquet
  • Comparison of efficiency
  • Best suited formats for Big Data tools
  • Architektura i konfiguracja
  • RDD vs Dataset vs Dataframe
  • DataFrame UDF vs DataSet API
  • Transformacje
  • Uruchamianie jobów
  • Zaawansowane konstrukcje
  • Spark-catalyst i techniki optymalizacji - deep dive
  • Debugging
  • Spark unit testing
  • Koncept data partitioning i shuffling
  • Integracja z Apache Hadoop
  • Spark streaming
  • Przetwarzanie real-time
  • Zastosowanie Spark Streaming
  • Projektowanie joba przetwarzającego dane strumieniowo
  • Checkpointing
  • Exactly-once delivery possibilities
  • Wstęp do architektury
  • Opis poszczególnych komponentów (HDFS, Yarn, MapReduce)
  • Porównanie MapReduce oraz Spark jobs
  • Hive (zapytania, architektura, partycjonowanie)
  • Spark on Yarn
  • Gromadzenie logów i debugging
  • Automatyzacja pobierania danych z różnych źródeł
  • Architektura
  • Przykładowe zastosowania
  • Integracja danych między MySQL i GCS
  • Przykłady transformacji danych
  • Partycjonowanie danych przy zapisie
  • Architektura
  • Porównanie z podobnymi narzędziami
  • Pub/Sub vs Producer/Consumer
  • Tworzenie i konfiguracja producenta oraz konsumenta
  • Topic i partycjonowanie
  • Consumer groups
  • Replikacje i retencja
  • Zookeeper
  • Opis i architektura
  • Struktura danych
  • Zarządzanie komponentami
  • Indeksacja danych
  • Druid i platformy Big Data oparte na Apache Hadoop
  • Przetwarzenie real-time i batch
  • Druid rollup, segments i granularność zapytań
  • Automatyzacja przetwarzań
  • Tworzenie data pipeline
  • Python vs Bash
  • Definiowanie Dagów
  • Architektura

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.