Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache (bez znajomości Java/Scala)

LICZBA DNI: 5 (40h)

KOD KURSU: BIGDATA/APACHE/NOJAVA

# oop

# java

# scala

# gcp

# spark-sql

# spark-streaming

# big-data

# map-reduce

# yarn

# spark

# hive

# kafka

Szkolenie na zamówienie

Szkolenie dostosowane do potrzeb Twojego zespołu. Dostępne wyłącznie na zamówienie.

  • Dostosowany program
  • Indywidualna wycena
  • Dowolny termin

O szkoleniu

DLA KOGO?

Programiści chcący poznać podstawy Big Data

WYMAGANIA

Podstawowa wiedza na temat programowania obiektowego

ZALETY

Warsztatowy charakter zajęć

Użycie wielu różnych narzędzi niezbędnych w codziennej pracy z Big Data

Ćwiczenia praktyczne odbywają się w środowisku chmury obliczeniowej (Google Cloud Platform)

Cele szkolenia

Praktyczna umiejętność projektowania platformy do przetwarzania dużej ilości danych

Zdobycie wiedzy na temat powszechnie używanych narzędzi typu open-source w Big Data

Program

  • Przedstawienie domeny
  • Problemy Big Data - wydajność, skalowalność, dostępność
  • Przykład systemów Big Data i stosowanych rozwiązań
  • Przegląd technologii Big Data
  • Java Virtual Machine - wprowadzenie
  • Programowanie funkcyjno-obiektowe w Scala
  • Wykorzystanie Scala w programowaniu jobów sparkowych
  • Case classes, options, null handling, pattern matching, scala collections...
  • JSON
  • Avro
  • Parquet
  • Comparison of efficiency
  • Best suited formats for Big Data tools
  • Architektura i konfiguracja
  • RDD vs Dataset vs Dataframe
  • Transformacje
  • Uruchamianie jobów
  • Zaawansowane konstrukcje
  • Spark-catalyst i techniki optymalizacji
  • Debugging
  • Spark unit testing
  • Koncept data partitioning i shuffling
  • Integracja z Apache Hadoop
  • Spark streaming
  • Wstęp do architektury
  • Opis poszczególnych komponentów (HDFS, Yarn, MapReduce)
  • Porównanie MapReduce oraz Spark jobs
  • Hive (zapytania, architektura, partycjonowanie)
  • Spark on Yarn
  • Gromadzenie logów i debugging
  • Automatyzacja pobierania danych z różnych źródeł
  • Architektura
  • Przykładowe zastosowania
  • Integracja danych między MySQL i GCS
  • Przykłady transformacji danych
  • Partycjonowanie danych przy zapisie
  • Architektura
  • Porównanie z podobnymi narzędziami
  • Pub/Sub vs Producer/Consumer
  • Tworzenie i konfiguracja producenta oraz konsumenta
  • Topic i partycjonowanie
  • Consumer groups
  • Replikacje i retencja
  • Zookeeper
  • Opis i architektura
  • Struktura danych
  • Zarządzanie komponentami
  • Indeksacja danych
  • Druid i platformy Big Data oparte na Apache Hadoop
  • Przetwarzenie real-time i batch
  • Druid rollup, segments i granularność zapytań
  • Automatyzacja przetwarzań
  • Tworzenie data pipeline
  • Python vs Bash
  • Definiowanie Dagów
  • Architektura

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.