Przetwarzanie Big Data z użyciem Apache Spark

LICZBA DNI: 2 (16h)

KOD KURSU: SPARK

Powiadom
o kolejnych terminach

# spark-sql

# spark-streaming

# mlib

O szkoleniu

DLA KOGO?

Szkolenie jest przeznaczone głównie dla programistów i analityków danych, którzy chcą się zapoznać z podstawami przetwarzania Big Data, bardzo dużych zbiorów danych przekraczającej możliwości tradycyjnego przetwarzania, z użyciem narzędzi z rodziny Apache Spark

Szkolenie stanowi zarówno dobrą podstawę dla osób pragnących zacząć pracę z Big Data, jak i osób z uprzednim doświadczeniem w tego typu systemach, np. rodziny Apache Hadoop, pragnących nauczyć się nowej technologii

WYMAGANIA

Szkolenie wymaga podstawowej umiejętności programowania w Javie (zakres szkolenia: J/JP), Scali (zakres szkolenia: J/SCL) lub Pythonie (zakres szkolenia: PT/PP); preferowanym językiem szkolenia jest Python

Przydatne umiejętności: znajomość zagadnień związanych z przetwarzaniem danych, programowanie funkcjonalne, przetwarzanie rozproszone, systemy *nix

ZALETY

Szkolenie jest prowadzone przez osoby na co dzień pracujące z problemami Big Data i mającymi praktyczne doświadczenie w tej dziedzinie

Z tego powodu szkolenie często wykracza poza dostępne choć często rozproszone materiały

Ponadto, program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie

Cele szkolenia

Zapoznanie z nowym problemem jakim jest analiza bardzo dużych zbiorów danych (Big Data) z różnych źródeł

Przedstawienie podstawowego zbioru problemów Big Data i ich rozwiązań z pomocą narzędzi rodziny Apache Spark

Zapoznanie z zaletami i wadami Apache Spark w podejściu do ich rozwiązania ich problemów biznesowych

Zapoznanie się z szybko zmieniającą się dziedziną jaką jest Big Data i nowym podejściem do rozwiązywania problemów jaki prezentuje Apache Spark

Program

  • Definicja
  • Czym jest BigData?
  • Geneza i historia BigData
  • Strony w projektach BigData
  • Problemy BigData
  • Typy przetwarzania BigData
    • Wsadowe
    • Strumieniowe
  • Wstęp
  • Historia
  • Spark a Hadoop
  • Paradygmat programowania MapReduce
  • Rozproszone kolekcje obiektów  Resilient Distributed Datasets (RDDs)
  • Przetwarzanie w pamięci a z dysku
  • Architektura
  • Warianty uruchomienia klastra
    • Własny klaster Spark
    • Apache Mesos
    • Apache YARN
  • Administracja
  • Wstęp
  • Java vs Spark vs Python
  • Łączenie z klastrem
  • Rozproszone dane
  • Operacje RDD
    • Transformacje
    • Akcje
  • Współdzielone zmienne
  • Uruchomienie i testowanie
  • Dostrajanie zadań
    • Serializacja
    • Pamięć
  • Wstęp
  • Spark SQL a Hive
  • Zasada działania
  • Dane i schematy
  • Zapytania
  • Integracja z Hive
  • Uruchomienie i testowanie
  • Wstęp
  • Zasada działania
  • Strumienie
    • Wejście
    • Transformacja
    • Wyjście
  • Uruchomienie i testowanie
  • Wstęp
  • RDD vs DataFrame
  • Dostępne algorytmy
  • Transformery i estymatory
  • Dostępne transformacje
  • Budowa pipeline'u
  • Uczenie modeli

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.