Apache Spark z wykorzystaniem języka Python
Czas trwania szkolenia:2 dni (16h)
Kod kursu:BIGDATA/PYSPARK
Poziom zaawansowania:
O szkoleniu Apache Spark z wykorzystaniem języka Python
W cenie otrzymasz:
- Materiały szkoleniowe
- Certyfikat ukończenia szkolenia
- W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Dla kogo?
- Analitycy i programiści zaznajomieni z językiem Python, chcący poznać jedno z najpopularniejszych narzędzi do przetwarzania danych
Wymagania
- Podstawowa znajomość języka Python i SQL
Zalety
- Kompleksowe wprowadzenie do pracy z Apache Spark
- Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
- Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
- Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how
Cele szkolenia
- Zapoznanie z API Apache Spark oferowanym przez bibliotekę pyspark
- Poznanie metod przetwarzania dużych wolumenów danych
Program
Wprowadzenie do Apache Spark
- Historia
- Moduły
- Architektura
- Struktura programu
- spark-submit
- Najważniejsze ustawienia
- Miejsce w ekosystemie Big Data
Spark Core
- RDD
- Akumulatory
- Zmienne rozgłoszeniowe
- Partycjonowanie
- Zależności wąskie i szerokie
Spark SQL
- DataFrame
- Wydajność
- Źródła danych
- Schemat danych
- Składnia Spark SQL
- Agregacja danych
- Funkcje analityczne
- UDF
- Testy jednostkowe
Spark UI
Spark ML
- Wektory
- Transformery
- Estymatory
- Potoki
- Algorytmy uczenia maszynowego
Spark Streaming i Structured Streaming
- DStream
- Streaming DataFrame
- Transformacje strumieni danych
- Operacje oknowe
- Watermarking
- Źródła danych