Analiza danych z użyciem Apache Spark
LICZBA DNI: 2 (16h)
KOD KURSU: SPARK/ANA
Weź udział w szkoleniu
Termin
Lokalizacja
Trener
Cena / os
4
marca
Warszawa,
Gdańsk,
Poznań,
Zdalne,
21
maja
Kraków,
Wrocław,
Łódź,
Zdalne,
Termin
4
marca
Lokalizacja
Warszawa,
Gdańsk,
Poznań,
Zdalne,
Trener
Cena / os
Termin
21
maja
Lokalizacja
Kraków,
Wrocław,
Łódź,
Zdalne,
Trener
Cena / os
Powiadom
o kolejnych terminach
O szkoleniu
DLA KOGO?
Osoby pracujące z danymi chcące pozyskać umiejętności pozwalające na analizę dużych zbiorów danych przy użyciu Apache Spark
WYMAGANIA
Podstawowa znajomość Pythona oraz SQLa
ZALETY
Wprowadzenie do świata analizy danych Big Data
Koncentracja na użytkowaniu Sparka nie przytłoczy mnogością szczegółów technicznych
Duży nacisk na część warsztatową i pisanie kodu pozwoli na szybkie wykorzystanie zdobytych umiejętności w praktyce
Wykorzystanie głównie Spark SQL pozwoli na intuicyjną pracę z dużymi zbiorami danych
Cele szkolenia
Zdobycie praktycznych umiejętności i wiedzy pozwalających na wykonywanie analiz dużych zbiorów danych z wykorzystaniem Apache Spark
Zapoznanie z problemami przetwarzania, czyszczenia oraz eksploracyjnej analizy danych, a także zagadnieniami pokrewnymi, jak chociażby wykorzystaniem algorytmów uczenia maszynowego na przygotowanym zbiorze
Program
Wprowadzenie do Apache Spark
- Architektura
- Moduły
- Miejsce w ekosystemie Big Data
Środowisko pracy
- Jupyter
- Przegląd możliwości i udogodnień
Spark
- Spark Context i Spark Session
- RDD
- Akcje i transformacje
- DataFrame
- Źródła danych
- Składnia Spark SQL
- Statystyki zmiennych
- Grupowanie i agregacja danych
- Funkcje analityczne i okienne
Wizualizacja danych
- Podstawy wizualizacji
- Typy wykresów
- Wizualizacja dużych zbiorów danych
Spark ML
- Wektory gęste i rzadkie
- Przekształcanie zbioru do postaci wektorowej
- Przegląd dostępnych transformacji zmiennych
- Przegląd dostępnych algorytmów uczenia maszynowego
- Modele klasyfikacyjne
- Modele regresyjne
- Algorytmy klastrowania
- Przetwarzanie potokowe (pipeline)
