Analiza danych z użyciem Apache Spark
Czas trwania szkolenia:2 dni (16h)
Kod kursu:SPARK/ANA
Poziom zaawansowania:
O szkoleniu Analiza danych z użyciem Apache Spark
W cenie otrzymasz:
- Materiały szkoleniowe
- Certyfikat ukończenia szkolenia
- W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Wymagania
- Podstawowa znajomość Pythona oraz SQL
Zalety
- Wprowadzenie do świata analizy danych Big Data
- Koncentracja na użytkowaniu Sparka nie przytłoczy mnogością szczegółów technicznych
- Duży nacisk na część warsztatową i pisanie kodu pozwoli na szybkie wykorzystanie zdobytych umiejętności w praktyce
- Wykorzystanie głównie Spark SQL pozwoli na intuicyjną pracę z dużymi zbiorami danych
- Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
- Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
- Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how
Cele szkolenia
- Zdobycie praktycznych umiejętności i wiedzy pozwalających na wykonywanie analiz dużych zbiorów danych z wykorzystaniem Apache Spark
- Zapoznanie z problemami przetwarzania, czyszczenia oraz eksploracyjnej analizy danych, a także zagadnieniami pokrewnymi, jak chociażby wykorzystaniem algorytmów uczenia maszynowego na przygotowanym zbiorze
Program
Wprowadzenie do Apache Spark
- Architektura
- Moduły
- Miejsce w ekosystemie Big Data
Środowisko pracy
- Jupyter
- Przegląd możliwości i udogodnień
Spark
- Spark Context i Spark Session
- RDD
- Akcje i transformacje
- DataFrame
- Źródła danych
- Składnia Spark SQL
- Statystyki zmiennych
- Grupowanie i agregacja danych
- Funkcje analityczne i okienne
Wizualizacja danych
- Podstawy wizualizacji
- Typy wykresów
- Wizualizacja dużych zbiorów danych
Spark ML
- Wektory gęste i rzadkie
- Przekształcanie zbioru do postaci wektorowej
- Przegląd dostępnych transformacji zmiennych
- Przegląd dostępnych algorytmów uczenia maszynowego
- Przetwarzanie potokowe (pipeline)