Apache Spark z wykorzystaniem języka Scala
Czas trwania szkolenia:3 dni (24h)
Kod kursu:BIGDATA/SPARK
Poziom zaawansowania:
O szkoleniu Apache Spark z wykorzystaniem języka Scala
W cenie otrzymasz:
- Materiały szkoleniowe
- Certyfikat ukończenia szkolenia
- W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Dla kogo?
- Analitycy i programiści, którzy znają podstawy Big Data i chcą rozpocząć przygodę z wykorzystaniem platformy Spark oraz językiem Scala
Wymagania
- Dobra znajomość: języka SQL, relacyjnego modelu danych oraz hurtowni danych
- Podstawowa znajomość obiektowych języków programowania np.: Java, Python lub Scala
- Znajomość zagadnień Big Data, platformy Hadoop oraz powiązanych z nią narzędzi
- Zalecany jest wcześniejszy udział w szkoleniu: Big Data i platforma Hadoop - wprowadzenie (BIGDATA/BASE)
Zalety
- Kompleksowe wprowadzenie do platformy Spark
- Przedstawienie praktycznych przykładów oraz praktyk związanych z analizą dużej ilości danych
- Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
- Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
- Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how
Cele szkolenia
- Zapoznanie z platformą Spark oraz jej API w języku Scala
- Pokazanie metod analizy dużej ilości danych
Program
Podstawy języka Scala
- Zmienne, kontrola statyczna i wnioskowanie typów
- Instrukcje sterujące
- Skala jako język obiektowy
- Skala jako język funkcyjny
- Złożone typy danych
- Zagadnienia uzupełniające
- Warsztat
Wprowadzenie do Apache Spark
- Historia
- Architektura
- Typy konfiguracji
- Terminologia - aplikacje, zadania, etapy, jednostki
- Jak to wszystko działa?
- Struktura programu
- Środowiska REPL - spark-shell
- Dlaczego Scala?
- Co dalej?
- Warsztat
Przetwarzanie RDD
- Wprowadzenie do RDD
- Transformacje
- Akcje
- Agregacja i redukcja
- Warsztat
RDD typu klucz-wartość
- Typy RDD
- PairRDDFunctions i jego znaczenie
- Tworzenie RDD par
- Metody przetwarzające pojedyncze RDD par
- Łączenie RDD par
- Warsztat
Spark SQL - DataFrames
- Wprowadzenie do Spark SQL
- DataFrames vs. Dataset
- Wczytywanie danych, źródła danych
- Schemat danych
- Przetwarzanie danych
- Typy danych - konsekwencje
- Warsztat
Spark SQL - Dataset
- Wydajność Spark SQL
- Dataset
- Profilowanie danych
- Czyszczenie danych
- Podsumowanie: RDD, DataFrames, Dataset
- Warsztat - projekt
RDD - wydajność
- Wprowadzenie - opóźnienia, czas dostępu do danych
- Przesyłanie danych - konsekwencje
- Partycjonowanie danych
- Wąskie i szerokie zależności
- Zmienne rozgłoszeniowe
- Akumulatory
- Warsztat
Biblioteka Delta Lake
- Wprowadzenie
- Zasilanie Delta Lake
- Odczyt i zapis
- Obsługa modyfikacji
- Elementy zaawansowane
- Warsztat
Biblioteka ML
- Wprowadzenie
- Prosta statystyka
- Algorytmy uczenia maszynowego
- Spark ML
- Przykłady
- Warsztat - regresja liniowa, klasyfikator