Trwają zapisy do grupy
Apache Spark z wykorzystaniem języka Scala
Praktyczne wykorzystanie platformy Apache Spark w kontekście przetwarzania Big Data
2550 PLN+23% VAT (3136 PLN brutto / 1 os.)Czas trwania szkolenia:3 dni (24h)
Poziom zaawansowania:
Kod kursu:BIGDATA/SPARK
Apache Spark z wykorzystaniem języka Scala
Cele szkolenia
- Zapoznanie z platformą Spark oraz jej API w języku Scala
- Pokazanie metod analizy dużej ilości danych
Dla kogo?
- Analitycy i programiści, którzy znają podstawy Big Data i chcą rozpocząć przygodę z wykorzystaniem platformy Spark oraz językiem Scala
Zalety
- Kompleksowe wprowadzenie do platformy Spark
- Przedstawienie praktycznych przykładów oraz praktyk związanych z analizą dużej ilości danych
- Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
- Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
- Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how
Wymagania
- Dobra znajomość: języka SQL, relacyjnego modelu danych oraz hurtowni danych
- Podstawowa znajomość obiektowych języków programowania np.: Java, Python lub Scala
- Znajomość zagadnień Big Data, platformy Hadoop oraz powiązanych z nią narzędzi
- Zalecany jest wcześniejszy udział w szkoleniu: Big Data i platforma Hadoop - wprowadzenie (BIGDATA/BASE)
W cenie otrzymasz:
- Materiały szkoleniowe
- Certyfikat ukończenia szkolenia
- W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Program
Podstawy języka Scala
- Zmienne, kontrola statyczna i wnioskowanie typów
- Instrukcje sterujące
- Skala jako język obiektowy
- Skala jako język funkcyjny
- Złożone typy danych
- Zagadnienia uzupełniające
Wprowadzenie do Apache Spark
- Historia
- Architektura
- Typy konfiguracji
- Terminologia - aplikacje, zadania, etapy, jednostki zadań
- Jak to wszystko działa?
- Struktura programu
- Środowiska REPL - spark-shell
- Dlaczego Scala?
- Co dalej?
RDD API
- Wprowadzenie do RDD
- Transformacje
- Akcje
- Agregacja i redukcja
- RDD par klucz-wartość
Spark SQL - DataFrames API
- Wprowadzenie do Spark SQL
- DataFrames vs. Dataset
- Wczytywanie danych, źródła danych
- Schemat danych
- Przetwarzanie danych
Spark SQL - Dataset API
- Wydajność Spark SQL
- Dataset
- Profilowanie danych
- Czyszczenie danych
- Podsumowanie: RDD, DataFrames, Dataset
Spark SQL - SQL API
- Tabele zewnętrzne jako źródła danych
- Tworzenie tabel zarządzalnych
- Korzystanie z SQL
- Usługa Thrift JDBC/ODBC Server
- Dostęp za pomocą JDBC
Biblioteka Delta Lake
- Wprowadzenie
- Zasilanie Delta Lake
- Odczyt i zapis
- Obsługa modyfikacji
- Elementy zaawansowane