Szkolenie: Apache Spark z wykorzystaniem języka Scala
Szkolenie Apache Spark z językiem Scala to praktyczny kurs Big Data, który uczy analizy, przetwarzania i modelowania dużych zbiorów danych z wykorzystaniem Spark Core, Spark SQL, DataFrames, Dataset oraz Delta Lake w środowisku Scala
- Trenerzy praktycy
- Kameralne grupy
Czas trwania szkolenia:3 dni (24h)
Kod kursu:BIGDATA/SPARK
Apache Spark z wykorzystaniem języka Scala
Cele szkolenia
Szkolenie przygotowuje do samodzielnego projektowania i implementowania rozwiązań analitycznych opartych o Apache Spark z użyciem języka Scala
Szkolenie uczy wykorzystywania narzędzi Spark do przetwarzania, analizy i modelowania dużych zbiorów danych w trybie wsadowym i strumieniowym
Szkolenie pokazuje, jak efektywnie korzystać z RDD, DataFrames, Dataset oraz integracji z różnymi źródłami danych w środowisku Spark
Dla kogo?
Analitycy danych i programiści posiadający podstawową wiedzę z zakresu Big Data oraz relacyjnych baz danych
Specjaliści IT i deweloperzy chcący rozpocząć pracę z Apache Spark i językiem Scala w projektach analitycznych
Osoby z doświadczeniem w SQL i programowaniu obiektowym, zainteresowane przetwarzaniem dużych zbiorów danych
Efekty kształcenia
Uczestnik projektuje i wdraża procesy analityczne z użyciem Apache Spark i języka Scala
Uczestnik analizuje i przetwarza duże zbiory danych z wykorzystaniem RDD, DataFrames i Dataset
Uczestnik integruje różnorodne źródła danych w środowisku Spark
Uczestnik optymalizuje i monitoruje wydajność przetwarzania danych w Spark
Uczestnik stosuje praktyki czyszczenia i profilowania danych w Spark SQL
Uczestnik obsługuje zaawansowane funkcje przechowywania i modyfikacji danych z Delta Lake
Wymagania
Dobra znajomość: języka SQL, relacyjnego modelu danych oraz hurtowni danych
Podstawowa znajomość obiektowych języków programowania np.: Java, Python lub Scala
Znajomość zagadnień Big Data, platformy Hadoop oraz powiązanych z nią narzędzi, zalecany jest wcześniejszy udział w szkoleniu: Big Data i platforma Hadoop - wprowadzenie
W cenie otrzymasz:
Materiały szkoleniowe
Certyfikat ukończenia szkolenia
W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Program szkolenia
Podstawy języka Scala
Zmienne, kontrola statyczna i wnioskowanie typów
Instrukcje sterujące
Skala jako język obiektowy
Skala jako język funkcyjny
Złożone typy danych
Zagadnienia uzupełniające
Wprowadzenie do Apache Spark
Historia
Architektura
Typy konfiguracji
Terminologia - aplikacje, zadania, etapy, jednostki zadań
Jak to wszystko działa?
Struktura programu
Środowiska REPL - spark-shell
Dlaczego Scala?
Co dalej?
RDD API
Wprowadzenie do RDD
Transformacje
Akcje
Agregacja i redukcja
RDD par klucz-wartość
Spark SQL - DataFrames API
Wprowadzenie do Spark SQL
DataFrames vs. Dataset
Wczytywanie danych, źródła danych
Schemat danych
Przetwarzanie danych
Spark SQL - Dataset API
Wydajność Spark SQL
Dataset
Profilowanie danych
Czyszczenie danych
Podsumowanie: RDD, DataFrames, Dataset
Spark SQL - SQL API
Tabele zewnętrzne jako źródła danych
Tworzenie tabel zarządzalnych
Korzystanie z SQL
Usługa Thrift JDBC/ODBC Server
Dostęp za pomocą JDBC
Biblioteka Delta Lake
Wprowadzenie
Zasilanie Delta Lake
Odczyt i zapis
Obsługa modyfikacji
Elementy zaawansowane
Wybrane opinie
Przeczytaj pozytywne opinie pochodzące z ankiet satysfakcji z naszych szkoleń wypełnianych wyłącznie przez ich uczestników po realizacji usługi
