Szkolenie: Apache Spark z wykorzystaniem języka Python
Szkolenie Apache Spark z Python to praktyczny kurs Big Data, który uczy analizy i przetwarzania dużych zbiorów danych z wykorzystaniem Spark, RDD, DataFrame, Spark SQL oraz integracji z ekosystemem Hadoop
- Trenerzy praktycy
- Kameralne grupy
Czas trwania szkolenia:2 dni (16h)
Kod kursu:BIGDATA/PYSPARK
Apache Spark z wykorzystaniem języka Python
Cele szkolenia
Szkolenie przygotowuje do samodzielnego przetwarzania i analizy dużych zbiorów danych z użyciem Apache Spark w języku Python
Szkolenie uczy wykorzystywania API Spark Core, Spark SQL oraz narzędzi do pracy z danymi w środowisku rozproszonym
Szkolenie rozwija umiejętność projektowania i optymalizacji procesów ETL oraz analitycznych w ekosystemie Big Data
Dla kogo?
Analitycy danych i programiści Python realizujący projekty związane z przetwarzaniem dużych zbiorów danych
Specjaliści IT posiadający podstawową znajomość Pythona i SQL, chcący rozwinąć kompetencje w zakresie Big Data i Spark
Osoby pracujące z danymi w środowiskach rozproszonych, zainteresowane automatyzacją i optymalizacją procesów analitycznych
Efekty kształcenia
Uczestnik analizuje i przetwarza duże wolumeny danych z użyciem Apache Spark
Uczestnik projektuje i implementuje procesy ETL w środowisku rozproszonym
Uczestnik wykorzystuje API Spark Core i Spark SQL do pracy z danymi
Uczestnik optymalizuje zapytania i operacje na danych w Spark
Uczestnik integruje Spark z innymi narzędziami ekosystemu Big Data
Uczestnik testuje i weryfikuje poprawność przetwarzania danych
Wymagania
Podstawowa znajomość języka Python i SQL
Znajomość zagadnień Big Data oraz platformy Hadoop - zalecany jest wcześniejszy udział w szkoleniu: Big Data i platforma Hadoop - wprowadzenie
W cenie otrzymasz:
Materiały szkoleniowe
Certyfikat ukończenia szkolenia
W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Program szkolenia
Wprowadzenie do Apache Spark
Historia
Moduły
Architektura
Struktura programu
spark-submit
Najważniejsze ustawienia
Miejsce w ekosystemie Big Data
Spark Core (RDD API)
Wprowadzenie
Cechy
Typy
Akcje
Transformacje
Spark SQL (DataFrame API)
DataFrame
Wydajność
Źródła danych
Schemat danych
Składnia Spark SQL
Agregacja danych
Funkcje analityczne
UDF
Testy jednostkowe
SQL API
Metastore - znaczenie i zawartość
Tabele zewnętrzne jako źródła danych
Tworzenie tabel zarządzalnych
Korzystanie z SQL
Usługa Thrift JDBC/ODBC Server
Dostęp za pomocą JDBC
Spark WebUI
Zakładki podstawowe: Jobs, Stages, Storage, Environment, Executors
Zakładki dodatkowe (kontekstowe): SQL/DataFrame
Wybrane opinie
Przeczytaj pozytywne opinie pochodzące z ankiet satysfakcji z naszych szkoleń wypełnianych wyłącznie przez ich uczestników po realizacji usługi
