Apache Spark z wykorzystaniem języka Python
Praktyczne przetwarzanie Big Data przy pomocy Apache Spark w języku Python
2150 PLN+23% VAT (2644 PLN brutto / 1 os.)Czas trwania szkolenia:2 dni (16h)
Kod kursu:BIGDATA/PYSPARK
Apache Spark z wykorzystaniem języka Python
Cele szkolenia
Zapoznanie z API Apache Spark oferowanym przez bibliotekę pyspark
Poznanie metod przetwarzania dużych wolumenów danych
Dla kogo?
Analitycy i programiści zaznajomieni z językiem Python, chcący poznać jedno z najpopularniejszych narzędzi do przetwarzania danych
Zalety
Kompleksowe wprowadzenie do pracy z Apache Spark
Apache Spark to narzędzie uniwersalne, za pomocą którego można przetwarzać nie tylko dane wsadowe, ale także takie, które mają postać strumieni. Osoby zainteresowane pogłębieniem tematu zapraszamy na kurs "Przetwarzanie strumieni danych w Apache Spark"
Wymagania
Podstawowa znajomość języka Python i SQL
W cenie otrzymasz:
Materiały szkoleniowe
Certyfikat ukończenia szkolenia
W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Program
Wprowadzenie do Apache Spark
Historia
Moduły
Architektura
Struktura programu
spark-submit
Najważniejsze ustawienia
Miejsce w ekosystemie Big Data
Spark Core (RDD API)
Wprowadzenie
Cechy
Typy
Akcje
Transformacje
Spark SQL (DataFrame API)
DataFrame
Wydajność
Źródła danych
Schemat danych
Składnia Spark SQL
Agregacja danych
Funkcje analityczne
UDF
Testy jednostkowe
SQL API
Tabele zewnętrzne jako źródła danych
Tworzenie tabel zarządzalnych
Korzystanie z SQL
Usługa Thrift JDBC/ODBC Server
Dostęp za pomocą JDBC
Spark WebUI
Zakładki podstawowe: Jobs, Stages, Storage, Environment, Executors
Zakładki dodatkowe (kontekstowe): SQL/DataFrame
Spark ML
Wektory
Transformery
Estymatory
Potoki
Algorytmy uczenia maszynowego