Apache Spark z wykorzystaniem języka Python

1950 PLN+23% VAT (2398 PLN brutto / 1 os.)

Czas trwania szkolenia:2 dni (16h)

Kod kursu:BIGDATA/PYSPARK

Poziom zaawansowania:

Dostępne terminy

  • Termin
  • Lokalizacja
  • Trener
  • Cena
Brak dostępnych terminów

O szkoleniu Apache Spark z wykorzystaniem języka Python

W cenie otrzymasz:

  • Materiały szkoleniowe
  • Certyfikat ukończenia szkolenia
  • W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki

Dla kogo?

  • Analitycy i programiści zaznajomieni z językiem Python, chcący poznać jedno z najpopularniejszych narzędzi do przetwarzania danych

Wymagania

  • Podstawowa znajomość języka Python i SQL

Zalety

  • Kompleksowe wprowadzenie do pracy z Apache Spark
  • Kameralne grupy - szkolenia technologiczne prowadzimy w grupach liczących do 8 osób. Pozwala to na indywidualne podejście oraz aktywizację każdego uczestnika
  • Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
  • Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
  • Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how

Cele szkolenia

  • Zapoznanie z API Apache Spark oferowanym przez bibliotekę pyspark
  • Poznanie metod przetwarzania dużych wolumenów danych

Program

Wprowadzenie do Apache Spark

  • Historia
  • Moduły
  • Architektura
  • Struktura programu
  • spark-submit
  • Najważniejsze ustawienia
  • Miejsce w ekosystemie Big Data

Spark Core

  • RDD
  • Akumulatory
  • Zmienne rozgłoszeniowe
  • Partycjonowanie
  • Zależności wąskie i szerokie

Spark SQL

  • DataFrame
  • Wydajność
  • Źródła danych
  • Schemat danych
  • Składnia Spark SQL
  • Agregacja danych
  • Funkcje analityczne
  • UDF
  • Testy jednostkowe

Spark UI

Spark ML

  • Wektory
  • Transformery
  • Estymatory
  • Potoki
  • Algorytmy uczenia maszynowego

Spark Streaming i Structured Streaming

  • DStream
  • Streaming DataFrame
  • Transformacje strumieni danych
  • Operacje oknowe
  • Watermarking
  • Źródła danych

Podobne szkolenia