Trwają zapisy do grupy

Szkolenie: Apache Spark z wykorzystaniem języka Python

Szkolenie Apache Spark z Python to praktyczny kurs Big Data, który uczy analizy i przetwarzania dużych zbiorów danych z wykorzystaniem Spark, RDD, DataFrame, Spark SQL oraz integracji z ekosystemem Hadoop

  • Trenerzy praktycy
  • Kameralne grupy

Czas trwania szkolenia:2 dni (16h)

Poziom zaawansowania:

Kod kursu:BIGDATA/PYSPARK

big-dataapache-sparkprzetwarzanie-danychpyspark

Dostępne terminy szkolenia

  • Termin
  • Trener
  • Cena
  • Zapis
  • Lokalizacja

Termin:

7 kwietnia
Trwają zapisy na szkolenie

Trener:

Krzysztof Jankiewicz

Cena:

2565 PLN netto
Ikona podpowiedziDowiedz się więcej o cenach szkoleń - zapraszamy do kontaktu
+23% VAT

Lokalizacja:

Zdalne
Zdalne
Ikona podpowiedziZapytaj o inne lokalizacje - w tym celu skorzystaj z chatu

Termin:

31 sierpnia
Trwają zapisy na szkolenie

Trener:

Krzysztof Jankiewicz

Cena:

2565 PLN netto
Ikona podpowiedziDowiedz się więcej o cenach szkoleń - zapraszamy do kontaktu
+23% VAT

Lokalizacja:

Zdalne
Zdalne
Ikona podpowiedziZapytaj o inne lokalizacje - w tym celu skorzystaj z chatu

Termin:

19 października
Trwają zapisy na szkolenie

Trener:

Krzysztof Jankiewicz

Cena:

2565 PLN netto
Ikona podpowiedziDowiedz się więcej o cenach szkoleń - zapraszamy do kontaktu
+23% VAT

Lokalizacja:

Zdalne
Zdalne
Ikona podpowiedziZapytaj o inne lokalizacje - w tym celu skorzystaj z chatu

Termin:

30 listopada
Trwają zapisy na szkolenie

Trener:

Krzysztof Jankiewicz

Cena:

2565 PLN netto
Ikona podpowiedziDowiedz się więcej o cenach szkoleń - zapraszamy do kontaktu
+23% VAT

Lokalizacja:

Zdalne
Zdalne
Ikona podpowiedziZapytaj o inne lokalizacje - w tym celu skorzystaj z chatu

Forma szkolenia

Interesuje Cię szkolenie stacjonarne?

Powiadom o kolejnych terminach

Interesuje Cię szkolenie w innym terminie?

Apache Spark z wykorzystaniem języka Python

Cele szkolenia

  • Szkolenie przygotowuje do samodzielnego przetwarzania i analizy dużych zbiorów danych z użyciem Apache Spark w języku Python

  • Szkolenie uczy wykorzystywania API Spark Core, Spark SQL oraz narzędzi do pracy z danymi w środowisku rozproszonym

  • Szkolenie rozwija umiejętność projektowania i optymalizacji procesów ETL oraz analitycznych w ekosystemie Big Data


Dla kogo?

  • Analitycy danych i programiści Python realizujący projekty związane z przetwarzaniem dużych zbiorów danych

  • Specjaliści IT posiadający podstawową znajomość Pythona i SQL, chcący rozwinąć kompetencje w zakresie Big Data i Spark

  • Osoby pracujące z danymi w środowiskach rozproszonych, zainteresowane automatyzacją i optymalizacją procesów analitycznych


Efekty kształcenia

  • Uczestnik analizuje i przetwarza duże wolumeny danych z użyciem Apache Spark

  • Uczestnik projektuje i implementuje procesy ETL w środowisku rozproszonym

  • Uczestnik wykorzystuje API Spark Core i Spark SQL do pracy z danymi

  • Uczestnik optymalizuje zapytania i operacje na danych w Spark

  • Uczestnik integruje Spark z innymi narzędziami ekosystemu Big Data

  • Uczestnik testuje i weryfikuje poprawność przetwarzania danych


Wymagania


W cenie otrzymasz:

  • Materiały szkoleniowe

  • Certyfikat ukończenia szkolenia

  • W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki

Program szkolenia

Pobierz program w PDF

Wprowadzenie do Apache Spark

  • Historia

  • Moduły

  • Architektura

  • Struktura programu

  • spark-submit

  • Najważniejsze ustawienia

  • Miejsce w ekosystemie Big Data

Spark Core (RDD API)

  • Wprowadzenie

  • Cechy

  • Typy

  • Akcje

  • Transformacje

Spark SQL (DataFrame API)

  • DataFrame

  • Wydajność

  • Źródła danych

  • Schemat danych

  • Składnia Spark SQL

  • Agregacja danych

  • Funkcje analityczne

  • UDF

  • Testy jednostkowe

SQL API

  • Metastore - znaczenie i zawartość

  • Tabele zewnętrzne jako źródła danych

  • Tworzenie tabel zarządzalnych

  • Korzystanie z SQL

  • Usługa Thrift JDBC/ODBC Server

  • Dostęp za pomocą JDBC

Spark WebUI

  • Zakładki podstawowe: Jobs, Stages, Storage, Environment, Executors

  • Zakładki dodatkowe (kontekstowe): SQL/DataFrame

Autorem szkolenia jest Krzysztof Jankiewicz

Konsultant IT i wykładowca akademicki. Specjalista w zakresie ogólnie rozumianego przetwarzania danych. Począwszy od relacyjnych systemów baz danych, poprzez architekturę, utrzymanie i wykorzystywanie hurtowni danych, bazy danych NoSQL, systemy danych przestrzennych, po narzędzia i platformy Big Data. Od samego początku pracy zawodowej stara się jako konsultant znajdować czas na kontakty przemysłem, gdzie swoją wiedzę może konfrontować i rozwijać w oparciu o rzeczywiste przypadki. Począwszy od…

Wybrane opinie

Przeczytaj pozytywne opinie pochodzące z ankiet satysfakcji z naszych szkoleń wypełnianych wyłącznie przez ich uczestników po realizacji usługi

4.8
Ikona podpowiedziŚrednia ocen Sages w serwisie Google Ocena pochodzi ze średniej ocen Sages w serwisie Google i nie jest weryfikowana

4.11.2025

Uczestnik szkoleniaApache Spark z wykorzystaniem języka Python

Szymon Chrobot

Fantastyczne przekazanie wartościowej treści

Więcej opinii