Apache Spark z wykorzystaniem języka Scala

2950 PLN+23% VAT (3628 PLN brutto / 1 os.)

Czas trwania szkolenia:3 dni (24h)

Kod kursu:BIGDATA/SPARK

Poziom zaawansowania:
scalaspark

Dostępne terminy

  • Termin
  • Lokalizacja
  • Trener
  • Cena

Termin:

14 listopada 2022
Trwają zapisy na szkolenie

Lokalizacja:

Zdalne

Trener:

Trainer imageKrzysztof Jankiewicz

Cena:

2950 PLN netto+23% VAT

Termin:

24 kwietnia 2023
Trwają zapisy na szkolenie

Lokalizacja:

Zdalne, Warszawa, Łódź, Poznań, Kraków, Wrocław, Gdańsk, Katowice, Bydgoszcz, Gdynia

Trener:

-

Cena:

2950 PLN netto+23% VAT

O szkoleniu Apache Spark z wykorzystaniem języka Scala

W cenie otrzymasz:

  • Materiały szkoleniowe
  • Certyfikat ukończenia szkolenia
  • W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki

Dla kogo?

  • Analitycy i programiści, którzy znają podstawy Big Data i chcą rozpocząć przygodę z wykorzystaniem platformy Spark oraz językiem Scala

Wymagania

  • Dobra znajomość: języka SQL, relacyjnego modelu danych oraz hurtowni danych
  • Podstawowa znajomość obiektowych języków programowania np.: Java, Python lub Scala
  • Znajomość zagadnień Big Data, platformy Hadoop oraz powiązanych z nią narzędzi
  • Zalecany jest wcześniejszy udział w szkoleniu: Big Data i platforma Hadoop - wprowadzenie (BIGDATA/BASE)

Zalety

  • Kompleksowe wprowadzenie do platformy Spark
  • Przedstawienie praktycznych przykładów oraz praktyk związanych z analizą dużej ilości danych
  • Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
  • Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
  • Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how

Cele szkolenia

  • Zapoznanie z platformą Spark oraz jej API w języku Scala
  • Pokazanie metod analizy dużej ilości danych

Program

Podstawy języka Scala

  • Zmienne, kontrola statyczna i wnioskowanie typów
  • Instrukcje sterujące
  • Skala jako język obiektowy
  • Skala jako język funkcyjny
  • Złożone typy danych
  • Zagadnienia uzupełniające
  • Warsztat

Wprowadzenie do Apache Spark

  • Historia
  • Architektura
  • Typy konfiguracji
  • Terminologia - aplikacje, zadania, etapy, jednostki
  • Jak to wszystko działa?
  • Struktura programu
  • Środowiska REPL - spark-shell
  • Dlaczego Scala?
  • Co dalej?
  • Warsztat

Przetwarzanie RDD

  • Wprowadzenie do RDD
  • Transformacje
  • Akcje
  • Agregacja i redukcja
  • Warsztat

RDD typu klucz-wartość

  • Typy RDD
  • PairRDDFunctions i jego znaczenie
  • Tworzenie RDD par
  • Metody przetwarzające pojedyncze RDD par
  • Łączenie RDD par
  • Warsztat

Spark SQL - DataFrames

  • Wprowadzenie do Spark SQL
  • DataFrames vs. Dataset
  • Wczytywanie danych, źródła danych
  • Schemat danych
  • Przetwarzanie danych
  • Typy danych - konsekwencje
  • Warsztat

Spark SQL - Dataset

  • Wydajność Spark SQL
  • Dataset
  • Profilowanie danych
  • Czyszczenie danych
  • Podsumowanie: RDD, DataFrames, Dataset
  • Warsztat - projekt

RDD - wydajność

  • Wprowadzenie - opóźnienia, czas dostępu do danych
  • Przesyłanie danych - konsekwencje
  • Partycjonowanie danych
  • Wąskie i szerokie zależności
  • Zmienne rozgłoszeniowe
  • Akumulatory
  • Warsztat

Biblioteka Delta Lake

  • Wprowadzenie
  • Zasilanie Delta Lake
  • Odczyt i zapis
  • Obsługa modyfikacji
  • Elementy zaawansowane
  • Warsztat

Biblioteka ML

  • Wprowadzenie
  • Prosta statystyka
  • Algorytmy uczenia maszynowego
  • Spark ML
  • Przykłady
  • Warsztat - regresja liniowa, klasyfikator

Podobne szkolenia