Apache Spark z wykorzystaniem języka Scala

LICZBA DNI: 3 (24h)

KOD KURSU: BIGDATA/SPARK

POZIOM SZKOLENIA:

# spark

# scala

Najbliższy termin:

23 czerwca 2021

PROWADZI:

Krzysztof Jankiewicz

2680 PLN netto + 23% VAT

  • stacjonarne
  • zdalne

STACJONARNE

W CENIE

  • 3 dni pracy z trenerem
  • Materiały szkoleniowe
  • Lunch
  • Certyfikat ukończenia szkolenia

ZDALNE

W CENIE

  • 3 dni pracy z trenerem na żywo online
  • Materiały szkoleniowe
  • Certyfikat ukończenia szkolenia

Czy wiesz, że możesz uzyskać nawet do 100% DOFINANSOWANIA na szkolenie? Napisz do nas »

Oferta dla firm

Dostosuj zakres, czas i miejsce szkolenia do potrzeb Twojego zespołu. Uzyskaj indywidualną wycenę szkolenia dla grupy.

Weź udział w szkoleniu

Termin

Lokalizacja

Trener

Cena / os

23

czerwca

Kraków,

Wrocław,

Warszawa,

Zdalne,

2680 PLN netto
+ 23% VAT

Termin

23

czerwca

Lokalizacja

Kraków,

Wrocław,

Warszawa,

Zdalne,

Trener

Cena / os

2680 PLNnetto
+ 23% VAT

Powiadom
o kolejnych terminach

O szkoleniu

DLA KOGO?

Analitycy i programiści, którzy znają podstawy Big Data i chcą rozpocząć przygodę z wykorzystaniem platformy Spark oraz językiem Scala

WYMAGANIA

Dobra znajomość: języka SQL, relacyjnego modelu danych oraz hurtowni danych

Podstawowa znajomość obiektowych języków programowania np.: Java, Python lub Scala

Znajomość zagadnień Big Data, platformy Hadoop oraz powiązanych z nią narzędzi

Zalecany jest wcześniejszy udział w szkoleniu: Big Data i platforma Hadoop - wprowadzenie (BIGDATA/BASE)

ZALETY

Kompleksowe wprowadzenie do platformy Spark

Przedstawienie praktycznych przykładów oraz praktyk związanych z analizą dużej ilości danych

Cele szkolenia

Zapoznanie z platformą Spark oraz jej API w języku Scala

Pokazanie metod analizy dużej ilości danych

Program

  • Zmienne, kontrola statyczna i wnioskowanie typów
  • Instrukcje sterujące
  • Skala jako język obiektowy
    • Klasy
    • Dziedziczenie
    • Singletony
    • Klasy przypadków
    • Metody klas
    • Hierarchia klas
  • Skala jako język funkcyjny
    • Cechy funkcji
    • Przekazywanie parametrów
    • Domyślne wartości parametrów
    • Funkcje ze zmienną liczbą parametrów
    • Funkcje wyższego rzędu
    • Funkcje anonimowe
  • Złożone typy danych
    • Tablice
    • Krotki
    • Kolekcje
  • Zagadnienia uzupełniające
    • Pattern matching
    • Option
    • Closure
    • Obsługa ciągów znaków
    • Języki domenowe
  • Warsztat
  • Historia
  • Architektura
  • Typy konfiguracji
  • Terminologia - aplikacje, zadania, etapy, jednostki
  • Jak to wszystko działa?
  • Struktura programu
  • Środowiska REPL - spark-shell
  • Dlaczego Scala?
  • Co dalej?
  • Warsztat
  • Wprowadzenie do RDD
  • Transformacje
  • Akcje
  • Agregacja i redukcja
  • Warsztat
  • Typy RDD
  • PairRDDFunctions i jego znaczenie
  • Tworzenie RDD par
  • Metody przetwarzające pojedyncze RDD par
  • Łączenie RDD par
  • Warsztat
  • Wprowadzenie do Spark SQL
  • DataFrames vs. Dataset
  • Wczytywanie danych, źródła danych
  • Schemat danych
  • Przetwarzanie danych
    • Transformacje (typed vs untyped)
    • Grupowanie
    • Akcje
    • Wykorzystanie SQL
  • Typy danych - konsekwencje
  • Warsztat
  • Wydajność Spark SQL
    • Catalyst
    • Plany zapytań
    • Tungsten
  • Dataset
    • Tworzenie
    • Metody
    • Grupowanie
    • KeyValueGroupedDataset
    • Agregacja
  • Profilowanie danych
  • Czyszczenie danych
  • Podsumowanie: RDD, DataFrames, Dataset
  • Warsztat - projekt
  • Wprowadzenie - opóźnienia, czas dostępu do danych
  • Przesyłanie danych - konsekwencje
  • Partycjonowanie danych
  • Wąskie i szerokie zależności
    • Wpływ na wydajność
    • Wpływ na obsługę awarii
  • Zmienne rozgłoszeniowe
  • Akumulatory
  • Warsztat
  • Wprowadzenie
  • Zasilanie Delta Lake
  • Odczyt i zapis
  • Obsługa modyfikacji
  • Elementy zaawansowane
    • Narzędzia
    • Wersjonowanie
    • Ograniczenia
    • Kontrola współbieżnego dostępu
  • Warsztat
  • Wprowadzenie
  • Prosta statystyka
  • Algorytmy uczenia maszynowego
  • Spark ML
  • Przykłady
  • Warsztat - regresja liniowa, klasyfikator

Autor szkolenia:

Krzysztof Jankiewicz

Starszy wykładowca na Politechnice Poznańskiej gdzie w roku 2007 obronił doktorat z Zarządzania współbieżnym dostępem w bazach danych XML. Prowadzi zajęcia z tematyki bardzo ogólnie rozumianego przetwarzania danych oraz aplikacji mobilnych. W tych samym zakresie udziela się na kilku innych uczelniach wyższych w Wielkopolsce. Od samego początku pracy zawodowej stara się jako konsultant znajdować czas na kontakty przemysłem, gdzie swoją wiedzę może konfrontować i rozwijać w oparciu o rzeczywiste przypadki. Począwszy od 2001 roku współpracuje z firmami szkoleniowymi regularnie prowadząc szkolenia i warsztaty. Regularnie tworzy i aktualizuje autorskie szkolenia.

Najbliższe szkolenie poprowadzi:

Krzysztof Jankiewicz

Starszy wykładowca na Politechnice Poznańskiej gdzie w roku 2007 obronił doktorat z Zarządzania współbieżnym dostępem w bazach danych XML. Prowadzi zajęcia z tematyki bardzo ogólnie rozumianego przetwarzania danych oraz aplikacji mobilnych. W tych samym zakresie udziela się na kilku innych uczelniach wyższych w Wielkopolsce. Od samego początku pracy zawodowej stara się jako konsultant znajdować czas na kontakty przemysłem, gdzie swoją wiedzę może konfrontować i rozwijać w oparciu o rzeczywiste przypadki. Począwszy od 2001 roku współpracuje z firmami szkoleniowymi regularnie prowadząc szkolenia i warsztaty. Regularnie tworzy i aktualizuje autorskie szkolenia.

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.