Apache Spark z wykorzystaniem języka Scala

LICZBA DNI: 3 (24h)

KOD KURSU: BIGDATA/SPARK

POZIOM SZKOLENIA:

# spark

# scala

Szkolenie na zamówienie

Szkolenie dostosowane do potrzeb Twojego zespołu. Dostępne WYŁĄCZNIE na zamówienie.

  • Dostosowany program
  • Indywidualna wycena
  • Dowolny termin

Interesuje Cię ta tematyka i szukasz szkolenia tylko dla siebie?

O szkoleniu

DLA KOGO?

Analitycy i programiści, którzy znają podstawy Big Data i chcą rozpocząć przygodę z wykorzystaniem platformy Spark oraz językiem Scala

WYMAGANIA

Dobra znajomość: języka SQL, relacyjnego modelu danych oraz hurtowni danych

Podstawowa znajomość obiektowych języków programowania np.: Java, Python lub Scala

Znajomość zagadnień Big Data, platformy Hadoop oraz powiązanych z nią narzędzi

Zalecany jest wcześniejszy udział w szkoleniu: Big Data i platforma Hadoop - wprowadzenie (BIGDATA/BASE)

ZALETY

Kompleksowe wprowadzenie do platformy Spark

Przedstawienie praktycznych przykładów oraz praktyk związanych z analizą dużej ilości danych

Kameralne grupy - szkolenia technologiczne prowadzimy w grupach liczących do 8 osób. Pozwala to na indywidualne podejście oraz aktywizację każdego uczestnika

Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań

Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką

Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how

Cele szkolenia

Zapoznanie z platformą Spark oraz jej API w języku Scala

Pokazanie metod analizy dużej ilości danych

Program

  • Zmienne, kontrola statyczna i wnioskowanie typów
  • Instrukcje sterujące
  • Skala jako język obiektowy
    • Klasy
    • Dziedziczenie
    • Singletony
    • Klasy przypadków
    • Metody klas
    • Hierarchia klas
  • Skala jako język funkcyjny
    • Cechy funkcji
    • Przekazywanie parametrów
    • Domyślne wartości parametrów
    • Funkcje ze zmienną liczbą parametrów
    • Funkcje wyższego rzędu
    • Funkcje anonimowe
  • Złożone typy danych
    • Tablice
    • Krotki
    • Kolekcje
  • Zagadnienia uzupełniające
    • Pattern matching
    • Option
    • Closure
    • Obsługa ciągów znaków
    • Języki domenowe
  • Warsztat
  • Historia
  • Architektura
  • Typy konfiguracji
  • Terminologia - aplikacje, zadania, etapy, jednostki
  • Jak to wszystko działa?
  • Struktura programu
  • Środowiska REPL - spark-shell
  • Dlaczego Scala?
  • Co dalej?
  • Warsztat
  • Wprowadzenie do RDD
  • Transformacje
  • Akcje
  • Agregacja i redukcja
  • Warsztat
  • Typy RDD
  • PairRDDFunctions i jego znaczenie
  • Tworzenie RDD par
  • Metody przetwarzające pojedyncze RDD par
  • Łączenie RDD par
  • Warsztat
  • Wprowadzenie do Spark SQL
  • DataFrames vs. Dataset
  • Wczytywanie danych, źródła danych
  • Schemat danych
  • Przetwarzanie danych
    • Transformacje (typed vs untyped)
    • Grupowanie
    • Akcje
    • Wykorzystanie SQL
  • Typy danych - konsekwencje
  • Warsztat
  • Wydajność Spark SQL
    • Catalyst
    • Plany zapytań
    • Tungsten
  • Dataset
    • Tworzenie
    • Metody
    • Grupowanie
    • KeyValueGroupedDataset
    • Agregacja
  • Profilowanie danych
  • Czyszczenie danych
  • Podsumowanie: RDD, DataFrames, Dataset
  • Warsztat - projekt
  • Wprowadzenie - opóźnienia, czas dostępu do danych
  • Przesyłanie danych - konsekwencje
  • Partycjonowanie danych
  • Wąskie i szerokie zależności
    • Wpływ na wydajność
    • Wpływ na obsługę awarii
  • Zmienne rozgłoszeniowe
  • Akumulatory
  • Warsztat
  • Wprowadzenie
  • Zasilanie Delta Lake
  • Odczyt i zapis
  • Obsługa modyfikacji
  • Elementy zaawansowane
    • Narzędzia
    • Wersjonowanie
    • Ograniczenia
    • Kontrola współbieżnego dostępu
  • Warsztat
  • Wprowadzenie
  • Prosta statystyka
  • Algorytmy uczenia maszynowego
  • Spark ML
  • Przykłady
  • Warsztat - regresja liniowa, klasyfikator

Autor szkolenia:

Krzysztof Jankiewicz

Starszy wykładowca na Politechnice Poznańskiej gdzie w roku 2007 obronił doktorat z Zarządzania współbieżnym dostępem w bazach danych XML. Prowadzi zajęcia z tematyki bardzo ogólnie rozumianego przetwarzania danych oraz aplikacji mobilnych. W tych samym zakresie udziela się na kilku innych uczelniach wyższych w Wielkopolsce. Od samego początku pracy zawodowej stara się jako konsultant znajdować czas na kontakty przemysłem, gdzie swoją wiedzę może konfrontować i rozwijać w oparciu o rzeczywiste przypadki. Począwszy od 2001 roku współpracuje z firmami szkoleniowymi regularnie prowadząc szkolenia i warsztaty. Regularnie tworzy i aktualizuje autorskie szkolenia.

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.