Trwają zapisy do grupy

Szkolenie: Apache Spark z wykorzystaniem języka Scala

Praktyczne wykorzystanie platformy Apache Spark w kontekście przetwarzania Big Data

  • Trenerzy praktycy
  • Kameralne grupy

Czas trwania szkolenia:3 dni (24h)

Poziom zaawansowania:

Kod kursu:BIGDATA/SPARK

scalaspark

Dostępne terminy szkolenia

  • Termin
  • Trener
  • Cena
  • Zapis
  • Lokalizacja

Termin:

5 maja
Trwają zapisy na szkolenie

Trener:

Krzysztof Jankiewicz

Cena:

2805 PLN netto
Ikona podpowiedziDowiedz się więcej o cenach szkoleń - zapraszamy do kontaktu
+23% VAT

Lokalizacja:

Zdalne
Zdalne
Ikona podpowiedziZapytaj o inne lokalizacje - w tym celu skorzystaj z chatu

Termin:

9 czerwca
Trwają zapisy na szkolenie

Trener:

Krzysztof Jankiewicz

Cena:

2805 PLN netto
Ikona podpowiedziDowiedz się więcej o cenach szkoleń - zapraszamy do kontaktu
+23% VAT

Lokalizacja:

Zdalne
Zdalne
Ikona podpowiedziZapytaj o inne lokalizacje - w tym celu skorzystaj z chatu

Termin:

13 października
Trwają zapisy na szkolenie

Trener:

Krzysztof Jankiewicz

Cena:

2805 PLN netto
Ikona podpowiedziDowiedz się więcej o cenach szkoleń - zapraszamy do kontaktu
+23% VAT

Lokalizacja:

Zdalne
Zdalne
Ikona podpowiedziZapytaj o inne lokalizacje - w tym celu skorzystaj z chatu

Forma szkolenia

Interesuje Cię szkolenie stacjonarne?

Powiadom o kolejnych terminach

Interesuje Cię szkolenie w innym terminie?

Apache Spark z wykorzystaniem języka Scala

Cele szkolenia

  • Zapoznanie z platformą Spark oraz jej API w języku Scala

  • Pokazanie metod analizy dużej ilości danych


Dla kogo?

  • Analitycy i programiści, którzy znają podstawy Big Data i chcą rozpocząć przygodę z wykorzystaniem platformy Spark oraz językiem Scala


Zalety

  • Kompleksowe wprowadzenie do platformy Spark

  • Przedstawienie praktycznych przykładów oraz praktyk związanych z analizą dużej ilości danych

  • Apache Spark to narzędzie uniwersalne, za pomocą którego można przetwarzać nie tylko dane wsadowe, ale także takie, które mają postać strumieni. Osoby zainteresowane pogłębieniem tematu zapraszamy na kurs Przetwarzanie strumieni danych w Apache Spark


Wymagania

  • Dobra znajomość: języka SQL, relacyjnego modelu danych oraz hurtowni danych

  • Podstawowa znajomość obiektowych języków programowania np.: Java, Python lub Scala

  • Znajomość zagadnień Big Data, platformy Hadoop oraz powiązanych z nią narzędzi

  • Zalecany jest wcześniejszy udział w szkoleniu: Big Data i platforma Hadoop - wprowadzenie (BIGDATA/BASE)


W cenie otrzymasz:

  • Materiały szkoleniowe

  • Certyfikat ukończenia szkolenia

  • W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki

Program szkolenia

Pobierz program w PDF

Podstawy języka Scala

  • Zmienne, kontrola statyczna i wnioskowanie typów

  • Instrukcje sterujące

  • Skala jako język obiektowy

  • Skala jako język funkcyjny

  • Złożone typy danych

  • Zagadnienia uzupełniające

Wprowadzenie do Apache Spark

  • Historia

  • Architektura

  • Typy konfiguracji

  • Terminologia - aplikacje, zadania, etapy, jednostki zadań

  • Jak to wszystko działa?

  • Struktura programu

  • Środowiska REPL - spark-shell

  • Dlaczego Scala?

  • Co dalej?

RDD API

  • Wprowadzenie do RDD

  • Transformacje

  • Akcje

  • Agregacja i redukcja

  • RDD par klucz-wartość

Spark SQL - DataFrames API

  • Wprowadzenie do Spark SQL

  • DataFrames vs. Dataset

  • Wczytywanie danych, źródła danych

  • Schemat danych

  • Przetwarzanie danych

Spark SQL - Dataset API

  • Wydajność Spark SQL

  • Dataset

  • Profilowanie danych

  • Czyszczenie danych

  • Podsumowanie: RDD, DataFrames, Dataset

Spark SQL - SQL API

  • Tabele zewnętrzne jako źródła danych

  • Tworzenie tabel zarządzalnych

  • Korzystanie z SQL

  • Usługa Thrift JDBC/ODBC Server

  • Dostęp za pomocą JDBC

Biblioteka Delta Lake

  • Wprowadzenie

  • Zasilanie Delta Lake

  • Odczyt i zapis

  • Obsługa modyfikacji

  • Elementy zaawansowane

Autorem szkolenia jest Krzysztof Jankiewicz

Konsultant IT i wykładowca akademicki. Specjalista w zakresie ogólnie rozumianego przetwarzania danych. Począwszy od relacyjnych systemów baz danych, poprzez architekturę, utrzymanie i wykorzystywanie hurtowni danych, bazy danych NoSQL, systemy danych przestrzennych, po narzędzia i platformy Big Data. Od samego początku pracy zawodowej stara się jako konsultant znajdować czas na kontakty przemysłem, gdzie swoją wiedzę może konfrontować i rozwijać w oparciu o rzeczywiste przypadki. Począwszy od…

Wybrane opinie

Przeczytaj pozytywne opinie pochodzące z ankiet satysfakcji z naszych szkoleń wypełnianych wyłącznie przez ich uczestników po realizacji usługi

4.8
Ikona podpowiedziŚrednia ocen Sages w serwisie Google Ocena pochodzi ze średniej ocen Sages w serwisie Google i nie jest weryfikowana

29.08.2024

Uczestnik szkoleniaApache Spark z wykorzystaniem języka Scala

Aleksandra Płuciennik

Bardzo dobre materiały szkoleniowe, wiele przykładów praktycznych, interaktywna forma zajęć (jako rozmowa/dyskusja/praca wspólna) zamiast czystego dyktowania i pracy własnej - pomaga to zrozumieć trudne zagadnienia i opracować właściwe rozwiazania. Niewykładowa forma zajęć - opowiadanie o teorii owszem, ale nie na zasadzie suchych formułek lecz przedstawiania w wielu aspektach i porównania. Mozliwość popełniania błędów i naprawiania ich (w zadaniach do wykonania) - prowadzący chętnie pomaga w doprowadzeniu do stanu wspólnego zrozumienia i etapu pracy a przynajmniej by nie występowały błędy kompilacyjne. Jedyny minus to mało czasu : trzydniowe szkolenie wydaje się długie jednak material jest na tyle obszerny że ciężko zlapać go w tym tempie w lot bez wystarczających podstaw (wyższy próg wstępu). U mnie także wysycanie łącza internetowego lub/i pamięci komputera na dobrych kilka minut podczas niektórych kroków (pobieranie zasobów do zadań, zaciąganie i budowa repo, projektu) sprawiało że zoom przerywał do poziomu zupełnej niesłyszalności. Przez bardzo intensywną formułę szkolenia mało czasu na nadrobienie kroków w przypadku zgubienia sie, ale plus za możliwość wybrania udziału obserwującego jesli ktos wolał skupić się na czytaniu nie tracąc czasu na przepisywanie/przeklejanie/konfigurację własną. W tej ankiecie także pole odpowiedzi dla pytan otwartych nie powinno być jedną przewijaną w bok linią, tylko polem wieloliniowym bo nie widać co się pisało wczesniej i cos mogło zostać pominiete.

Więcej opinii

Podobne szkolenia