Analiza danych z użyciem Apache Spark

LICZBA DNI: 2 (16h)

KOD KURSU: SPARK/ANA

POZIOM SZKOLENIA:

# mining

# information-retrieval

Najbliższy termin:

4 marca 2021

PROWADZI:

Patryk Pilarski

1950 PLN netto + 23% VAT

  • stacjonarne
  • zdalne

STACJONARNE

W CENIE

  • 2 dni pracy z trenerem
  • Materiały szkoleniowe
  • Lunch
  • Certyfikat ukończenia szkolenia

ZDALNE

W CENIE

  • 2 dni pracy z trenerem na żywo online
  • Materiały szkoleniowe
  • Certyfikat ukończenia szkolenia

Czy wiesz, że możesz uzyskać nawet do 100% dofinansowania na szkolenie? Dowiedz się jak »

Oferta dla firm

Dostosuj zakres, czas i miejsce szkolenia do potrzeb Twojego zespołu. Uzyskaj indywidualną wycenę szkolenia dla grupy.

Weź udział w szkoleniu

Termin

Lokalizacja

Trener

Cena / os

4

marca

Warszawa,

Gdańsk,

Poznań,

Zdalne,

1950 PLN netto
+ 23% VAT

21

maja

Kraków,

Wrocław,

Łódź,

Zdalne,

1950 PLN netto
+ 23% VAT

Termin

4

marca

Lokalizacja

Warszawa,

Gdańsk,

Poznań,

Zdalne,

Trener

Cena / os

1950 PLNnetto
+ 23% VAT

Termin

21

maja

Lokalizacja

Kraków,

Wrocław,

Łódź,

Zdalne,

Trener

Cena / os

1950 PLNnetto
+ 23% VAT

Powiadom
o kolejnych terminach

O szkoleniu

DLA KOGO?

Osoby pracujące z danymi chcące pozyskać umiejętności pozwalające na analizę dużych zbiorów danych przy użyciu Apache Spark

WYMAGANIA

Podstawowa znajomość Pythona oraz SQLa

ZALETY

Wprowadzenie do świata analizy danych Big Data

Koncentracja na użytkowaniu Sparka nie przytłoczy mnogością szczegółów technicznych

Duży nacisk na część warsztatową i pisanie kodu pozwoli na szybkie wykorzystanie zdobytych umiejętności w praktyce

Wykorzystanie głównie Spark SQL pozwoli na intuicyjną pracę z dużymi zbiorami danych

Cele szkolenia

Zdobycie praktycznych umiejętności i wiedzy pozwalających na wykonywanie analiz dużych zbiorów danych z wykorzystaniem Apache Spark

Zapoznanie z problemami przetwarzania, czyszczenia oraz eksploracyjnej analizy danych, a także zagadnieniami pokrewnymi, jak chociażby wykorzystaniem algorytmów uczenia maszynowego na przygotowanym zbiorze

Program

  • Architektura
  • Moduły
  • Miejsce w ekosystemie Big Data
  • Jupyter
  • Przegląd możliwości i udogodnień
  • Spark Context i Spark Session
  • RDD
  • Akcje i transformacje
  • DataFrame
  • Źródła danych
  • Składnia Spark SQL
  • Statystyki zmiennych
  • Grupowanie i agregacja danych
  • Funkcje analityczne i okienne
  • Podstawy wizualizacji
  • Typy wykresów
  • Wizualizacja dużych zbiorów danych
  • Wektory gęste i rzadkie
  • Przekształcanie zbioru do postaci wektorowej
  • Przegląd dostępnych transformacji zmiennych
  • Przegląd dostępnych algorytmów uczenia maszynowego
    • Modele klasyfikacyjne
    • Modele regresyjne
    • Algorytmy klastrowania
  • Przetwarzanie potokowe (pipeline)

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.