Big Data dla analityków

LICZBA DNI: 4 (32h)

KOD KURSU: BIGDATA/ANA

Powiadom
o kolejnych terminach

# hive

# pig

# spark

O szkoleniu

DLA KOGO?

Analitycy danych oraz programiści, którzy chcą rozpocząć swoją przygodę z analizą dużych zbiorów danych.

WYMAGANIA

Podstawy SQL

Podstawowa umiejętność programowania, najlepiej w: Python, R, Java lub Scala

ZALETY

Zapoznanie z wieloma narzędziami i językami programowania, szkolenie ma na celu pokazanie jak łatwo można analizować dane bez użycia konsoli i narzędzi IDE.

Cele szkolenia

Przekrojowe szkolenie mające na celu zapoznanie się z narzędziami przeznaczonymi dla analityka big data.

Program

  • Czym jest Big Data?
    • Definicja
    • Geneza i historia Big Data
    • Problemy Big Data
    • Zastosowania i przypadki użycia
    • Umiejętności w projektach Big Data
    • Big Data a Business Intelligence (Hurtownie danych)
    • Data Science i sztuczna inteligencja w Big Data
    • Bazy NoSQL
  • Architektura systemów Big Data
    • Przetwarzanie wsadowe
    • Architektura Lambda
    • Architektura Kappa
    • Data Lake
  • Dystrybucje Big Data
    • Geneza powstania
    • Zastosowania i przypadki użycia
    • Porównanie popularnych dystrybucji Big Data
    • Zalety i wady korzystania z dystrybucji Big Data
  • Przegląd ekosystemu Apache Hadoop
  • Rozwiązania w chmurze
  • HDFS
    • Wprowadzenie do rozproszonego systemu plików
    • Architektura
    • Zarządzanie za pomocą linii komend
    • Dostęp przez WWW
    • Korzystanie za pomocą API
    • Importowanie i eksportowanie danych
    • Formaty plików popularne w Big Data
    • Wykorzystanie kompresji danych
  • YARN & MapReduce
    • Wprowadzenie do platformy obliczeniowej YARN
    • Zasada działania i podstawowa konfiguracja YARN
    • Podstawowe operacje YARN
    • Przetwarzanie zadań za pomocą MapReduce
    • Uruchamianie i zarządzanie zadaniami uruchomionymi w oparciu o architekturę YARN
  • Czym jest Hive
  • Architektura
  • Unikalne cechy Hive
  • HiveQL
  • Model danych w Hive
  • Uruchamianie zadań
  • Różne źródła danych
  • Korzystanie w konsoli
  • Interfejsy użytkownika
  • Funkcje wbudowane
  • Funkcje użytkownika (UDF)
  • Wykorzystanie Apache Tez i optymalizacja zadań
  • Wstęp
  • PigLatin w szczegółach
  • PigLatin vs HiveQL
  • Uruchamianie zadań
  • Różne źródła danych
  • Funkcje wbudowane
  • Funkcje użytkownika (UDF)
  • Wstęp
    • Historia
    • Spark a Hadoop
    • Rozproszone kolekcje obiektów Resilient Distributed Datasets (RDDs)
    • Przetwarzanie w pamięci a z dysku
    • Architektura
    • Warianty uruchomienia klastra
      • Własny klaster Spark
      • Apache YARN
      • Apache Mesos
      • Gooogle Kubernetes
    • Konfiguracja i zarządzanie
  • Spark Core
    • Wstęp
    • Języki programowania (Scala vs Python vs Java vs R)
    • RDD vs Dataset vs DataFrame
    • Łączenie z klastrem
    • Rozproszone dane
    • Operacje RDD
      • Transformacje
      • Akcje
    • Współdzielone zmienne
    • Uruchomienie i testowanie
    • Dostrajanie zadań
      • Serializacja
      • Pamięć
  • Spark SQL
    • Wstęp
    • Spark SQL a Hive
    • Zasada działania
    • Dane i schematy
    • Zapytania
    • Integracja z Hive
    • Uruchomienie i testowanie
  • Spark Streaming i Structured Streaming
    • Wstęp
    • Zasada działania
    • Strumienie
      • Wejście
      • Transformacja
      • Wyjście
    • Uruchomienie i testowanie
  • Spark MLlib
    • Wstęp
    • Dostępne algorytmy
    • Transformery i estymatory
    • Dostępne transformacje
    • Budowa pipeline'u
    • Uczenie modeli
  • Apache Zeppelin
  • Jupyter
  • HUE

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.