Big Data i platforma Hadoop - wprowadzenie

LICZBA DNI: 3 (24h)

KOD KURSU: BIGDATA/BASE

POZIOM SZKOLENIA:

# hadoop

# hdfs

# yarn

# mapreduce

# hive

# pig

# hbase

Najbliższy termin:

23 czerwca 2021

2680 PLN netto + 23% VAT

  • stacjonarne
  • zdalne

STACJONARNE

W CENIE

  • 3 dni pracy z trenerem
  • Materiały szkoleniowe
  • Lunch
  • Certyfikat ukończenia szkolenia

ZDALNE

W CENIE

  • 3 dni pracy z trenerem na żywo online
  • Materiały szkoleniowe
  • Certyfikat ukończenia szkolenia

Czy wiesz, że możesz uzyskać nawet do 100% DOFINANSOWANIA na szkolenie? Napisz do nas »

Oferta dla firm

Dostosuj zakres, czas i miejsce szkolenia do potrzeb Twojego zespołu. Uzyskaj indywidualną wycenę szkolenia dla grupy.

Weź udział w szkoleniu

Termin

Lokalizacja

Cena / os

23

czerwca

Warszawa,

Zdalne,

2680 PLN netto
+ 23% VAT

Termin

23

czerwca

Lokalizacja

Warszawa,

Zdalne,

Cena / os

2680 PLNnetto
+ 23% VAT

Powiadom
o kolejnych terminach

O szkoleniu

DLA KOGO?

Analitycy i programiści, którzy chcą rozpocząć przygodę z analizą dużych zbiorów danych

WYMAGANIA

Podstawy SQL oraz hurtowni danych

Podstawowa umiejętność programowania, najlepiej w: Java, Python lub Scala

ZALETY

Praktyczne wprowadzenie do tematyki Big Data

Warsztatowy charakter zajęć, umożliwiający przyswojenie wiedzy, niezbędnej do przeprowadzania analizy dużych ilości danych

Cele szkolenia

Wprowadzenie do koncepcji Big Data

Zapoznanie z platformą Hadoop oraz dostępnymi narzędziami

Program

  • Czym jest Big Data?
    • Definicja
    • Geneza i historia
    • Problemy Big Data
    • Zastosowania i przypadki użycia
  • Typy przetwarzania w Big Data
    • Przetwarzanie wsadowe
    • Przetwarzanie strumieni danych
  • Dystrybucje Big Data
  • Rozwiązania w chmurze
  • Wprowadzenie do platformy Hadoop
    • Rynek Big Data na świecie
    • Rynek Big Data w Polsce
    • Hadoop a RDBMS
    • Historia Hadoop
    • Wprowadzenie do komponentów Hadoop
    • Podstawowe narzędzia
  • MapReduce
    • Podstawy przetwarzania MapReduce
    • Podstawowe pojęcia
    • Przepływ danych
    • Przykłady
    • MapReduce "Classic", czyli Java
    • Optymalizacja przetwarzania i elementy zaawansowane
    • Hadoop Streaming, czyli Python, PHP, i...
    • Czy to takie "group by"?
    • Warsztaty MapReduce
  • HDFS
    • Wprowadzenie do rozproszonego systemu plików
    • Podstawowe cechy i pojęcia
    • Architektura
    • Zarządzanie za pomocą linii komend
    • Dostęp przez WWW
    • Korzystanie za pomocą API
    • Importowanie i eksportowanie danych
    • Formaty plików popularne w Big Data
    • Wykorzystanie kompresji danych
  • YARN
    • Wprowadzenie
    • Zasada działania i podstawowa konfiguracja
    • Sposoby szeregowania zadań
    • Podstawowe operacje
    • Uruchamienie zadań MapReduce
    • Zarządzanie zadaniami uruchomionymi w oparciu o architekturę YARN
    • Warsztaty HDFS i YARN
  • Wprowadzenie
  • Architektura
  • PigLatin w szczegółach
  • Uruchamianie zadań
  • Różne źródła danych
  • Funkcje wbudowane
  • Biblioteki, makra
  • Funkcje użytkownika (UDF)
  • Warsztaty Pig
  • Czym jest Hive
  • Model danych w Hive
  • Formaty przechowywania danych
    • Format wierszowy vs. kolumnowy
    • ORCFile
  • HiveSQL
    • Źródła danych
    • Selekcja, projekcja, łączenie, grupowanie
    • DML
    • Rozszerzenia grupowania i funkcje analityczne
  • Uruchamianie zadań
  • Różne źródła danych
  • Korzystanie w konsoli
  • Interfejsy użytkownika
  • Funkcje wbudowane
  • Funkcje użytkownika (UDF)
  • Wykorzystanie Apache Tez i optymalizacja zadań
  • Warsztaty Hive
  • Historia
  • Podstawowe cechy
  • Przyczyny sukcesu
  • Problem spójności
    • Własności BASE vs. ACID
    • Własności CAP
    • Twierdzenie CAP
  • Przegląd modeli NoSQL
  • Powiązane technologie
  • Wprowadzenie
  • Case Study
  • Organizacja danych
  • Widoki danych: koncepcyjny i fizyczny
  • Architektura
  • Jak to wszystko działa?
  • Interfejsy
    • HBase shell
    • Phoenix - JDBC
  • Warsztaty HBase
  • Warsztaty HBase z zewnętrznych narzędzi: Pig i Hive

Autor szkolenia:

Krzysztof Jankiewicz

Starszy wykładowca na Politechnice Poznańskiej gdzie w roku 2007 obronił doktorat z Zarządzania współbieżnym dostępem w bazach danych XML. Prowadzi zajęcia z tematyki bardzo ogólnie rozumianego przetwarzania danych oraz aplikacji mobilnych. W tych samym zakresie udziela się na kilku innych uczelniach wyższych w Wielkopolsce. Od samego początku pracy zawodowej stara się jako konsultant znajdować czas na kontakty przemysłem, gdzie swoją wiedzę może konfrontować i rozwijać w oparciu o rzeczywiste przypadki. Począwszy od 2001 roku współpracuje z firmami szkoleniowymi regularnie prowadząc szkolenia i warsztaty. Regularnie tworzy i aktualizuje autorskie szkolenia.

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.