Big Data i platforma Hadoop - wprowadzenie

LICZBA DNI: 3 (24h)

KOD KURSU: BIGDATA/BASE

POZIOM SZKOLENIA:

# hadoop

# hdfs

# yarn

# mapreduce

# hive

# pig

# hbase

Szkolenie na zamówienie

Szkolenie dostosowane do potrzeb Twojego zespołu. Dostępne WYŁĄCZNIE na zamówienie.

  • Dostosowany program
  • Indywidualna wycena
  • Dowolny termin

Interesuje Cię ta tematyka i szukasz szkolenia tylko dla siebie?

O szkoleniu

DLA KOGO?

Analitycy i programiści, którzy chcą rozpocząć przygodę z analizą dużych zbiorów danych

WYMAGANIA

Podstawy SQL oraz hurtowni danych

Podstawowa umiejętność programowania, najlepiej w: Java, Python lub Scala

ZALETY

Praktyczne wprowadzenie do tematyki Big Data

Warsztatowy charakter zajęć, umożliwiający przyswojenie wiedzy, niezbędnej do przeprowadzania analizy dużych ilości danych

Kameralne grupy - szkolenia technologiczne prowadzimy w grupach liczących do 8 osób. Pozwala to na indywidualne podejście oraz aktywizację każdego uczestnika

Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań

Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką

Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how

Cele szkolenia

Wprowadzenie do koncepcji Big Data

Zapoznanie z platformą Hadoop oraz dostępnymi narzędziami

Program

  • Czym jest Big Data?
    • Definicja
    • Geneza i historia
    • Problemy Big Data
    • Zastosowania i przypadki użycia
  • Typy przetwarzania w Big Data
    • Przetwarzanie wsadowe
    • Przetwarzanie strumieni danych
  • Dystrybucje Big Data
  • Rozwiązania w chmurze
  • Wprowadzenie do platformy Hadoop
    • Rynek Big Data na świecie
    • Rynek Big Data w Polsce
    • Hadoop a RDBMS
    • Historia Hadoop
    • Wprowadzenie do komponentów Hadoop
    • Podstawowe narzędzia
  • MapReduce
    • Podstawy przetwarzania MapReduce
    • Podstawowe pojęcia
    • Przepływ danych
    • Przykłady
    • MapReduce "Classic", czyli Java
    • Optymalizacja przetwarzania i elementy zaawansowane
    • Hadoop Streaming, czyli Python, PHP, i...
    • Czy to takie "group by"?
    • Warsztaty MapReduce
  • HDFS
    • Wprowadzenie do rozproszonego systemu plików
    • Podstawowe cechy i pojęcia
    • Architektura
    • Zarządzanie za pomocą linii komend
    • Dostęp przez WWW
    • Korzystanie za pomocą API
    • Importowanie i eksportowanie danych
    • Formaty plików popularne w Big Data
    • Wykorzystanie kompresji danych
  • YARN
    • Wprowadzenie
    • Zasada działania i podstawowa konfiguracja
    • Sposoby szeregowania zadań
    • Podstawowe operacje
    • Uruchamienie zadań MapReduce
    • Zarządzanie zadaniami uruchomionymi w oparciu o architekturę YARN
    • Warsztaty HDFS i YARN
  • Wprowadzenie
  • Architektura
  • PigLatin w szczegółach
  • Uruchamianie zadań
  • Różne źródła danych
  • Funkcje wbudowane
  • Biblioteki, makra
  • Funkcje użytkownika (UDF)
  • Warsztaty Pig
  • Czym jest Hive
  • Model danych w Hive
  • Formaty przechowywania danych
    • Format wierszowy vs. kolumnowy
    • ORCFile
  • HiveSQL
    • Źródła danych
    • Selekcja, projekcja, łączenie, grupowanie
    • DML
    • Rozszerzenia grupowania i funkcje analityczne
  • Uruchamianie zadań
  • Różne źródła danych
  • Korzystanie w konsoli
  • Interfejsy użytkownika
  • Funkcje wbudowane
  • Funkcje użytkownika (UDF)
  • Wykorzystanie Apache Tez i optymalizacja zadań
  • Warsztaty Hive
  • Historia
  • Podstawowe cechy
  • Przyczyny sukcesu
  • Problem spójności
    • Własności BASE vs. ACID
    • Własności CAP
    • Twierdzenie CAP
  • Przegląd modeli NoSQL
  • Powiązane technologie
  • Wprowadzenie
  • Case Study
  • Organizacja danych
  • Widoki danych: koncepcyjny i fizyczny
  • Architektura
  • Jak to wszystko działa?
  • Interfejsy
    • HBase shell
    • Phoenix - JDBC
  • Warsztaty HBase
  • Warsztaty HBase z zewnętrznych narzędzi: Pig i Hive

Autor szkolenia:

Krzysztof Jankiewicz

Starszy wykładowca na Politechnice Poznańskiej gdzie w roku 2007 obronił doktorat z Zarządzania współbieżnym dostępem w bazach danych XML. Prowadzi zajęcia z tematyki bardzo ogólnie rozumianego przetwarzania danych oraz aplikacji mobilnych. W tych samym zakresie udziela się na kilku innych uczelniach wyższych w Wielkopolsce. Od samego początku pracy zawodowej stara się jako konsultant znajdować czas na kontakty przemysłem, gdzie swoją wiedzę może konfrontować i rozwijać w oparciu o rzeczywiste przypadki. Począwszy od 2001 roku współpracuje z firmami szkoleniowymi regularnie prowadząc szkolenia i warsztaty. Regularnie tworzy i aktualizuje autorskie szkolenia.

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.