Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop

LICZBA DNI: 5 (40h)

KOD KURSU: HADOOP

# hdfs

# map-reduce

# yarn

# spark

# sql

# hive

# pig

# kafka

# nosql

# habase

# oozie

# ambari

O szkoleniu

DLA KOGO?

Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać systemy, w których wolumen przetwarzanych danych ma najwyższy priorytet i przekracza możliwości tradycyjnych architektur i systemów takich jak relacyjne bazy danych czy nawet hurtownie danych

Szkolenie jest także kierowane do osób, które chcą uzupełnić swoją wiedzę o pojęcia związane z Big Data, MapReduce, NoSQL oraz ich realizacją z wykorzystaniem oprogramowania Apache Hadoop & Family

WYMAGANIA

Podstawowa znajomość baz danych, podstawowa umiejętność programowania w języku Java

ZALETY

Program obejmuje zarówno ogólne wprowadzenie w tematykę Big Data jak i całościowe przedstawienie stosu produktowego wokół Apache Hadoop

Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona

Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie

Cele szkolenia

Zdobycie przekrojowej wiedzy dotyczącej takich pojęć jak algorytm MapReduce

Poznanie założeń Big Data, BigTable, rozproszonych systemów plikowych DFS, baz danych typu NoSQL

Zdobycie umiejętności wybierania właściwego zestawu narzędzi i technik dla swoich projektów

Skupienie na stosie produktowym wybudowanym wokół Apache Hadoop poza ogólnym wprowadzeniem do pojęć teoretycznych

Program

  • Definicja
  • Czym jest BigData?
    • Geneza i historia BigData
    • Strony w projektach BigData
  • Problemy BigData
  • Typy przetwarzania BigData
    • Wsadowe
    • Strumieniowe
  • Dystrybucje Big Data
  • Rozwiązania w chmurze
  • HDFS
    • Wprowadzenie do rozproszonego systemu plików
    • Zarządzanie za pomocą linii komend
    • Dostęp przez WWW
    • Korzystanie za pomocą API
    • Importowanie i eksportowanie danych
  • MapReduce
    • Wprowadzenie do paradygmatu MapReduce
    • Formaty wejścia i wyjścia, tworzenie własnych formatów
    • Wbudowane i własne typy danych
    • Partitioner i Combiner, kiedy i jak używać
    • Liczniki danych
    • Konfiguracja zadań za pomocą parametrów
    • Łańcuchy zadań MapReduce
    • Wykorzystanie kompresji dla zmniejszenia liczby danych
    • Optymalizacja zadań MapReduce
  • YARN
    • Wprowadzenie
    • Uruchamianie i zarządzanie zadaniami uruchomionymi w oparciu o architekturę YARN
  • Wstęp
  • PigLatin w szczegółach
  • Funkcje wbudowane
  • Funkcje użytkownika (UDF)
  • Wydajność
  • Testowanie i diagnostyka
  • Czym jest Hive
  • Architektura
  • Unikalne cechy Hive
  • HiveCLI
  • HiveQL
  • PigLatin vs HiveQL
  • Tabele w Hive
  • Wstęp
    • Wprowadzenie do baz danych NoSQL
    • Przyczyna powstania baz chmurowych
    • Spójność, Dostępność, Odporność na partycjonowanie
    • Twierdzenie CAP
    • Co różni bazy NoSQL od baz relacyjnych
    • Podstawowe parametry baz NoSQL
    • Klasyfikacja i przegląd baz NoSQL
    • Unikalne cechy HBase
  • Architektura HBase
    • Elementy składowe
      • Master Servers
      • Regiony i Region Servers
      • Zookeeper
    • Zasada działania
  • Model danych
    • Model koncepcyjny a fizyczny
    • Przestrzeń nazw
    • Tabela
    • Wiersz
    • Kolumna
    • Wersja
    • Komórka
  • Wykorzystanie HBase
    • HBase API
    • Z poziomu platformy Apache Hadoop i zadań MapReduce
    • Za pomocą API zewnętrznych - REST API, Apache Thrift etc
    • Testowanie aplikacji HBase
  • Zarządzanie
    • Optymalizacja i konfiguracja
    • Dobre praktyki korzystania z bazy
    • Diagnostyka
    • Snapshoty i backup danych
    • Podstawowe operacje administracyjne
    • Bezpieczeństwo
  • Apache HBase w porównaniu do innych baz danych NoSQL
  • Wstęp
    • Historia
    • Spark a Hadoop
    • Rozproszone kolekcje obiektów Resilient Distributed Datasets (RDDs)
    • Przetwarzanie w pamięci a z dysku
    • Architektura
    • Warianty uruchomienia klastra
      • Własny klaster Spark
      • Apache Mesos
      • Apache YARN
  • Spark Core
    • Wstęp
    • Java vs Spark vs Python
    • RDD vs Dataset vs DataFrame
    • Łączenie z klastrem
    • Rozproszone dane
    • Operacje RDD
    • Transformacje
    • Akcje
    • Współdzielone zmienne
    • Uruchomienie i testowanie
    • Dostrajanie zadań
    • Serializacja
    • Pamięć
  • Spark SQL
    • Wstęp
    • Spark SQL a Hive
    • Zasada działania
    • Dane i schematy
    • Zapytania
    • Integracja z Hive
    • Uruchomienie i testowanie
  • Spark Streaming
    • Wstęp
    • Zasada działania
    • Strumienie
    • Wejście
    • Transformacja
    • Wyjście
    • Uruchomienie i testowanie
  • Spark MLlib
    • Wstęp
    • Dostępne algorytmy
    • Transformery i estymatory
    • Dostępne transformacje
    • Budowa pipeline'u
    • Uczenie modeli
  • Wprowadzenie
    • Historia
    • Zastosowania
    • Terminologia
    • Porównanie z innymi narzędziami typu producent konsument
  • Korzystanie z API
    • Wysyłanie wiadomości
    • Odbieranie wiadomości
    • Serializacja
    • Konfiguracja producentów i konsumentów
    • Projektowanie rozwiązań w oparciu o Apache Kafka
    • Integracja z Hadoop i Spark
  • Zarządzanie
    • Instalacja
    • Konfiguracja
    • Replikacja
    • Kompresja danych
  • Akcje HDFS
  • Akcje MapReduce
  • Akcje Spark
  • Akcje Pig
  • Akcje Hive
  • Akcje Subworkflow
  • Apache Ambari

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.