Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop
LICZBA DNI: 5 (40h)
KOD KURSU: HADOOP
Weź udział w szkoleniu
Termin
Lokalizacja
Trener
Cena / os
15
lutego
Poznań,
Warszawa,
Zdalne,
21
czerwca
Kraków,
Wrocław,
Zdalne,
13
września
Gdańsk,
Warszawa,
Zdalne,
29
listopada
Poznań,
Warszawa,
Zdalne,
Termin
15
lutego
Lokalizacja
Poznań,
Warszawa,
Zdalne,
Trener
Cena / os
Termin
21
czerwca
Lokalizacja
Kraków,
Wrocław,
Zdalne,
Trener
Cena / os
Termin
13
września
Lokalizacja
Gdańsk,
Warszawa,
Zdalne,
Trener
Cena / os
Termin
29
listopada
Lokalizacja
Poznań,
Warszawa,
Zdalne,
Trener
Cena / os
Powiadom
o kolejnych terminach
O szkoleniu
DLA KOGO?
Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać systemy, w których wolumen przetwarzanych danych ma najwyższy priorytet i przekracza możliwości tradycyjnych architektur i systemów takich jak relacyjne bazy danych czy nawet hurtownie danych
Szkolenie jest także kierowane do osób, które chcą uzupełnić swoją wiedzę o pojęcia związane z Big Data, MapReduce, NoSQL oraz ich realizacją z wykorzystaniem oprogramowania Apache Hadoop & Family
WYMAGANIA
Podstawowa znajomość baz danych, podstawowa umiejętność programowania w języku Java
ZALETY
Program obejmuje zarówno ogólne wprowadzenie w tematykę Big Data jak i całościowe przedstawienie stosu produktowego wokół Apache Hadoop
Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona
Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie
Cele szkolenia
Zdobycie przekrojowej wiedzy dotyczącej takich pojęć jak algorytm MapReduce
Poznanie założeń Big Data, BigTable, rozproszonych systemów plikowych DFS, baz danych typu NoSQL
Zdobycie umiejętności wybierania właściwego zestawu narzędzi i technik dla swoich projektów
Skupienie na stosie produktowym wybudowanym wokół Apache Hadoop poza ogólnym wprowadzeniem do pojęć teoretycznych
Program
Wstęp do BigData
- Definicja
- Czym jest BigData?
- Geneza i historia BigData
- Strony w projektach BigData
- Problemy BigData
- Typy przetwarzania BigData
- Wsadowe
- Strumieniowe
- Dystrybucje Big Data
- Rozwiązania w chmurze
Apache Hadoop
- HDFS
- Wprowadzenie do rozproszonego systemu plików
- Zarządzanie za pomocą linii komend
- Dostęp przez WWW
- Korzystanie za pomocą API
- Importowanie i eksportowanie danych
- MapReduce
- Wprowadzenie do paradygmatu MapReduce
- Formaty wejścia i wyjścia, tworzenie własnych formatów
- Wbudowane i własne typy danych
- Partitioner i Combiner, kiedy i jak używać
- Liczniki danych
- Konfiguracja zadań za pomocą parametrów
- Łańcuchy zadań MapReduce
- Wykorzystanie kompresji dla zmniejszenia liczby danych
- Optymalizacja zadań MapReduce
- YARN
- Wprowadzenie
- Uruchamianie i zarządzanie zadaniami uruchomionymi w oparciu o architekturę YARN
Apache Pig
- Wstęp
- PigLatin w szczegółach
- Funkcje wbudowane
- Funkcje użytkownika (UDF)
- Wydajność
- Testowanie i diagnostyka
Apache Hive
- Czym jest Hive
- Architektura
- Unikalne cechy Hive
- Hive CLI
- HiveQL
- PigLatin vs HiveQL
- Tabele w Hive
Apache HBase
- Wstęp
- Wprowadzenie do baz danych NoSQL
- Przyczyna powstania baz chmurowych
- Spójność, Dostępność, Odporność na partycjonowanie
- Twierdzenie CAP
- Co różni bazy NoSQL od baz relacyjnych
- Podstawowe parametry baz NoSQL
- Klasyfikacja i przegląd baz NoSQL
- Unikalne cechy HBase
- Architektura HBase
- Elementy składowe
- Master Servers
- Regiony i Region Servers
- ZooKeeper
- Zasada działania
- Model danych
- Model koncepcyjny a fizyczny
- Przestrzeń nazw
- Tabela
- Wiersz
- Kolumna
- Wersja
- Komórka
- Wykorzystanie HBase
- HBase API
- Z poziomu platformy Apache Hadoop i zadań MapReduce
- Za pomocą API zewnętrznych - REST API, Apache Thrift etc.
- Testowanie aplikacji HBase
- Zarządzanie
- Optymalizacja i konfiguracja
- Dobre praktyki korzystania z bazy
- Diagnostyka
- Snapshoty i backup danych
- Podstawowe operacje administracyjne
- Bezpieczeństwo
- Apache HBase w porównaniu do innych baz danych NoSQL
Apache Spark
- Wstęp
- Historia
- Spark a Hadoop
- Rozproszone kolekcje obiektów Resilient Distributed Datasets (RDDs)
- Przetwarzanie w pamięci a z dysku
- Architektura
- Warianty uruchomienia klastra
- Własny klaster Spark
- Apache Mesos
- Apache YARN
- Spark Core
- Wstęp
- Java vs Spark vs Python
- RDD vs Dataset vs DataFrame
- Łączenie z klastrem
- Rozproszone dane
- Operacje RDD
- Transformacje
- Akcje
- Współdzielone zmienne
- Uruchomienie i testowanie
- Dostrajanie zadań
- Serializacja
- Pamięć
- Spark SQL
- Wstęp
- Spark SQL a Hive
- Zasada działania
- Dane i schematy
- Zapytania
- Integracja z Hive
- Uruchomienie i testowanie
- Spark Streaming
- Wstęp
- Zasada działania
- Strumienie
- Wejście
- Transformacja
- Wyjście
- Uruchomienie i testowanie
- Spark MLlib
- Wstęp
- Dostępne algorytmy
- Transformery i estymatory
- Dostępne transformacje
- Budowa pipeline’u
- Uczenie modeli
Apache Kafka
- Wprowadzenie
- Historia
- Zastosowania
- Terminologia
- Porównanie z innymi narzędziami typu producent konsument
- Korzystanie z API
- Wysyłanie wiadomości
- Odbieranie wiadomości
- Serializacja
- Konfiguracja producentów i konsumentów
- Projektowanie rozwiązań w oparciu o Apache Kafka
- Integracja z Hadoop i Spark
- Zarządzanie
- Instalacja
- Konfiguracja
- Replikacja
- Kompresja danych
Apache Oozie
- Akcje HDFS
- Akcje MapReduce
- Akcje Spark
- Akcje Pig
- Akcje Hive
- Akcje Subworkflow
Zarządzanie i monitoring infrastrukturą Apache Hadoop & Family
- Apache Ambari
Przegląd Apache Hadoop & Family
