Hadoop dla programistów
LICZBA DNI: 3 (24h)
KOD KURSU: HADOOP/P
Weź udział w szkoleniu
Termin
Lokalizacja
Cena / os
10
lutego
Warszawa,
Kraków,
Łódź,
Wrocław,
Gdańsk,
Poznań,
Zdalne,
Termin
10
lutego
Lokalizacja
Warszawa,
Kraków,
Łódź,
Wrocław,
Gdańsk,
Poznań,
Zdalne,
Cena / os
Powiadom
o kolejnych terminach
O szkoleniu
DLA KOGO?
Szkolenie jest adresowane do programistów, którzy chcą rozwijać systemy służące do składowania i/lub analizowania dużych zbiorów danych z wykorzystaniem platformy Apache Hadoop
Szkolenie jest dedykowane zarówno początkującym użytkownikom tej platformy jak i takim którzy mają już pierwsze kroki za sobą i chcą rozwinąć bądź ugruntować swoją wiedzę
WYMAGANIA
Podstawowa umiejętność programowania w języku Java
Podstawy baz danych i języka SQL
ZALETY
Program obejmuje zarówno ogólne wprowadzenie w tematykę Big Data jak i szczegółowe przedstawienie narzędzi Apache Hadoop na poziomie pozwalającym zacząć pracę w tym środowisku
Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest rozproszona
Program jest ciągle uaktualniany ze względu na szybki rozwój omawianych rozwiązań
Prezentowana wiedza jest wynikiem kilku lat praktyki trenerów w budowaniu systemów oparty o platformę Apache Hadoop
Cele szkolenia
Zdobycie wiedzy niezbędnej do rozpoczęcia pracy z systemem Apache Hadoop, w tym implementacja wydajnych algorytmów w oparciu o MapReduce oraz składowanie i importowanie dane do systemu
Przedstawienie wzorców projektowych oraz tak zwanych dobrych praktyk programistycznych
Nacisk zarówno na aspekty teoretyczne jak i przede wszystkim praktyczne
Program
Wstęp do BigData
- Definicja
- Czym jest BigData?
- Geneza i historia BigData
- Strony w projektach BigData
- Problemy BigData
- Typy przetwarzania BigData
- Wsadowe
- Strumieniowe
- Dystrybucje Big Data
- Rozwiązania w chmurze
Apache Hadoop
- HDFS
- Wprowadzenie do rozproszonego systemu plików
- Zarządzanie za pomocą linii komend
- Dostęp przez WWW
- Korzystanie za pomocą API
- Importowanie i eksportowanie danych
- MapReduce
- Wprowadzenie do paradygmatu MapReduce
- Formaty wejścia i wyjścia, tworzenie własnych formatów
- Wbudowane i własne typy danych
- Partitioner i Combiner, kiedy i jak używać
- Liczniki danych
- Konfiguracja zadań za pomocą parametrów
- Łańcuchy zadań MapReduce
- 8 Wykorzystanie kompresji dla zmniejszenia liczby danych
- Optymalizacja zadań MapReduce
- YARN
- Wprowadzenie
- Uruchamianie i zarządzanie zadaniami uruchomionymi w oparciu o architekturę YARN
Apache Spark
- Wstęp
- Historia
- Spark a Hadoop
- Rozproszone kolekcje obiektów Resilient Distributed Datasets (RDDs)
- Przetwarzanie w pamięci a z dysku
- Architektura
- Warianty uruchomienia klastra
- Własny klaster Spark
- Apache Mesos
- Apache YARN
- Spark Core
- Wstęp
- Java vs Spark vs Python
- RDD vs Dataset vs DataFrame
- Łączenie z klastrem
- Rozproszone dane
- Operacje RDD
- Transformacje
- Akcje
- Współdzielone zmienne
- Uruchomienie i testowanie
- Dostrajanie zadań
- Serializacja
- Pamięć
- Spark SQL
- Wstęp
- Spark SQL a Hive
- Zasada działania
- Dane i schematy
- Zapytania
- Integracja z Hive
- Uruchomienie i testowanie
- Apache Hive w Spark
- Czym jest Hive
- Architektura
- Unikalne cechy Hive
- HiveQL
- Tabele w Hive
- Wykorzystanie Apache Hive w Spark
- Spark Streaming
- Wstęp
- Zasada działania
- Strumienie
- Wejście
- Transformacja
- Wyjście
- Uruchomienie i testowanie
- Spark MLlib
- Wstęp
- Dostępne algorytmy
- Transformery i estymatory
- Dostępne transformacje
- Budowa pipeline’u
- Uczenie modeli
Apache Kafka
- Wprowadzenie
- Historia
- Zastosowania
- Terminologia
- Porównanie z innymi narzędziami typu producent konsument
- Korzystanie z API
- Wysyłanie wiadomości
- Odbieranie wiadomości
- Serializacja
- Konfiguracja producentów i konsumentów
- Projektowanie rozwiązań w oparciu o Apache Kafka
- Integracja z Hadoop i Spark
- Zarządzanie
- Instalacja
- Konfiguracja
- Replikacja
- Kompresja danych
Przegląd Apache Hadoop & Family
