Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop

LICZBA DNI: 5 (40h)

KOD KURSU: HADOOP

POZIOM SZKOLENIA:

# hdfs

# map-reduce

# yarn

# spark

# sql

# hive

# pig

# kafka

# nosql

# habase

# oozie

# ambari

Najbliższy termin:

15 lutego 2021

PROWADZI:

Krzysztof Jankiewicz

4300 PLN netto + 23% VAT

  • stacjonarne
  • zdalne

STACJONARNE

W CENIE

  • 5 dni pracy z trenerem
  • Materiały szkoleniowe
  • Lunch
  • Certyfikat ukończenia szkolenia

ZDALNE

W CENIE

  • 5 dni pracy z trenerem na żywo online
  • Materiały szkoleniowe
  • Certyfikat ukończenia szkolenia

Czy wiesz, że możesz uzyskać nawet do 100% dofinansowania na szkolenie? Dowiedz się jak »

Oferta dla firm

Dostosuj zakres, czas i miejsce szkolenia do potrzeb Twojego zespołu. Uzyskaj indywidualną wycenę szkolenia dla grupy.

Weź udział w szkoleniu

Termin

Lokalizacja

Trener

Cena / os

15

lutego

Poznań,

Warszawa,

Zdalne,

4300 PLN netto
+ 23% VAT

21

czerwca

Kraków,

Wrocław,

Zdalne,

4300 PLN netto
+ 23% VAT

13

września

Gdańsk,

Warszawa,

Zdalne,

4300 PLN netto
+ 23% VAT

29

listopada

Poznań,

Warszawa,

Zdalne,

4300 PLN netto
+ 23% VAT

Termin

15

lutego

Lokalizacja

Poznań,

Warszawa,

Zdalne,

Trener

Cena / os

4300 PLNnetto
+ 23% VAT

Termin

21

czerwca

Lokalizacja

Kraków,

Wrocław,

Zdalne,

Trener

Cena / os

4300 PLNnetto
+ 23% VAT

Termin

13

września

Lokalizacja

Gdańsk,

Warszawa,

Zdalne,

Trener

Cena / os

4300 PLNnetto
+ 23% VAT

Termin

29

listopada

Lokalizacja

Poznań,

Warszawa,

Zdalne,

Trener

Cena / os

4300 PLNnetto
+ 23% VAT

Powiadom
o kolejnych terminach

O szkoleniu

DLA KOGO?

Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać systemy, w których wolumen przetwarzanych danych ma najwyższy priorytet i przekracza możliwości tradycyjnych architektur i systemów takich jak relacyjne bazy danych czy nawet hurtownie danych

Szkolenie jest także kierowane do osób, które chcą uzupełnić swoją wiedzę o pojęcia związane z Big Data, MapReduce, NoSQL oraz ich realizacją z wykorzystaniem oprogramowania Apache Hadoop & Family

WYMAGANIA

Podstawowa znajomość baz danych, podstawowa umiejętność programowania w języku Java

ZALETY

Program obejmuje zarówno ogólne wprowadzenie w tematykę Big Data jak i całościowe przedstawienie stosu produktowego wokół Apache Hadoop

Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona

Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie

Cele szkolenia

Zdobycie przekrojowej wiedzy dotyczącej takich pojęć jak algorytm MapReduce

Poznanie założeń Big Data, BigTable, rozproszonych systemów plikowych DFS, baz danych typu NoSQL

Zdobycie umiejętności wybierania właściwego zestawu narzędzi i technik dla swoich projektów

Skupienie na stosie produktowym wybudowanym wokół Apache Hadoop poza ogólnym wprowadzeniem do pojęć teoretycznych

Program

  • Definicja
  • Czym jest BigData?
    • Geneza i historia BigData
    • Strony w projektach BigData
  • Problemy BigData
  • Typy przetwarzania BigData
    • Wsadowe
    • Strumieniowe
  • Dystrybucje Big Data
  • Rozwiązania w chmurze
  • HDFS
    • Wprowadzenie do rozproszonego systemu plików
    • Zarządzanie za pomocą linii komend
    • Dostęp przez WWW
    • Korzystanie za pomocą API
    • Importowanie i eksportowanie danych
  • MapReduce
    • Wprowadzenie do paradygmatu MapReduce
    • Formaty wejścia i wyjścia, tworzenie własnych formatów
    • Wbudowane i własne typy danych
    • Partitioner i Combiner, kiedy i jak używać
    • Liczniki danych
    • Konfiguracja zadań za pomocą parametrów
    • Łańcuchy zadań MapReduce
    • Wykorzystanie kompresji dla zmniejszenia liczby danych
    • Optymalizacja zadań MapReduce
  • YARN
    • Wprowadzenie
    • Uruchamianie i zarządzanie zadaniami uruchomionymi w oparciu o architekturę YARN
  • Wstęp
  • PigLatin w szczegółach
  • Funkcje wbudowane
  • Funkcje użytkownika (UDF)
  • Wydajność
  • Testowanie i diagnostyka
  • Czym jest Hive
  • Architektura
  • Unikalne cechy Hive
  • Hive CLI
  • HiveQL
  • PigLatin vs HiveQL
  • Tabele w Hive
  • Wstęp
    • Wprowadzenie do baz danych NoSQL
    • Przyczyna powstania baz chmurowych
    • Spójność, Dostępność, Odporność na partycjonowanie
    • Twierdzenie CAP
    • Co różni bazy NoSQL od baz relacyjnych
    • Podstawowe parametry baz NoSQL
    • Klasyfikacja i przegląd baz NoSQL
    • Unikalne cechy HBase
  • Architektura HBase
    • Elementy składowe
      • Master Servers
      • Regiony i Region Servers
      • ZooKeeper
    • Zasada działania
  • Model danych
    • Model koncepcyjny a fizyczny
    • Przestrzeń nazw
    • Tabela
    • Wiersz
    • Kolumna
    • Wersja
    • Komórka
  • Wykorzystanie HBase
    • HBase API
    • Z poziomu platformy Apache Hadoop i zadań MapReduce
    • Za pomocą API zewnętrznych - REST API, Apache Thrift etc.
    • Testowanie aplikacji HBase
  • Zarządzanie
    • Optymalizacja i konfiguracja
    • Dobre praktyki korzystania z bazy
    • Diagnostyka
    • Snapshoty i backup danych
    • Podstawowe operacje administracyjne
    • Bezpieczeństwo
  • Apache HBase w porównaniu do innych baz danych NoSQL
  • Wstęp
    • Historia
    • Spark a Hadoop
    • Rozproszone kolekcje obiektów Resilient Distributed Datasets (RDDs)
    • Przetwarzanie w pamięci a z dysku
    • Architektura
    • Warianty uruchomienia klastra
      • Własny klaster Spark
      • Apache Mesos
      • Apache YARN
  • Spark Core
    • Wstęp
    • Java vs Spark vs Python
    • RDD vs Dataset vs DataFrame
    • Łączenie z klastrem
    • Rozproszone dane
    • Operacje RDD
    • Transformacje
    • Akcje
    • Współdzielone zmienne
    • Uruchomienie i testowanie
    • Dostrajanie zadań
    • Serializacja
    • Pamięć
  • Spark SQL
    • Wstęp
    • Spark SQL a Hive
    • Zasada działania
    • Dane i schematy
    • Zapytania
    • Integracja z Hive
    • Uruchomienie i testowanie
  • Spark Streaming
    • Wstęp
    • Zasada działania
    • Strumienie
    • Wejście
    • Transformacja
    • Wyjście
    • Uruchomienie i testowanie
  • Spark MLlib
    • Wstęp
    • Dostępne algorytmy
    • Transformery i estymatory
    • Dostępne transformacje
    • Budowa pipeline’u
    • Uczenie modeli
  • Wprowadzenie
    • Historia
    • Zastosowania
    • Terminologia
    • Porównanie z innymi narzędziami typu producent konsument
  • Korzystanie z API
    • Wysyłanie wiadomości
    • Odbieranie wiadomości
    • Serializacja
    • Konfiguracja producentów i konsumentów
    • Projektowanie rozwiązań w oparciu o Apache Kafka
    • Integracja z Hadoop i Spark
  • Zarządzanie
    • Instalacja
    • Konfiguracja
    • Replikacja
    • Kompresja danych
  • Akcje HDFS
  • Akcje MapReduce
  • Akcje Spark
  • Akcje Pig
  • Akcje Hive
  • Akcje Subworkflow
  • Apache Ambari

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.