Hadoop dla programistów

LICZBA DNI: 3 (24h)

KOD KURSU: HADOOP/P

Powiadom
o kolejnych terminach

# hive

# pig

# map-reduce

# hbase

O szkoleniu

DLA KOGO?

Szkolenie jest adresowane do programistów, którzy chcą rozwijać systemy służące do składowania i/lub analizowania dużych zbiorów danych z wykorzystaniem platformy Apache Hadoop

Szkolenie jest dedykowane zarówno początkującym użytkownikom tej platformy jak i takim którzy mają już pierwsze kroki za sobą i chcą rozwinąć bądź ugruntować swoją wiedzę

WYMAGANIA

Podstawowa umiejętność programowania w języku Java

Podstawy baz danych i języka SQL

ZALETY

Program obejmuje zarówno ogólne wprowadzenie w tematykę Big Data jak i szczegółowe przedstawienie narzędzi Apache Hadoop na poziomie pozwalającym zacząć pracę w tym środowisku

Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest rozproszona

Program jest ciągle uaktualniany ze względu na szybki rozwój omawianych rozwiązań

Prezentowana wiedza jest wynikiem kilku lat praktyki trenerów w budowaniu systemów oparty o platformę Apache Hadoop

Cele szkolenia

Zdobycie wiedzy niezbędnej do rozpoczęcia pracy z systemem Apache Hadoop, w tym implementacja wydajnych algorytmów w oparciu o MapReduce oraz składowanie i importowanie dane do systemu

Przedstawienie wzorców projektowych oraz tak zwanych dobrych praktyk programistycznych

Nacisk zarówno na aspekty teoretyczne jak i przede wszystkim praktyczne

Program

  • Definicja
  • Czym jest BigData?
    • Geneza i historia BigData
    • Strony w projektach BigData
  • Problemy BigData
  • Typy przetwarzania BigData
    • Wsadowe
    • Strumieniowe
  • Dystrybucje Big Data
  • Rozwiązania w chmurze
  • HDFS
    • Wprowadzenie do rozproszonego systemu plików
    • Zarządzanie za pomocą linii komend
    • Dostęp przez WWW
    • Korzystanie za pomocą API
    • Importowanie i eksportowanie danych
  • MapReduce
    • Wprowadzenie do paradygmatu MapReduce
    • Formaty wejścia i wyjścia, tworzenie własnych formatów
    • Wbudowane i własne typy danych
    • Partitioner i Combiner, kiedy i jak używać
    • Liczniki danych
    • Konfiguracja zadań za pomocą parametrów
    • Łańcuchy zadań MapReduce
    • 8 Wykorzystanie kompresji dla zmniejszenia liczby danych
    • Optymalizacja zadań MapReduce
  • YARN
    • Wprowadzenie
    • Uruchamianie i zarządzanie zadaniami uruchomionymi w oparciu o architekturę YARN
  • Wstęp
    • Historia
    • Spark a Hadoop
    • Rozproszone kolekcje obiektów Resilient Distributed Datasets (RDDs)
    • Przetwarzanie w pamięci a z dysku
    • Architektura
    • Warianty uruchomienia klastra
      • Własny klaster Spark
      • Apache Mesos
      • Apache YARN
  • Spark Core
    • Wstęp
    • Java vs Spark vs Python
    • RDD vs Dataset vs DataFrame
    • Łączenie z klastrem
    • Rozproszone dane
    • Operacje RDD
    • Transformacje
    • Akcje
    • Współdzielone zmienne
    • Uruchomienie i testowanie
    • Dostrajanie zadań
    • Serializacja
    • Pamięć
  • Spark SQL
    • Wstęp
    • Spark SQL a Hive
    • Zasada działania
    • Dane i schematy
    • Zapytania
    • Integracja z Hive
    • Uruchomienie i testowanie
  • Apache Hive w Spark
    • Czym jest Hive
    • Architektura
    • Unikalne cechy Hive
    • HiveQL
    • Tabele w Hive
      • 1.Wykorzystanie apache Hive w Spark
  • Spark Streaming
    • Wstęp
    • Zasada działania
    • Strumienie
    • Wejście
    • Transformacja
    • Wyjście
    • Uruchomienie i testowanie
  • Spark MLlib
    • Wstęp
    • Dostępne algorytmy
    • 8 Transformery i estymatory
    • Dostępne transformacje
    • Budowa pipeline’u
    • Uczenie modeli
  • Wprowadzenie
    • Historia
    • Zastosowania
    • Terminologia
    • Porównanie z innymi narzędziami typu producent konsument
  • Korzystanie z API
    • Wysyłanie wiadomości
    • Odbieranie wiadomości
    • Serializacja
    • Konfiguracja producentów i konsumentów
    • Projektowanie rozwiązań w oparciu o Apache Kafka
    • Integracja z Hadoop i Spark
  • Zarządzanie
    • Instalacja
    • Konfiguracja
    • Replikacja
    • Kompresja danych

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.