Techniczne aspekty budowania wydajnych procesów ładowania hurtowni danych z wykorzystaniem Pentaho Data Integration

LICZBA DNI: 3 (24h)

KOD KURSU: PENTAHO/ETL

Powiadom
o kolejnych terminach

# pentaho

Szkolenie na zamówienie

Szkolenie dostosowane do potrzeb Twojego zespołu. Dostępne wyłącznie na zamówienie.

  • Dostosowany program
  • Indywidualna wycena
  • Dowolny termin

O szkoleniu

DLA KOGO?

Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać procesy ekstrakcji, transformacji i ładowania danych (ETL) z wykorzystaniem Pentaho Data Integration (PDI)

Szkolenie jest także kierowane do osób, które chcą uzupełnić swoją wiedzę o pojęcia związane z hurtowaniami danych (DWH) oraz ich realizacją z wykorzystaniem oprogramowania Pentaho Business Intelligence Suite

Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie

WYMAGANIA

Podstawowa znajomość baz danych

Podstawowa umiejętność programowania w języku Java

ZALETY

Program obejmuje zarówno ogólne wprowadzenie w tematykę ETL i DWH, jak i całościowe przedstawienie stosu produktowego Pentaho Data Integration

Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona

Cele szkolenia

Zdobycie przekrojowej wiedzy dotyczącej projektowania, implementowania, monitorowania, uruchamiania, strojenia procesów ETL

Poznanie założeń hurtowni danych tj najpopularniejsze schematy relacyjnych hurtowni danych

Zdobycie umiejętności wybierania właściwego zestawu narzędzi i technik dla swoich projektów

Skupienie na stosie produktowym wybudowanym wokół Pentaho Business Intelligence a w szczególności na Pentaho Data Integration (PDI), poza ogólnym wprowadzeniem do pojęć teoretycznych

Program

  • Wprowadzenie do hurtowni danych:
    • OLTP, OLAP, bazy danych, hurtownie danych, data marty
    • ROLAP, MOLAP, HOLAP
    • Normalizacja, agregacja, fakty, wymiary
    • SQL, MDX, XML/A
    • ETL
    • BigData, BigTable, NoSQL, nierelacyjne hurtownie danych
    • Pozostałe
  • Platforma Pentaho BI Suite
  • Ekstrakcja danych
  • Transformacja, oczyszczenie i uzupełnianie danych
  • Ładowanie
  • Wyznaczniki i ocena jakości danych
  • Stage ’ ing
  • Hurtownie czasu rzeczywistego
  • Kwestie wydajnościowe w kontekście procesów ETL
  • Przegląd narzędzi ETL dostępnych na rynku
  • Architektura
    • Kettle
    • Spoon
    • Pan
    • Kitchen
    • Carte
  • Instalacja, uruchomienie, Look & Feel (perspektywy, zakładki etc.)
  • Zmienne
  • Hop ’ y
  • Praca z repozytorium i plikami XML
  • Współdzielenie obiektów tj. połączenia z bazami danych, partycje, klastry
  • Czytanie i zapisywanie danych z różnych źródeł danych
    • Przegląd Inputs and Outputs
    • Table input/output w szczegółach
    • Text file input/output w szczegółach
    • XML file input/output w szczegółach
    • Deserialize from/Serialize to file w szczegółach
    • Pozostałe
  • Walidacja danych
    • Data Validator
    • XSD Validator
    • Pozostałe
  • Uzupełnianie danych
    • Database/Webservice/Stream lookup
    • HTTP/REST client
    • Combinaton lookup/update
    • Dimension lookup/update
    • Pozostałe
  • Transformacja danych
    • Transform
    • Joins
    • Mapping
    • Flow
    • Filter
  • Optymalizacja
    • Bulk loading
    • Statistics
    • Przetwarzanie równoległe
    • Partycjonowanie
    • Klastrowanie
  • Wykorzystanie własnego kodu w transformatach
    • Java Expression, Java Class
    • Java Script
    • SQL Script
    • Regex
  • Utlilities
    • Syslog
    • Mail
    • SSH
    • Pozostałe
  • Monitorowanie wydajności i analiza logów
  • Wersjonowanie i praca grupowa
  • Zadania (kjb) a transformaty (ktr)
  • Tworzenie złożonych zadań
  • Wykorzystanie własnego kodu w zadaniach
    • Java Script
    • SQL Script
    • Shell
  • Przepływ pracy
    • Conditions
  • Praca z plikami
    • XML
    • File transfer
    • File encryption
    • File managment
  • Monitorowanie wydajności i analiza logów
  • Wersjonowanie i praca grupowa
  • Uruchamianie zadań i transformat z plików i z repozytorium
  • Scheduling
  • Obsługa błędów
  • Przekierowanie wejścia/wyjścia
  • Zdalne uruchomienie transformat i zadań

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.