Techniczne aspekty budowania wydajnych procesów ładowania hurtowni danych z wykorzystaniem Pentaho Data Integration

LICZBA DNI: 3 (24h)

KOD KURSU: PENTAHO/ETL

POZIOM SZKOLENIA:

# pentaho

Szkolenie na zamówienie

Szkolenie dostosowane do potrzeb Twojego zespołu. Dostępne WYŁĄCZNIE na zamówienie.

  • Dostosowany program
  • Indywidualna wycena
  • Dowolny termin

Interesuje Cię ta tematyka i szukasz szkolenia tylko dla siebie?

O szkoleniu

DLA KOGO?

Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać procesy ekstrakcji, transformacji i ładowania danych (ETL) z wykorzystaniem Pentaho Data Integration (PDI)

Szkolenie jest także kierowane do osób, które chcą uzupełnić swoją wiedzę o pojęcia związane z hurtowaniami danych (DWH) oraz ich realizacją z wykorzystaniem oprogramowania Pentaho Business Intelligence Suite

Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie

WYMAGANIA

Podstawowa znajomość baz danych

Podstawowa umiejętność programowania w języku Java

ZALETY

Program obejmuje zarówno ogólne wprowadzenie w tematykę ETL i DWH, jak i całościowe przedstawienie stosu produktowego Pentaho Data Integration

Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona

Kameralne grupy - szkolenia technologiczne prowadzimy w grupach liczących do 8 osób. Pozwala to na indywidualne podejście oraz aktywizację każdego uczestnika

Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań

Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką

Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how

Cele szkolenia

Zdobycie przekrojowej wiedzy dotyczącej projektowania, implementowania, monitorowania, uruchamiania, strojenia procesów ETL

Poznanie założeń hurtowni danych tj najpopularniejsze schematy relacyjnych hurtowni danych

Zdobycie umiejętności wybierania właściwego zestawu narzędzi i technik dla swoich projektów

Skupienie na stosie produktowym wybudowanym wokół Pentaho Business Intelligence a w szczególności na Pentaho Data Integration (PDI), poza ogólnym wprowadzeniem do pojęć teoretycznych

Program

  • Wprowadzenie do hurtowni danych
    • OLTP, OLAP, bazy danych, hurtownie danych, data marty
    • ROLAP, MOLAP, HOLAP
    • Normalizacja, agregacja, fakty, wymiary
    • SQL, MDX, XML/A
    • ETL
    • BigData, BigTable, NoSQL, nierelacyjne hurtownie danych
    • Pozostałe
  • Platforma Pentaho BI Suite
  • Ekstrakcja danych
  • Transformacja, oczyszczenie i uzupełnianie danych
  • Ładowanie
  • Wyznaczniki i ocena jakości danych
  • Staging
  • Hurtownie czasu rzeczywistego
  • Kwestie wydajnościowe w kontekście procesów ETL
  • Przegląd narzędzi ETL dostępnych na rynku
  • Architektura
    • Kettle
    • Spoon
    • Pan
    • Kitchen
    • Carte
  • Instalacja, uruchomienie, Look & Feel (perspektywy, zakładki etc.)
  • Zmienne
  • Hopy
  • Praca z repozytorium i plikami XML
  • Współdzielenie obiektów tj. połączenia z bazami danych, partycje, klastry
  • Czytanie i zapisywanie danych z różnych źródeł danych
    • Przegląd Inputs and Outputs
    • Table input/output w szczegółach
    • Text file input/output w szczegółach
    • XML file input/output w szczegółach
    • Deserialize from/Serialize to file w szczegółach
    • Pozostałe
  • Walidacja danych
    • Data Validator
    • XSD Validator
    • Pozostałe
  • Uzupełnianie danych
    • Database/Web service/Stream lookup
    • HTTP/REST client
    • Combinaton lookup/update
    • Dimension lookup/update
    • Pozostałe
  • Transformacja danych
    • Transform
    • Joins
    • Mapping
    • Flow
    • Filter
  • Optymalizacja
    • Bulk loading
    • Statistics
    • Przetwarzanie równoległe
    • Partycjonowanie
    • Klastrowanie
  • Wykorzystanie własnego kodu w transformatach
    • Java Expression, Java Class
    • Java Script
    • SQL Script
    • Regex
  • Utlilities
    • Syslog
    • Mail
    • SSH
    • Pozostałe
  • Monitorowanie wydajności i analiza logów
  • Wersjonowanie i praca grupowa
  • Zadania (kjb) a transformaty (ktr)
  • Tworzenie złożonych zadań
  • Wykorzystanie własnego kodu w zadaniach
    • Java Script
    • SQL Script
    • Shell
  • Przepływ pracy
    • Conditions
  • Praca z plikami
    • XML
    • File transfer
    • File encryption
    • File management
  • Monitorowanie wydajności i analiza logów
  • Wersjonowanie i praca grupowa
  • Uruchamianie zadań i transformat z plików i z repozytorium
  • Scheduling
  • Obsługa błędów
  • Przekierowanie wejścia/wyjścia
  • Zdalne uruchomienie transformat i zadań

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.