Techniczne aspekty budowania wydajnych procesów ładowania hurtowni danych z wykorzystaniem Pentaho Data Integration
LICZBA DNI: 3 (24h)
KOD KURSU: PENTAHO/ETL
O szkoleniu
DLA KOGO?
Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać procesy ekstrakcji, transformacji i ładowania danych (ETL) z wykorzystaniem Pentaho Data Integration (PDI)
Szkolenie jest także kierowane do osób, które chcą uzupełnić swoją wiedzę o pojęcia związane z hurtowaniami danych (DWH) oraz ich realizacją z wykorzystaniem oprogramowania Pentaho Business Intelligence Suite
Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie
WYMAGANIA
Podstawowa znajomość baz danych
Podstawowa umiejętność programowania w języku Java
ZALETY
Program obejmuje zarówno ogólne wprowadzenie w tematykę ETL i DWH, jak i całościowe przedstawienie stosu produktowego Pentaho Data Integration
Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona
Cele szkolenia
Zdobycie przekrojowej wiedzy dotyczącej projektowania, implementowania, monitorowania, uruchamiania, strojenia procesów ETL
Poznanie założeń hurtowni danych tj najpopularniejsze schematy relacyjnych hurtowni danych
Zdobycie umiejętności wybierania właściwego zestawu narzędzi i technik dla swoich projektów
Skupienie na stosie produktowym wybudowanym wokół Pentaho Business Intelligence a w szczególności na Pentaho Data Integration (PDI), poza ogólnym wprowadzeniem do pojęć teoretycznych
Program
Wstęp
- Wprowadzenie do hurtowni danych
- OLTP, OLAP, bazy danych, hurtownie danych, data marty
- ROLAP, MOLAP, HOLAP
- Normalizacja, agregacja, fakty, wymiary
- SQL, MDX, XML/A
- ETL
- BigData, BigTable, NoSQL, nierelacyjne hurtownie danych
- Pozostałe
- Platforma Pentaho BI Suite
ETL
- Ekstrakcja danych
- Transformacja, oczyszczenie i uzupełnianie danych
- Ładowanie
- Wyznaczniki i ocena jakości danych
- Staging
- Hurtownie czasu rzeczywistego
- Kwestie wydajnościowe w kontekście procesów ETL
- Przegląd narzędzi ETL dostępnych na rynku
Pentaho Data Integration
- Architektura
- Kettle
- Spoon
- Pan
- Kitchen
- Carte
Praca ze Spoon
- Instalacja, uruchomienie, Look & Feel (perspektywy, zakładki etc.)
- Zmienne
- Hopy
- Praca z repozytorium i plikami XML
- Współdzielenie obiektów tj. połączenia z bazami danych, partycje, klastry
Praca ze Spoon i z transformacjami
- Czytanie i zapisywanie danych z różnych źródeł danych
- Przegląd Inputs and Outputs
- Table input/output w szczegółach
- Text file input/output w szczegółach
- XML file input/output w szczegółach
- Deserialize from/Serialize to file w szczegółach
- Pozostałe
- Walidacja danych
- Data Validator
- XSD Validator
- Pozostałe
- Uzupełnianie danych
- Database/Web service/Stream lookup
- HTTP/REST client
- Combinaton lookup/update
- Dimension lookup/update
- Pozostałe
- Transformacja danych
- Transform
- Joins
- Mapping
- Flow
- Filter
- Optymalizacja
- Bulk loading
- Statistics
- Przetwarzanie równoległe
- Partycjonowanie
- Klastrowanie
- Wykorzystanie własnego kodu w transformatach
- Java Expression, Java Class
- Java Script
- SQL Script
- Regex
- Utlilities
- Syslog
- Mail
- SSH
- Pozostałe
- Monitorowanie wydajności i analiza logów
- Wersjonowanie i praca grupowa
Praca ze Spoon i z zadaniami
- Zadania (kjb) a transformaty (ktr)
- Tworzenie złożonych zadań
- Wykorzystanie własnego kodu w zadaniach
- Java Script
- SQL Script
- Shell
- Przepływ pracy
- Conditions
- Praca z plikami
- XML
- File transfer
- File encryption
- File management
- Monitorowanie wydajności i analiza logów
- Wersjonowanie i praca grupowa
Praca z Kitchen i Pan
- Uruchamianie zadań i transformat z plików i z repozytorium
- Scheduling
- Obsługa błędów
- Przekierowanie wejścia/wyjścia
Praca z Cartle
- Zdalne uruchomienie transformat i zadań
Pentaho Data Integration Marketplace i Pentaho Data Integration Plug-Ins
