Projektowanie hurtowni danych z wykorzystaniem pakietu Pentaho Business Intelligence

LICZBA DNI: 5 (40h)

KOD KURSU: PENTAHO/DW

Powiadom
o kolejnych terminach

# pentaho

Szkolenie na zamówienie

Szkolenie dostosowane do potrzeb Twojego zespołu. Dostępne wyłącznie na zamówienie.

  • Dostosowany program
  • Indywidualna wycena
  • Dowolny termin

O szkoleniu

DLA KOGO?

Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać hurtownie danych (DWH) z wykorzystaniem Pentaho Business Intelligence Suite

WYMAGANIA

Od uczestników wymagana jest podstawowa znajomość baz danych, podstawowa umiejętność programowania w języku Java

ZALETY

Program obejmuje zarówno ogólne wprowadzenie w tematykę ETL, DWH, OLAP, jak i całościowe przedstawienie stosu produktowego Pentaho Business Intelligence

Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona

Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie

Cele szkolenia

Zdobycie przekrojowej wiedzy dotyczącej projektowania, implementowania, monitorowania, uruchamiania, strojenia procesów i elementów hurtowni danych,

Poznanie ogólnych założeń hurtowni danych tj. najpopularniejsze schematy relacyjnych hurtowni danych

Wybór właściwego zestawu narzędzi i technik dla swoich projektów

Skupienie się na stosie produktowym wybudowanym wokół Pentaho Business Intelligence Suite

Program

  • OLTP, OLAP, bazy danych, hurtownie danych, data marty
  • ROLAP, MOLAP, HOLAP
  • Normalizacja, agregacja, fakty, wymiary
  • SQL, MDX, XML/A
  • ETL i integracja offline
  • BigData, BigTable, NoSQL, nierelacyjne hurtownie danych
  • Architektura i składowe Pentaho BI Suite
  • Business intelligence a hurtownie danych
  • Tabele faktów i tabele wymiarów
  • Indeksy, widoki, widoki zmaterializowane
  • ROLAP w szczegółach: schemat gwiazdy, płatka śniegu, konstelacji faktów
  • Testy wydajności ROLAP: The TPC Benchmark H
  • ROLAP vs MOLAP
  • Metody optymalizacji szczególnie przydatne w przypadku hurtowni danych
  • Wykorzystanie Pentaho Aggregate Designer do optymalizacji hurtowni danych
  • Znaczenie wymiaru czasu w hurtowniach danych
  • Dziedzinowe hurtownie danych a dedykowane struktury danych np.: GeoSpatial DWH
  • ETL
    • Ekstrakcja danych
    • Transformacja, oczyszczenie i uzupełnianie danych
    • Ładowanie
    • Wyznaczniki i ocena jakości danych
    • Stage’ing
    • Hurtownie czasu rzeczywistego
    • Kwestie wydajnościowe w kontekście procesów ETL
    • Przegląd narzędzi ETL dostępnych na rynku
  • Pentaho Data Integration
    • Architektura
    • Składowe
  • Praca ze Spoon
    • Instalacja, uruchomienie, Look & Feel (perspektywy, zakładki etc.)
    • Zmienne
    • Hop’y
    • Praca z repozytorium i plikami XML
    • Współdzielenie obiektów tj. połączenia z bazami danych, partycje, klastry
    • Czytanie i zapisywanie danych z różnych źródeł danych
    • Transformacje
      • Walidacja danych
      • Uzupełnianie danych
      • Transformacja danych
      • Optymalizacja
      • Wykorzystanie własnego kodu w transformatach
      • Utlilities
      • Monitorowanie wydajności i analiza logów
      • Wersjonowanie i praca grupowa
    • Zadania
      • Zadania (kjb) a transformacje (ktr)
      • Tworzenie złożonych zadań
      • Wykorzystanie własnego kodu w zadaniach
      • Przepływ pracy
      • Praca z plikami
      • Monitorowanie wydajności i analiza logów
      • Wersjonowanie i praca grupowa
  • Praca z Kitchen i Pan
    • Uruchamianie zadań i transformat z plików i z repozytorium
    • Scheduling
    • Obsługa błędów
    • Przekierowanie wejścia/wyjścia
  • Praca z Cartle
  • Definiowanie kostek OLAP na hurtowni danych
  • Pentaho Schema Workbench (PSW)
  • Model logiczny i model fizyczny
    • kostki
    • miary
    • wymiary, hierarchie, levele
    • tabele
    • relacje
    • agregaty
    • wyrażenia
  • MDX w szczegółach
  • peracje Slice, Dice, Drill na kostkach
  • Optymalizacja na potrzeby OLAP
  • Definiowanie raportów za pomocą PRD
    • Źródła danych
    • Modelowanie zapytań
    • Wydobywanie danych
    • Zawężanie i filtrowanie wyników
    • Wizualizacja danych na raporcie
  • Osadzanie raportów
  • Eksport do PDF, HTML, RTF etc
  • Report Wizard
  • Pentaho BI Platform/Portal (BA Platform)
  • Pentaho Interactive Reporting (PIR)
  • Pentaho Metadata Editor (PME)
  • Pentaho Analyzer (PAZ)
  • Definiowanie dashboardów za pomocą PDD
    • Praca z wykresami - simple bar, line, area, pie, dial charts
    • Praca z tabelami
    • Praca z raportami
    • Parametry
    • Szablony
  • Osadzanie dashboardów
  • Architektura
  • Praca z Explorer’em
  • Preprocessing i praca z danymi
    • Format danych ARFF
    • Przygotowanie danych do analizy
    • Odpowiedni dobór atrybutów np.: korelacja atrybutów a wyniki eksploracji danych etc
    • Filtrowanie i rodzaje filtrów w WEKA np.: filtrowanie, dyskretyzacja, normalizacja etc
    • Wizualizacja
    • Przetwarzanie dużych zbiorów danych, ograniczenia JVM 32bit
    • Przetwarzanie strumieni oraz uczenie przyrostowe
  • Eksploracja danych
    • Klasyfikacja
    • Grupowanie
    • Odkrywanie reguł asocjacyjnych
    • Ograniczanie i transformacja przestrzeni atrybutów
    • Pozostałe algorytmy i techniki eksploracji danych dostępne w WEKA
  • Rozbudowa możliwości WEKA
  • Wykorzystanie możliwości w połączeniu z innymi produktami Pentaho

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.