Techniczne aspekty eksploracji danych zgromadzonych w hurtowni danych z wykorzystaniem Pentaho Data Mining

LICZBA DNI: 4 (32h)

KOD KURSU: WEKA

# pentaho

Szkolenie na zamówienie

Szkolenie dostosowane do potrzeb Twojego zespołu. Dostępne WYŁĄCZNIE na zamówienie.

  • Dostosowany program
  • Indywidualna wycena
  • Dowolny termin

Interesuje Cię ta tematyka i szukasz szkolenia tylko dla siebie?

O szkoleniu

DLA KOGO?

Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać procesy eksploracji danych z wykorzystaniem Pentaho Data Mining (WEKA)

Szkolenie jest także kierowane do osób, które chcą uzupełnić swoją wiedzę o pojęcia związane z hurtowniami danych (DWH) oraz ich realizacją z wykorzystaniem oprogramowania Pentaho Business Intelligence Suite

WYMAGANIA

Podstawowa znajomość baz danych, podstawowa umiejętność programowania w języku Java

ZALETY

Program obejmuje zarówno ogólne wprowadzenie w tematykę DM i DWH, jak i całościowe przedstawienie stosu produktowego Pentaho Data Mining

Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona

Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie

Cele szkolenia

Zdobycie przekrojowej wiedzy dotyczącej projektowania, implementowania, monitorowania, uruchamiania, strojenia procesów DM,

Odświeżenie wiedzy na temat podstawowych pojęć statystycznych,

Poznanie najpopularniejszych algorytmów DM w szczegółach,

Poznanie założenia hurtowni danych

Wybór właściwego zestawu narzędzi i technik dla własnych projektów

Skupienie na stosie produktowym wybudowanym wokół Pentaho Business Intelligence a w szczególności na Pentaho Data Mining (WEKA)

Program

  • Wprowadzenie do hurtowni danych:
    • OLTP, OLAP, bazy danych, hurtownie danych, data marty
    • ROLAP, MOLAP, HOLAP
    • Normalizacja, agregacja, fakty, wymiary
    • SQL, MDX, XML/A
    • ETL
    • BigData, BigTable, NoSQL, nierelacyjne hurtownie danych
    • Pozostałe
  • Platforma Pentaho BI Suite
  • Sztuczna inteligencja, uczenie maszynowe, eksploracja danych etc
  • Podstawy algorytmów eksploracji danych
    • Algorytmy
      • klasyfikacja
      • grupowanie
      • odkrywanie wzorców i reguł asocjacji
      • ograniczanie i transformacja przestrzeni atrybutów
    • Techniki:
      • drzewa i tabele decyzyjne
      • regresja liniowa
      • sieci bayesa
      • sieci neuronowe
      • algorytmy genetyczne i ewolucyjne
    • Podstawowe pojęcia statystyczne
      • Minimum, Maximum
      • Średnia, Mediana
      • Odchylenie standardowe, Wariancja
      • Prawdopodobieństwo
      • Korelacja
      • Metryka odległości danych
      • Statystyczna istotność
    • pozostałe
  • Przegląd narzędzi eksploracji danych dostępnych na rynku
  • Architektura
  • Weka Gui Chooser
    • Explorer
    • Experimenter
    • Knowledge Flow
    • Simple CLI
    • Tools: ARFF Viewer, SQL Viewer etc
    • Weka Light, Weka Server
  • Praca z Explorer’em
  • Format danych ARFF
  • Przygotowanie danych do analizy
  • Odpowiedni dobór atrybutów np.: korelacja atrybutów a wyniki eksploracji danych etc
  • Filtrowanie i rodzaje filtrów w WEKA np.: filtrowanie, dyskretyzacja, normalizacja etc
  • Wizualizacja
  • Przetwarzanie dużych zbiorów danych, ograniczenia JVM 32bit
  • Przetwarzanie strumieni oraz uczenie przyrostowe
  • Definicja problemu klasyfikacji
  • Odpowiedni zbiór danych uczących i testujących a wyniki klasyfikacji
  • Rodzaje algorytmów klasyfikacji dostępnych w WEKA
  • Najpopularniejsze algorytmy klasyfikacji w szczegółach
    • Sieci Bayesa np.: naiwny klasyfikator bayesowski
    • Regresja np.: regresja liniowa
    • Drzewa i tablice decyzyjne
  • Walidacja krzyżowa, nadmierne dopasowanie
  • Interpretacja wyników klasyfikacji
  • Definicja problemu grupowania
  • Odpowiedni zbiór danych uczących i testujących a wyniki grupowania
  • Rodzaje algorytmów grupowania dostępnych w WEKA
  • Najpopularniejsze algorytmy grupowania w szczegółach
    • Centroidy np.: k-średnich
    • Gęstościowe np.: DBSCAN
  • Interpretacja wyników grupowania
  • Definicja problemu odkrywania wzorców i reguł asocjacyjnych
  • Odpowiedni zbiór danych uczących i testujących a odkryte reguły
  • Rodzaje algorytmów odkrywania reguł asocjacyjnych dostępnych w WEKA
  • Najpopularniejsze algorytmy odkrywania reguł asocjacyjnych w szczegółach
    • Apriori
    • Frequent Pattern Growth
  • Interpretacja odkrytych reguł
  • Definicja problemu selekcji, ograniczenia, transformacji atrybutów
  • Odpowiedni zbiór danych uczących i testujących a wybrane atrybuty
  • Rodzaje algorytmów ograniczania i transformacji przestrzeni atrybutów w WEKA
  • Najpopularniejsze algorytmy ograniczania i transformacji przestrzeni atrybutów w szczegółach
    • Przeszukiwania np.: BestFirst, ExhaustiveSearch, GeneticSearch
    • Analizy głównych składowych np.: PCA/PrincipalComponents
    • Maszyna wektorów nośnych np.: SVM/SVMAttributeEval
  • Interpretacja wyników
  • Pentaho Data Mining Plug-Ins
  • Własne algorytmy DM w WEKA
  • Knowledge Flow Plugin oraz Pentaho Data Integration

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.