Techniczne aspekty eksploracji danych zgromadzonych w hurtowni danych z wykorzystaniem Pentaho Data Mining

LICZBA DNI: 4 (32h)

KOD KURSU: WEKA

POZIOM SZKOLENIA:

# pentaho

Szkolenie na zamówienie

Szkolenie dostosowane do potrzeb Twojego zespołu. Dostępne WYŁĄCZNIE na zamówienie.

  • Dostosowany program
  • Indywidualna wycena
  • Dowolny termin

Interesuje Cię ta tematyka i szukasz szkolenia tylko dla siebie?

O szkoleniu

DLA KOGO?

Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać procesy eksploracji danych z wykorzystaniem Pentaho Data Mining (WEKA)

Szkolenie jest także kierowane do osób, które chcą uzupełnić swoją wiedzę o pojęcia związane z hurtowniami danych (DWH) oraz ich realizacją z wykorzystaniem oprogramowania Pentaho Business Intelligence Suite

WYMAGANIA

Podstawowa znajomość baz danych, podstawowa umiejętność programowania w języku Java

ZALETY

Program obejmuje zarówno ogólne wprowadzenie w tematykę DM i DWH, jak i całościowe przedstawienie stosu produktowego Pentaho Data Mining

Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona

Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie

Kameralne grupy - szkolenia technologiczne prowadzimy w grupach liczących do 8 osób. Pozwala to na indywidualne podejście oraz aktywizację każdego uczestnika

Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań

Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką

Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how

Cele szkolenia

Zdobycie przekrojowej wiedzy dotyczącej projektowania, implementowania, monitorowania, uruchamiania, strojenia procesów DM

Odświeżenie wiedzy na temat podstawowych pojęć statystycznych

Poznanie najpopularniejszych algorytmów DM w szczegółach

Poznanie założenia hurtowni danych

Wybór właściwego zestawu narzędzi i technik dla własnych projektów

Skupienie na stosie produktowym wybudowanym wokół Pentaho Business Intelligence a w szczególności na Pentaho Data Mining (WEKA)

Program

  • Wprowadzenie do hurtowni danych
    • OLTP, OLAP, bazy danych, hurtownie danych, data marty
    • ROLAP, MOLAP, HOLAP
    • Normalizacja, agregacja, fakty, wymiary
    • SQL, MDX, XML/A
    • ETL
    • BigData, BigTable, NoSQL, nierelacyjne hurtownie danych
    • Pozostałe
  • Platforma Pentaho BI Suite
  • Sztuczna inteligencja, uczenie maszynowe, eksploracja danych etc
  • Podstawy algorytmów eksploracji danych
    • Algorytmy
      • Klasyfikacja
      • Grupowanie
      • Odkrywanie wzorców i reguł asocjacji
      • Ograniczanie i transformacja przestrzeni atrybutów
    • Techniki
      • Drzewa i tabele decyzyjne
      • Regresja liniowa
      • Sieci Bayesa
      • Sieci neuronowe
      • Algorytmy genetyczne i ewolucyjne
    • Podstawowe pojęcia statystyczne
      • Minimum, Maximum
      • Średnia, Mediana
      • Odchylenie standardowe, Wariancja
      • Prawdopodobieństwo
      • Korelacja
      • Metryka odległości danych
      • Statystyczna istotność
    • Pozostałe
  • Przegląd narzędzi eksploracji danych dostępnych na rynku
  • Architektura
  • Weka GUI Chooser
    • Explorer
    • Experimenter
    • Knowledge Flow
    • Simple CLI
    • Tools: ARFF Viewer, SQL Viewer etc
    • Weka Light, Weka Server
  • Praca z Explorer’em
  • Format danych ARFF
  • Przygotowanie danych do analizy
  • Odpowiedni dobór atrybutów np.: korelacja atrybutów a wyniki eksploracji danych etc
  • Filtrowanie i rodzaje filtrów w WEKA np.: filtrowanie, dyskretyzacja, normalizacja etc
  • Wizualizacja
  • Przetwarzanie dużych zbiorów danych, ograniczenia JVM 32bit
  • Przetwarzanie strumieni oraz uczenie przyrostowe
  • Definicja problemu klasyfikacji
  • Odpowiedni zbiór danych uczących i testujących a wyniki klasyfikacji
  • Rodzaje algorytmów klasyfikacji dostępnych w WEKA
  • Najpopularniejsze algorytmy klasyfikacji w szczegółach
    • Sieci Bayesa np.: naiwny klasyfikator bayesowski
    • Regresja np.: regresja liniowa
    • Drzewa i tablice decyzyjne
  • Walidacja krzyżowa, nadmierne dopasowanie
  • Interpretacja wyników klasyfikacji
  • Definicja problemu grupowania
  • Odpowiedni zbiór danych uczących i testujących a wyniki grupowania
  • Rodzaje algorytmów grupowania dostępnych w WEKA
  • Najpopularniejsze algorytmy grupowania w szczegółach
    • Centroidy np.: k-średnich
    • Gęstościowe np.: DBSCAN
  • Interpretacja wyników grupowania
  • Definicja problemu odkrywania wzorców i reguł asocjacyjnych
  • Odpowiedni zbiór danych uczących i testujących a odkryte reguły
  • Rodzaje algorytmów odkrywania reguł asocjacyjnych dostępnych w WEKA
  • Najpopularniejsze algorytmy odkrywania reguł asocjacyjnych w szczegółach
    • Apriori
    • Frequent Pattern Growth
  • Interpretacja odkrytych reguł
  • Definicja problemu selekcji, ograniczenia, transformacji atrybutów
  • Odpowiedni zbiór danych uczących i testujących a wybrane atrybuty
  • Rodzaje algorytmów ograniczania i transformacji przestrzeni atrybutów w WEKA
  • Najpopularniejsze algorytmy ograniczania i transformacji przestrzeni atrybutów w szczegółach
    • Przeszukiwania np.: BestFirst, ExhaustiveSearch, GeneticSearch
    • Analizy głównych składowych np.: PCA/PrincipalComponents
    • Maszyna wektorów nośnych np.: SVM/SVMAttributeEval
  • Interpretacja wyników
  • Pentaho Data Mining Plug-Ins
  • Własne algorytmy DM w WEKA
  • Knowledge Flow Plugin oraz Pentaho Data Integration

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.