Techniczne aspekty eksploracji danych zgromadzonych w hurtowni danych z wykorzystaniem Pentaho Data Mining
LICZBA DNI: 4 (32h)
KOD KURSU: WEKA
O szkoleniu
DLA KOGO?
Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać procesy eksploracji danych z wykorzystaniem Pentaho Data Mining (WEKA)
Szkolenie jest także kierowane do osób, które chcą uzupełnić swoją wiedzę o pojęcia związane z hurtowniami danych (DWH) oraz ich realizacją z wykorzystaniem oprogramowania Pentaho Business Intelligence Suite
WYMAGANIA
Podstawowa znajomość baz danych, podstawowa umiejętność programowania w języku Java
ZALETY
Program obejmuje zarówno ogólne wprowadzenie w tematykę DM i DWH, jak i całościowe przedstawienie stosu produktowego Pentaho Data Mining
Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona
Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie
Cele szkolenia
Zdobycie przekrojowej wiedzy dotyczącej projektowania, implementowania, monitorowania, uruchamiania, strojenia procesów DM
Odświeżenie wiedzy na temat podstawowych pojęć statystycznych
Poznanie najpopularniejszych algorytmów DM w szczegółach
Poznanie założenia hurtowni danych
Wybór właściwego zestawu narzędzi i technik dla własnych projektów
Skupienie na stosie produktowym wybudowanym wokół Pentaho Business Intelligence a w szczególności na Pentaho Data Mining (WEKA)
Program
Wstęp
- Wprowadzenie do hurtowni danych
- OLTP, OLAP, bazy danych, hurtownie danych, data marty
- ROLAP, MOLAP, HOLAP
- Normalizacja, agregacja, fakty, wymiary
- SQL, MDX, XML/A
- ETL
- BigData, BigTable, NoSQL, nierelacyjne hurtownie danych
- Pozostałe
- Platforma Pentaho BI Suite
Eksploracja danych
- Sztuczna inteligencja, uczenie maszynowe, eksploracja danych etc
- Podstawy algorytmów eksploracji danych
- Algorytmy
- Klasyfikacja
- Grupowanie
- Odkrywanie wzorców i reguł asocjacji
- Ograniczanie i transformacja przestrzeni atrybutów
- Techniki
- Drzewa i tabele decyzyjne
- Regresja liniowa
- Sieci Bayesa
- Sieci neuronowe
- Algorytmy genetyczne i ewolucyjne
- Podstawowe pojęcia statystyczne
- Minimum, Maximum
- Średnia, Mediana
- Odchylenie standardowe, Wariancja
- Prawdopodobieństwo
- Korelacja
- Metryka odległości danych
- Statystyczna istotność
- Pozostałe
- Przegląd narzędzi eksploracji danych dostępnych na rynku
Pentaho Data Mining (WEKA)
- Architektura
- Weka GUI Chooser
- Explorer
- Experimenter
- Knowledge Flow
- Simple CLI
- Tools: ARFF Viewer, SQL Viewer etc
- Weka Light, Weka Server
- Praca z Explorer’em
Preprocessing i praca z danymi
- Format danych ARFF
- Przygotowanie danych do analizy
- Odpowiedni dobór atrybutów np.: korelacja atrybutów a wyniki eksploracji danych etc
- Filtrowanie i rodzaje filtrów w WEKA np.: filtrowanie, dyskretyzacja, normalizacja etc
- Wizualizacja
- Przetwarzanie dużych zbiorów danych, ograniczenia JVM 32bit
- Przetwarzanie strumieni oraz uczenie przyrostowe
Klasyfikacja
- Definicja problemu klasyfikacji
- Odpowiedni zbiór danych uczących i testujących a wyniki klasyfikacji
- Rodzaje algorytmów klasyfikacji dostępnych w WEKA
- Najpopularniejsze algorytmy klasyfikacji w szczegółach
- Sieci Bayesa np.: naiwny klasyfikator bayesowski
- Regresja np.: regresja liniowa
- Drzewa i tablice decyzyjne
- Walidacja krzyżowa, nadmierne dopasowanie
- Interpretacja wyników klasyfikacji
Grupowanie
- Definicja problemu grupowania
- Odpowiedni zbiór danych uczących i testujących a wyniki grupowania
- Rodzaje algorytmów grupowania dostępnych w WEKA
- Najpopularniejsze algorytmy grupowania w szczegółach
- Centroidy np.: k-średnich
- Gęstościowe np.: DBSCAN
- Interpretacja wyników grupowania
Odkrywanie reguł asocjacyjnych
- Definicja problemu odkrywania wzorców i reguł asocjacyjnych
- Odpowiedni zbiór danych uczących i testujących a odkryte reguły
- Rodzaje algorytmów odkrywania reguł asocjacyjnych dostępnych w WEKA
- Najpopularniejsze algorytmy odkrywania reguł asocjacyjnych w szczegółach
- Apriori
- Frequent Pattern Growth
- Interpretacja odkrytych reguł
Ograniczanie i transformacja przestrzeni atrybutów
- Definicja problemu selekcji, ograniczenia, transformacji atrybutów
- Odpowiedni zbiór danych uczących i testujących a wybrane atrybuty
- Rodzaje algorytmów ograniczania i transformacji przestrzeni atrybutów w WEKA
- Najpopularniejsze algorytmy ograniczania i transformacji przestrzeni atrybutów w szczegółach
- Przeszukiwania np.: BestFirst, ExhaustiveSearch, GeneticSearch
- Analizy głównych składowych np.: PCA/PrincipalComponents
- Maszyna wektorów nośnych np.: SVM/SVMAttributeEval
- Interpretacja wyników
Pozostałe algorytmy i techniki eksploracji danych dostępne w WEKA
Rozbudowa możliwości WEKA
- Pentaho Data Mining Plug-Ins
- Własne algorytmy DM w WEKA
Wykorzystanie możliwości w połączeniu z innymi produktami Pentaho
- Knowledge Flow Plugin oraz Pentaho Data Integration
