Analiza numeryczna w Python
LICZBA DNI: 3 (24h)
KOD KURSU: PYTHON/NUM
O szkoleniu
DLA KOGO?
Analityków danych
Programistów
Data scientist
Naukowców i inżynierów
WYMAGANIA
Umiejętność programowania w dowolnym języku
Opcjonalny dzień wprowadzenia do Python
ZALETY
Trener programuje od 2004 roku, a w Python od 2009
Materiały ze szkolenia mają ponad 1700 stron
Materiały są dostępne online jako strona internetowa i aktualizowane niemalże codziennie
Ponad 350 zadań do samodzielnego wykonania
Wszystkie zadania mają testy i rozwiązany kod źródłowy
Dostęp do materiałów również po szkoleniu
Cele szkolenia
Nauka wykorzystania biblioteki NumPy i Pandas oraz Matplotlib w analizie numerycznej danych
Przegląd bibliotek i środowiska SciPy
Program
Biblioteki używane w analizie numerycznej i Data Science
- SciPy: wprowadzenie do ekosystemu narzędzi
- Jupyter: instalacja, uruchamianie, korzystanie, LaTeX, zaawansowane opcje
- Markdown: krótkie wprowadzenie do składni i możliwości
Zagadnienia wydajnościowe
- Micro-benchmarking
- Złożoność obliczeniowa i pamięciowa
- Pamięć: Architektura RAM, kopiowanie i referencje
- Techniki pracy z danymi większymi niż ilość RAMu
- Generatory i Iteratory
- Triki zwiększające wydajność
- Skalowalność: X-Array, Dask
NumPy i analiza numeryczna
- Typy wbudowane i stałe: array, poly1d, nan, inf
- Import i export danych, serializacja, łączenie, obsługiwane formaty, pliki binarne i tekstowe
- Definiowanie tablic: tworzenie, generowanie, opis typu
- Pseudolosowość: Problematyka, ziarno, sampling, tasowanie
- Atrybuty tablic: typy danych, kształt, wielkość, rozmiar danych, osie
- Wybieranie i iteracja: indeksacja, wycinanie, fancy indexing
- Operacje na danych: operacje zwektoryzowane, funkcje uniwersalne, zmiana wymiarów, spłaszczanie
- Manipulacja danymi: zaokrąglanie, przycinanie, wstawianie, wypełnianie, transpozycja, sortowanie
- Arytmetyka: operacje arytmetyczne i macierzowe, wyznaczniki
- Statystyka: ekstrema, wariancja, odchylenie standardowe, średnie, mody, kowariancje, korelacje
- Logika: operatory, wybieranie, maski, where
- Trygonometria: funkcje, konwersje, stałe
- Wielomiany: współczynniki, miejsca zerowe, pierwiastki, dopasowanie wielomianów, arytmetyka, pochodne, całki
Pandas i obróbka danych
- Konfiguracja biblioteki oraz wyświetlania
- Import i export danych: obsługiwane formaty, serializacja, łączenie, wyciąganie danych ze stron www
- Typy danych: Series, DataFrame, SparseArray, Interval, Categorical
- Indeksy: numeryczne, alfabetyczne, szeregi czasowe
- Daty i szeregi czasowe: frequency, Timestamp, strefy czasowe, Timedelta, DateOffset, Date Ranges
- Series: tworzenie, atrybuty, indeksy, slice, wypełnianie, podmiana, usuwanie, arytmetyka, sampling, tasowanie
- DataFrame podstawy: tworzenie, indeksy, kolumny, slice, wybieranie wartości, locate, at, sampling, tasowanie
- DataFrame zaawansowane: statystyki, grupowanie, agregacje, join, wykresy
- Architektura i plany rozwoju Pandas
Matplotlib i wizualizacja
- Rodzaje wykresów i podstawianie danych
- Stylowanie wykresów
- Wykresy i podwykresy
- Export do różnych formatów
- Alternatywy do Matplotlib (Bokeh, Seaborn, Plot.ly)
- Integracja Matplotlib z Pandas
- Złożoność obliczeniowa, notacja wielkiego O
- Techniki pracy z danymi większymi niż ilość RAMu
- Triki zwiększające wydajność
Case studies
- Cztery case studies: COVID-19, dane sportowe, dane finansowe i sensory IoT
- Pobieranie danych z różnych źródeł
- Oczyszczanie informacji
- Selekcja istotnych informacji
- Wykorzystanie metod NumPy, Pandas i Matplotlib
- Przygotowanie do analizy
- Wizualizacja danych
- (*) Liczba case studies zależna jest od pozostałego czasu
