Nowoczesne przetwarzanie danych w R
Najwygodniejsze rozwiązania wspomagające przetwarzanie danych w R
Czas trwania szkolenia:3 dni (24h)
Kod kursu:R/DPLYR
Nowoczesne przetwarzanie danych w R
Cele szkolenia
Opanowanie umiejętności wstępnej analizy danych oraz przetwarzania danych w języku R z wykorzystaniem pakietów dplyr oraz purrr poprzez pracę nad praktycznymi zagadnieniami między innymi z obszaru inżynierii cech (feature engineering), selekcji cech (feature selection), czyszczenia danych (data cleaning) oraz analiz mających na celu wstępne zrozumienie danych
Sprawne posługiwanie się najużyteczniejszymi w codziennej pracy funkcjonalnościami tych pakietów
Zdobycie wiedzy o szerokiej gamie dostępnych w nich funkcji, które pozwalają na rozwiązywanie mniej standardowych problemów
Poznanie zaawansowanych aspektów pracy z pakietem dplyr w tym współpracy pakietu z bazą danych
Uzyskanie ogólnej wiedzy na temat możliwości pakietów komplementarnych oraz alternatywnych
Dla kogo?
Szkolenie jest adresowane do szerokiego grona użytkowników języka R (analityków danych, badaczy danych, statystyków oraz programistów), którzy zainteresowani są opanowaniem umiejętności szybkiego tworzenia przejrzystego, elastycznego oraz łatwego w utrzymaniu kodu służącego wstępnemu zrozumieniu danych oraz przygotowaniu ich na potrzeby modelowania
Szkolenie objaśnia zarówno podstawowe, jak też zaawansowane aspekty wykorzystania pakietów dplyr oraz purrr
Na udziale w nim mogą skorzystać zarówno początkujący, jak też bardziej zaawansowani użytkownicy języka R
Zalety
Zapoznanie uczestnika z najlepszymi praktykami przetwarzania danych w języku R ucząc unikalnej składni wykorzystywanej przez pakiet dplyr do przejrzystego tworzenia kodu analitycznego
Pełne spektrum funkcjonalności pakietu dplyr dające swobodę w wyborze optymalnego rozwiązania wielu problemów
Najciekawsze z punktu widzenia przetwarzania danych aspekty pakietu purrr
Nauka prowadzona będzie w oparciu o przykłady oraz zadania warsztatowe zaczerpnięte z praktyki pracy statystycznej na etapie poznawania danych oraz przygotowania ich na potrzeby modelowania
Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how
Wymagania
Podstawowa wiedza w zakresie programowania w R
W szczególności przydatna będzie znajomość podstawowej składni języka (instrukcja warunkowa if, pętla for, umiejętność tworzenia własnych prostych funkcji), znajomość podstawowych struktur danych (wektor, lista, ramka danych) oraz umiejętność dokonywania podstawowych operacji na danych jak wyznaczenie wartości średniej z wektora
W cenie otrzymasz:
Materiały szkoleniowe
Certyfikat ukończenia szkolenia
W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Program
Szybki wstęp do tematyki przetwarzania danych
Obiekt tibble jako narzędzie wygodnej pracy z danymi w konsoli R
Wprowadzenie do mechaniki przetwarzania danych z pakietem dplyr
Zapoznanie z podstawowymi funkcjonalnościami pakietu dplyr
Manipulowanie zmiennymi
Manipulowanie obserwacjami
Analizowanie danych
Podnoszenie komfortu pracy z pakietem dplyr
Zwinne metody selekcji kolumn
Tworzenie i modyfikowanie zmiennych
Wybieranie i porządkowanie obserwacji
Dodatkowe funkcjonalności pakietu dplyr
Masowe przetwarzanie zmiennych
Równoczesne przetwarzanie wszystkich zmiennych
Równoczesne przetwarzanie wybranych zmiennych
Równoczesne warunkowe przetwarzanie zmiennych
Funkcje okienkowe z pakietem dplyr
Zapoznanie z podstawową konstrukcją programistyczną
Przegląd różnych możliwości zastosowania
Łączenie zbiorów danych
Proste łączenie wierszy lub kolumn
Łącznie z wykorzystaniem kolumn kluczy
Szybkie wprowadzenie do pakietu purrr
Transformowanie zbiorów danych z wykorzystaniem pakietu purrr
Warunkowa selekcja kolumn
Złożone transformacje kolumn z użyciem map()
Warunkowe funkcje map()
Użyteczne rozszerzenia funkcji map()
Kumulowanie wyników pośrednich
Strategia split-apply-combine
Wprowadzenie do strategii z wykorzystaniem R base
Prosta implementacja strategii z wykorzystaniem pakietu dplyr
Zaawansowane wykorzystanie strategii w oparciu o pakiet purrr
Funkcje wspierające pracę z wynikami cząstkowymi
Zaawansowane aspekty pracy z pakietem dplyr
Elastyczne przetwarzanie danych z funkcją do()
Uzupełnienie wiedzy na temat łączenia zbiorów danych
Zaawansowane aspekty składni pakietu dplyr
Współpraca pakietu dplyr z bazą danych
Wykorzystanie pakietu dbplyr do łączenia z bazą danych
Funkcje wspierające pracę z bazami danych w pakiecie dplyr
Szybki przegląd rozwiązań komplementarnych i alternatywnych
Czyszczenie danych z pakietem tidyr
Zmiana struktury danych z pakietem reshape
Pakiet data.table jako alternatywa dla dplyr