Nowoczesne przetwarzanie danych w R

Czas trwania szkolenia:3 dni (24h)

Kod kursu:R/DPLYR

Poziom zaawansowania:
dplyrdbplyrpurrrpurrrlyrpreprocessingfeature-engineeringfeature-selection

Szkolenie na zamówienie

Szkolenie dostosowane do potrzeb Twojego zespołu.
Dostępne wyłącznie na zamówienie

  • Dostosowany program
  • Indywidualna wycena
  • Dowolny termin
Icon with laptop

O szkoleniu Nowoczesne przetwarzanie danych w R

W cenie otrzymasz:

  • Materiały szkoleniowe
  • Certyfikat ukończenia szkolenia
  • W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki

Dla kogo?

  • Szkolenie jest adresowane do szerokiego grona użytkowników języka R (analityków danych, badaczy danych, statystyków oraz programistów), którzy zainteresowani są opanowaniem umiejętności szybkiego tworzenia przejrzystego, elastycznego oraz łatwego w utrzymaniu kodu służącego wstępnemu zrozumieniu danych oraz przygotowaniu ich na potrzeby modelowania
  • Szkolenie objaśnia zarówno podstawowe, jak też zaawansowane aspekty wykorzystania pakietów dplyr oraz purrr
  • Na udziale w nim mogą skorzystać zarówno początkujący, jak też bardziej zaawansowani użytkownicy języka R

Wymagania

  • Podstawowa wiedza w zakresie programowania w R
  • W szczególności przydatna będzie znajomość podstawowej składni języka (instrukcja warunkowa if, pętla for, umiejętność tworzenia własnych prostych funkcji), znajomość podstawowych struktur danych (wektor, lista, ramka danych) oraz umiejętność dokonywania podstawowych operacji na danych jak wyznaczenie wartości średniej z wektora

Zalety

  • Zapoznanie uczestnika z najlepszymi praktykami przetwarzania danych w języku R ucząc unikalnej składni wykorzystywanej przez pakiet dplyr do przejrzystego tworzenia kodu analitycznego
  • Pełne spektrum funkcjonalności pakietu dplyr dające swobodę w wyborze optymalnego rozwiązania wielu problemów
  • Najciekawsze z punktu widzenia przetwarzania danych aspekty pakietu purrr
  • Nauka prowadzona będzie w oparciu o przykłady oraz zadania warsztatowe zaczerpnięte z praktyki pracy statystycznej na etapie poznawania danych oraz przygotowania ich na potrzeby modelowania
  • Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
  • Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
  • Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how

Cele szkolenia

  • Opanowanie umiejętności wstępnej analizy danych oraz przetwarzania danych w języku R z wykorzystaniem pakietów dplyr oraz purrr poprzez pracę nad praktycznymi zagadnieniami między innymi z obszaru inżynierii cech (feature engineering), selekcji cech (feature selection), czyszczenia danych (data cleaning) oraz analiz mających na celu wstępne zrozumienie danych
  • Sprawne posługiwanie się najużyteczniejszymi w codziennej pracy funkcjonalnościami tych pakietów
  • Zdobycie wiedzy o szerokiej gamie dostępnych w nich funkcji, które pozwalają na rozwiązywanie mniej standardowych problemów
  • Poznanie zaawansowanych aspektów pracy z pakietem dplyr w tym współpracy pakietu z bazą danych
  • Uzyskanie ogólnej wiedzy na temat możliwości pakietów komplementarnych oraz alternatywnych

Program

Szybki wstęp do tematyki przetwarzania danych

Obiekt tibble jako narzędzie wygodnej pracy z danymi w konsoli R

Wprowadzenie do mechaniki przetwarzania danych z pakietem dplyr

Zapoznanie z podstawowymi funkcjonalnościami pakietu dplyr

  • Manipulowanie zmiennymi
  • Manipulowanie obserwacjami
  • Analizowanie danych

Podnoszenie komfortu pracy z pakietem dplyr

  • Zwinne metody selekcji kolumn
  • Tworzenie i modyfikowanie zmiennych
  • Wybieranie i porządkowanie obserwacji
  • Dodatkowe funkcjonalności pakietu dplyr

Masowe przetwarzanie zmiennych

  • Równoczesne przetwarzanie wszystkich zmiennych
  • Równoczesne przetwarzanie wybranych zmiennych
  • Równoczesne warunkowe przetwarzanie zmiennych

Funkcje okienkowe z pakietem dplyr

  • Zapoznanie z podstawową konstrukcją programistyczną
  • Przegląd różnych możliwości zastosowania

Łączenie zbiorów danych

  • Proste łączenie wierszy lub kolumn
  • Łącznie z wykorzystaniem kolumn kluczy

Szybkie wprowadzenie do pakietu purrr

Transformowanie zbiorów danych z wykorzystaniem pakietu purrr

  • Warunkowa selekcja kolumn
  • Złożone transformacje kolumn z użyciem map()
  • Warunkowe funkcje map()
  • Użyteczne rozszerzenia funkcji map()
  • Kumulowanie wyników pośrednich

Strategia split-apply-combine

  • Wprowadzenie do strategii z wykorzystaniem R base
  • Prosta implementacja strategii z wykorzystaniem pakietu dplyr
  • Zaawansowane wykorzystanie strategii w oparciu o pakiet purrr
  • Funkcje wspierające pracę z wynikami cząstkowymi

Zaawansowane aspekty pracy z pakietem dplyr

  • Elastyczne przetwarzanie danych z funkcją do()
  • Uzupełnienie wiedzy na temat łączenia zbiorów danych
  • Zaawansowane aspekty składni pakietu dplyr

Współpraca pakietu dplyr z bazą danych

  • Wykorzystanie pakietu dbplyr do łączenia z bazą danych
  • Funkcje wspierające pracę z bazami danych w pakiecie dplyr

Szybki przegląd rozwiązań komplementarnych i alternatywnych

  • Czyszczenie danych z pakietem tidyr
  • Zmiana struktury danych z pakietem reshape
  • Pakiet data.table jako alternatywa dla dplyr

Podobne szkolenia