Nowoczesne przetwarzanie danych w R

LICZBA DNI: 3 (24h)

KOD KURSU: R/DPLYR

# dplyr

# dbplyr

# purrr

# purrrlyr

# preprocessing

# feature-engineering

# feature-selection

Autor szkolenia:
Paweł Jamer

Szkolenie na zamówienie

Szkolenie dostosowane do potrzeb Twojego zespołu. Dostępne WYŁĄCZNIE na zamówienie.

  • Dostosowany program
  • Indywidualna wycena
  • Dowolny termin

Interesuje Cię ta tematyka i szukasz szkolenia tylko dla siebie?

O szkoleniu

DLA KOGO?

Szkolenie jest adresowane do szerokiego grona użytkowników języka R (analityków danych, badaczy danych, statystyków oraz programistów), którzy zainteresowani są opanowaniem umiejętności szybkiego tworzenia przejrzystego, elastycznego oraz łatwego w utrzymaniu kodu służącego wstępnemu zrozumieniu danych oraz przygotowaniu ich na potrzeby modelowania

Szkolenie objaśnia zarówno podstawowe, jak też zaawansowane aspekty wykorzystania pakietów dplyr oraz purrr

Na udziale w nim mogą skorzystać zarówno początkujący, jak też bardziej zaawansowani użytkownicy języka R

WYMAGANIA

Podstawowa wiedza w zakresie programowania w R

W szczególności przydatna będzie znajomość podstawowej składni języka (instrukcja warunkowa if, pętla for, umiejętność tworzenia własnych prostych funkcji), znajomość podstawowych struktur danych (wektor, lista, ramka danych) oraz umiejętność dokonywania podstawowych operacji na danych jak wyznaczenie wartości średniej z wektora

ZALETY

Zapoznanie uczestnika z najlepszymi praktykami przetwarzania danych w języku R ucząc unikalnej składni wykorzystywanej przez pakiet dplyr do przejrzystego tworzenia kodu analitycznego,

Pełne spektrum funkcjonalności pakietu dplyr dające swobodę w wyborze optymalnego rozwiązania wielu problemów,

Najciekawsze z punktu widzenia przetwarzania danych aspekty pakietu purrr

Nauka prowadzona będzie w oparciu o przykłady oraz zadania warsztatowe zaczerpnięte z praktyki pracy statystycznej na etapie poznawania danych oraz przygotowania ich na potrzeby modelowania

Cele szkolenia

Opanowanie umiejętności wstępnej analizy danych oraz przetwarzania danych w języku R z wykorzystaniem pakietów dplyr oraz purrr poprzez pracę nad praktycznymi zagadnieniami między innymi z obszaru inżynierii cech (feature engineering), selekcji cech (feature selection), czyszczenia danych (data cleaning) oraz analiz mających na celu wstępne zrozumienie danych

Sprawne posługiwanie się najużyteczniejszymi w codziennej pracy funkcjonalnościami tych pakietów,

Zdobycie wiedzy o szerokiej gamie dostępnych w nich funkcji, które pozwalają na rozwiązywanie mniej standardowych problemów,

Poznanie zaawansowanych aspektów pracy z pakietem dplyr w tym współpracy pakietu z bazą danych,

Uzyskanie ogólnej wiedzy na temat możliwości pakietów komplementarnych oraz alternatywnych

Program

  • Manipulowanie zmiennymi
  • Manipulowanie obserwacjami
  • Analizowanie danych
  • Zwinne metody selekcji kolumn
  • Tworzenie i modyfikowanie zmiennych
  • Wybieranie i porządkowanie obserwacji
  • Dodatkowe funkcjonalności pakietu dplyr
  • Równoczesne przetwarzanie wszystkich zmiennych
  • Równoczesne przetwarzanie wybranych zmiennych
  • Równoczesne warunkowe przetwarzanie zmiennych
  • Zapoznanie z podstawową konstrukcją programistyczną
  • Przegląd różnych możliwości zastosowania
  • Proste łączenie wierszy lub kolumn
  • Łącznie z wykorzystaniem kolumn kluczy
  • Warunkowa selekcja kolumn
  • Złożone transformacje kolumn z użyciem map()
  • Warunkowe funkcje map()
  • Użyteczne rozszerzenia funkcji map()
  • Kumulowanie wyników pośrednich
  • Wprowadzenie do strategii z wykorzystaniem R base
  • Prosta implementacja strategii z wykorzystaniem pakietu dplyr
  • Zaawansowane wykorzystanie strategii w oparciu o pakiet purrr
  • Funkcje wspierające pracę z wynikami cząstkowymi
  • Elastyczne przetwarzanie danych z funkcją do()
  • Uzupełnienie wiedzy na temat łączenia zbiorów danych
  • Zaawansowane aspekty składni pakietu dplyr
  • Wykorzystanie pakietu dbplyr do łączenia z bazą danych
  • Funkcje wspierające pracę z bazami danych w pakiecie dplyr
  • Czyszczenie danych z pakietem tidyr
  • Zmiana struktury danych z pakietem reshape
  • Pakiet data.table jako alternatywa dla dplyr

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.