Szkolenie dostępne na zamówienie

Nowoczesne przetwarzanie danych w R

Najwygodniejsze rozwiązania wspomagające przetwarzanie danych w R

Czas trwania szkolenia:3 dni (24h)

Poziom zaawansowania:

Kod kursu:R/DPLYR

dplyrdbplyrpurrrpurrrlyr

Szkolenie na zamówienie

  • Dostosowany program
  • Indywidualna wycena
  • Dowolny termin
Zapytanie o szkolenie

Nowoczesne przetwarzanie danych w R

Cele szkolenia

  • Opanowanie umiejętności wstępnej analizy danych oraz przetwarzania danych w języku R z wykorzystaniem pakietów dplyr oraz purrr poprzez pracę nad praktycznymi zagadnieniami między innymi z obszaru inżynierii cech (feature engineering), selekcji cech (feature selection), czyszczenia danych (data cleaning) oraz analiz mających na celu wstępne zrozumienie danych

  • Sprawne posługiwanie się najużyteczniejszymi w codziennej pracy funkcjonalnościami tych pakietów

  • Zdobycie wiedzy o szerokiej gamie dostępnych w nich funkcji, które pozwalają na rozwiązywanie mniej standardowych problemów

  • Poznanie zaawansowanych aspektów pracy z pakietem dplyr w tym współpracy pakietu z bazą danych

  • Uzyskanie ogólnej wiedzy na temat możliwości pakietów komplementarnych oraz alternatywnych


Dla kogo?

  • Szkolenie jest adresowane do szerokiego grona użytkowników języka R (analityków danych, badaczy danych, statystyków oraz programistów), którzy zainteresowani są opanowaniem umiejętności szybkiego tworzenia przejrzystego, elastycznego oraz łatwego w utrzymaniu kodu służącego wstępnemu zrozumieniu danych oraz przygotowaniu ich na potrzeby modelowania

  • Szkolenie objaśnia zarówno podstawowe, jak też zaawansowane aspekty wykorzystania pakietów dplyr oraz purrr

  • Na udziale w nim mogą skorzystać zarówno początkujący, jak też bardziej zaawansowani użytkownicy języka R


Zalety

  • Zapoznanie uczestnika z najlepszymi praktykami przetwarzania danych w języku R ucząc unikalnej składni wykorzystywanej przez pakiet dplyr do przejrzystego tworzenia kodu analitycznego

  • Pełne spektrum funkcjonalności pakietu dplyr dające swobodę w wyborze optymalnego rozwiązania wielu problemów

  • Najciekawsze z punktu widzenia przetwarzania danych aspekty pakietu purrr

  • Nauka prowadzona będzie w oparciu o przykłady oraz zadania warsztatowe zaczerpnięte z praktyki pracy statystycznej na etapie poznawania danych oraz przygotowania ich na potrzeby modelowania

  • Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań

  • Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką

  • Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how


Wymagania

  • Podstawowa wiedza w zakresie programowania w R

  • W szczególności przydatna będzie znajomość podstawowej składni języka (instrukcja warunkowa if, pętla for, umiejętność tworzenia własnych prostych funkcji), znajomość podstawowych struktur danych (wektor, lista, ramka danych) oraz umiejętność dokonywania podstawowych operacji na danych jak wyznaczenie wartości średniej z wektora


W cenie otrzymasz:

  • Materiały szkoleniowe

  • Certyfikat ukończenia szkolenia

  • W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki

Program

Pobierz program w PDF

Szybki wstęp do tematyki przetwarzania danych

Obiekt tibble jako narzędzie wygodnej pracy z danymi w konsoli R

Wprowadzenie do mechaniki przetwarzania danych z pakietem dplyr

Zapoznanie z podstawowymi funkcjonalnościami pakietu dplyr

  • Manipulowanie zmiennymi

  • Manipulowanie obserwacjami

  • Analizowanie danych

Podnoszenie komfortu pracy z pakietem dplyr

  • Zwinne metody selekcji kolumn

  • Tworzenie i modyfikowanie zmiennych

  • Wybieranie i porządkowanie obserwacji

  • Dodatkowe funkcjonalności pakietu dplyr

Masowe przetwarzanie zmiennych

  • Równoczesne przetwarzanie wszystkich zmiennych

  • Równoczesne przetwarzanie wybranych zmiennych

  • Równoczesne warunkowe przetwarzanie zmiennych

Funkcje okienkowe z pakietem dplyr

  • Zapoznanie z podstawową konstrukcją programistyczną

  • Przegląd różnych możliwości zastosowania

Łączenie zbiorów danych

  • Proste łączenie wierszy lub kolumn

  • Łącznie z wykorzystaniem kolumn kluczy

Szybkie wprowadzenie do pakietu purrr

Transformowanie zbiorów danych z wykorzystaniem pakietu purrr

  • Warunkowa selekcja kolumn

  • Złożone transformacje kolumn z użyciem map()

  • Warunkowe funkcje map()

  • Użyteczne rozszerzenia funkcji map()

  • Kumulowanie wyników pośrednich

Strategia split-apply-combine

  • Wprowadzenie do strategii z wykorzystaniem R base

  • Prosta implementacja strategii z wykorzystaniem pakietu dplyr

  • Zaawansowane wykorzystanie strategii w oparciu o pakiet purrr

  • Funkcje wspierające pracę z wynikami cząstkowymi

Zaawansowane aspekty pracy z pakietem dplyr

  • Elastyczne przetwarzanie danych z funkcją do()

  • Uzupełnienie wiedzy na temat łączenia zbiorów danych

  • Zaawansowane aspekty składni pakietu dplyr

Współpraca pakietu dplyr z bazą danych

  • Wykorzystanie pakietu dbplyr do łączenia z bazą danych

  • Funkcje wspierające pracę z bazami danych w pakiecie dplyr

Szybki przegląd rozwiązań komplementarnych i alternatywnych

  • Czyszczenie danych z pakietem tidyr

  • Zmiana struktury danych z pakietem reshape

  • Pakiet data.table jako alternatywa dla dplyr

Autorem szkolenia jest Paweł Jamer

Menedżer zespołów zaawansowanej analityki (data science, artificial intelligence, machine learning), trener data science i computer science oraz wykładowca. W swojej prawie 15 letniej karierze zawodowej realizował projekty z obszaru zaawansowanej analityki dla branży finansowej, HoReCa, energetycznej oraz IT. Miał również okazję uczestniczyć w projektach naukowych dotyczących NLP, computer vision oraz modelowania rynków finansowych. Jako osoba wiecznie głodna wiedzy, studiował dotychczas matematykę,…