Trwają zapisy do grupy

Analiza danych tekstowych i języka naturalnego

Dane tekstowe stanowią istotną część wszystkich generowanych danych, ponadto zawierają wiele istotnych informacji. Pozyskanie takich informacji wymaga jednak zastosowania specjalnych narzędzi i technik. Szkolenie ma na celu przybliżenie tych zagadnień z wykorzystaniem jednego z najczęściej wybieranych do tego celu języka - Pythona.

3350 PLN+23% VAT (4120 PLN brutto / 1 os.)

Czas trwania szkolenia:3 dni (24h)

Poziom zaawansowania:

Kod kursu:ANA/TXT

text-mininginformation-retrievalmachine-learning

Dostępne terminy

  • Termin
  • Trener
  • Cena
  • Zapis
  • Lokalizacja

Termin:

22 lipca
Trwają zapisy na szkolenie

Trener:

Trener-Sages

Cena:

3350 PLN netto
Ikona podpowiedziDowiedz się więcej o cenach szkoleń - zapraszamy do kontaktu
+23% VAT

Lokalizacja:

Zdalne
Zdalne
Ikona podpowiedziZapytaj o inne lokalizacje - w tym celu skorzystaj z chatu

Termin:

14 października
Trwają zapisy na szkolenie

Trener:

Trener-Sages

Cena:

3350 PLN netto
Ikona podpowiedziDowiedz się więcej o cenach szkoleń - zapraszamy do kontaktu
+23% VAT

Lokalizacja:

Zdalne
Zdalne
Ikona podpowiedziZapytaj o inne lokalizacje - w tym celu skorzystaj z chatu

Forma szkolenia

Interesuje Cię szkolenie stacjonarne?

Dostępne terminy

Interesują Cię inne terminy?

Analiza danych tekstowych i języka naturalnego

Cele szkolenia

  • Zdobycie praktycznych umiejętności i wiedzy pozwalających na wykonywanie analiz języka naturalnego z wykorzystaniem języka Python
  • Zapoznanie z problemami przetwarzania, czyszczenia oraz eksploracji danych tekstowych, a także z wykorzystaniem przygotowanych danych między innymi do budowania modeli uczenia maszynowego

Dla kogo?

  • Programiści, pragnący zastosować w swoich systemach metody odkrywania wiedzy z danych tekstowych
  • Analitycy, którzy chcą rozbudować swój warsztat analityczny o narzędzie analizy danych tekstowych
  • Osoby zainteresowane zastosowaniem narzędzi statystycznych, metod uczenia maszynowego w pracy z danymi tekstowymi

Zalety

  • Obszerne wprowadzenie do świata analizy danych tekstowych
  • Zapoznanie z najważniejszymi narzędziami i technikami
  • Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
  • Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
  • Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how

Wymagania

  • Podstawowa znajomość języka Python

W cenie otrzymasz:

  • Materiały szkoleniowe
  • Certyfikat ukończenia szkolenia
  • W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki

Program

Pobierz program w PDF

Wprowadzenie

  • Źródła i zastosowania danych tekstowych
  • Definicje pojęć
  • Języki programowania stosowane do analizy danych tekstowych

Podstawowe narzędzia i biblioteki

  • Regex
  • Pandas
  • Scikit-learn
  • NLTK
  • SpaCy

Pozyskiwanie danych tekstowych

  • Wczytywanie danych
  • Czytanie danych z API (np. Twitter)
  • Web scraping

Czyszczenie i normalizacja danych

  • Tokenizacja
  • Usuwanie zbędnych znaków
  • Rozwijanie skrótów
  • Usuwanie nieistotnych słów
  • Poprawianie literówek
  • Stemming/lematyzacja

Wizualizacja danych tekstowych

  • Wykres długości słów
  • Wykres częstości słów
  • Word cloud

Reprezentacje danych tekstowych

  • Document-term matrix
  • word2vec
  • fasttext
  • doc2vec

Podsumowywanie tekstu

  • Kolokacje
  • TextRank

Podobieństwo tekstu

  • Miary podobieństwa słów
  • Miary podobieństwa dokumentów

Uczenie maszynowe w analizie języka naturalnego

  • Klasteryzacja dokumentów
  • Klasyfikacja dokumentów

Znakowanie tekstu częściami mowy

  • Universal tagset
  • Penn TreeBank tagset

Analiza wydźwięku

  • Podejście słownikowe
  • Podejście oparte na metodach uczenia maszynowego

Rozpoznawanie nazw własnych

Semantyczne podobieństwo słów

Parsowanie zdań

  • Parsowanie płytkie
  • Parsowanie zależnościowe

Autorem szkolenia jest Patryk Pilarski

Data scientist. Dobrze czuje się w pracy z danymi w każdym rozmiarze – od dużych po małe. Na ścieżce kariery poszukuje interesujących wyzwań oraz możliwości pracy z ciekawymi technologiami, w związku z czym pracował w licznych projektach łączących w sobie wyzwania z zakresu analizy i inżynierii danych. Chętnie zgłębia nowe technologie oraz języki programowania. Stara się również przekazywać pozyskaną wiedzę i umiejętności wcielając się w rolę trenera.