Analiza danych tekstowych i języka naturalnego

2950 PLN+23% VAT (3628 PLN brutto / 1 os.)

Czas trwania szkolenia:3 dni (24h)

Kod kursu:ANA/TXT

Poziom zaawansowania:
text-mininginformation-retrievalmachine-learning

Dostępne terminy

  • Termin
  • Lokalizacja
  • Trener
  • Cena

Termin:

19 października 2022
Trwają zapisy na szkolenie

Lokalizacja:

Zdalne, Warszawa, Kraków

Trener:

Trainer imagePatryk Pilarski

Cena:

2950 PLN netto+23% VAT

Termin:

14 grudnia 2022
Trwają zapisy na szkolenie

Lokalizacja:

Zdalne, Warszawa

Trener:

Trainer imagePatryk Pilarski

Cena:

2950 PLN netto+23% VAT

O szkoleniu Analiza danych tekstowych i języka naturalnego

W cenie otrzymasz:

  • Materiały szkoleniowe
  • Certyfikat ukończenia szkolenia
  • W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki

Dla kogo?

  • Programiści, pragnący zastosować w swoich systemach metody odkrywania wiedzy z danych tekstowych
  • Analitycy, którzy chcą rozbudować swój warsztat analityczny o narzędzie analizy danych tekstowych
  • Osoby zainteresowane zastosowaniem narzędzi statystycznych, metod uczenia maszynowego w pracy z danymi tekstowymi

Wymagania

  • Podstawowa znajomość języka Python

Zalety

  • Obszerne wprowadzenie do świata analizy danych tekstowych
  • Zapoznanie z najważniejszymi narzędziami i technikami
  • Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
  • Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
  • Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how

Cele szkolenia

  • Zdobycie praktycznych umiejętności i wiedzy pozwalających na wykonywanie analiz języka naturalnego z wykorzystaniem języka Python
  • Zapoznanie z problemami przetwarzania, czyszczenia oraz eksploracji danych tekstowych, a także z wykorzystaniem przygotowanych danych między innymi do budowania modeli uczenia maszynowego

Program

Wprowadzenie

  • Źródła i zastosowania danych tekstowych
  • Definicje pojęć
  • Języki programowania stosowane do analizy danych tekstowych

Podstawowe narzędzia i biblioteki

  • Regex
  • Pandas
  • Scikit-learn
  • NLTK
  • SpaCy

Pozyskiwanie danych tekstowych

  • Wczytywanie danych
  • Czytanie danych z API (np. Twitter)
  • Web scraping

Czyszczenie i normalizacja danych

  • Tokenizacja
  • Usuwanie zbędnych znaków
  • Rozwijanie skrótów
  • Usuwanie nieistotnych słów
  • Poprawianie literówek
  • Stemming/lematyzacja

Wizualizacja danych tekstowych

  • Wykres długości słów
  • Wykres częstości słów
  • Word cloud

Reprezentacje danych tekstowych

  • Document-term matrix
  • word2vec
  • fasttext
  • doc2vec

Podsumowywanie tekstu

  • Kolokacje
  • TextRank

Podobieństwo tekstu

  • Miary podobieństwa słów
  • Miary podobieństwa dokumentów

Uczenie maszynowe w analizie języka naturalnego

  • Klasteryzacja dokumentów
  • Klasyfikacja dokumentów

Znakowanie tekstu częściami mowy

  • Universal tagset
  • Penn TreeBank tagset

Analiza wydźwięku

  • Podejście słownikowe
  • Podejście oparte na metodach uczenia maszynowego

Rozpoznawanie nazw własnych

Semantyczne podobieństwo słów

Parsowanie zdań

  • Parsowanie płytkie
  • Parsowanie zależnościowe

Podobne szkolenia