Analiza danych tekstowych i języka naturalnego
Czas trwania szkolenia:3 dni (24h)
Kod kursu:ANA/TXT
Poziom zaawansowania:
O szkoleniu Analiza danych tekstowych i języka naturalnego
W cenie otrzymasz:
- Materiały szkoleniowe
- Certyfikat ukończenia szkolenia
- W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Dla kogo?
- Programiści, pragnący zastosować w swoich systemach metody odkrywania wiedzy z danych tekstowych
- Analitycy, którzy chcą rozbudować swój warsztat analityczny o narzędzie analizy danych tekstowych
- Osoby zainteresowane zastosowaniem narzędzi statystycznych, metod uczenia maszynowego w pracy z danymi tekstowymi
Wymagania
- Podstawowa znajomość języka Python
Zalety
- Obszerne wprowadzenie do świata analizy danych tekstowych
- Zapoznanie z najważniejszymi narzędziami i technikami
- Praktyka przed teorią - wszystkie szkolenia technologiczne prowadzone są w formie warsztatowej. Konieczna teoria jest wyjaśniana na przykładzie praktycznych zadań
- Konkretne umiejętności - w ramach każdego szkolenia rozwijamy praktyczne umiejętności związane z daną technologią i tematyką
- Nauka z praktykami - wszyscy trenerzy na co dzień pracują w projektach, gwarantuje to dostęp do eksperckiej wiedzy i praktycznego know-how
Cele szkolenia
- Zdobycie praktycznych umiejętności i wiedzy pozwalających na wykonywanie analiz języka naturalnego z wykorzystaniem języka Python
- Zapoznanie z problemami przetwarzania, czyszczenia oraz eksploracji danych tekstowych, a także z wykorzystaniem przygotowanych danych między innymi do budowania modeli uczenia maszynowego
Program
Wprowadzenie
- Źródła i zastosowania danych tekstowych
- Definicje pojęć
- Języki programowania stosowane do analizy danych tekstowych
Podstawowe narzędzia i biblioteki
- Regex
- Pandas
- Scikit-learn
- NLTK
- SpaCy
Pozyskiwanie danych tekstowych
- Wczytywanie danych
- Czytanie danych z API (np. Twitter)
- Web scraping
Czyszczenie i normalizacja danych
- Tokenizacja
- Usuwanie zbędnych znaków
- Rozwijanie skrótów
- Usuwanie nieistotnych słów
- Poprawianie literówek
- Stemming/lematyzacja
Wizualizacja danych tekstowych
- Wykres długości słów
- Wykres częstości słów
- Word cloud
Reprezentacje danych tekstowych
- Document-term matrix
- word2vec
- fasttext
- doc2vec
Podsumowywanie tekstu
- Kolokacje
- TextRank
Podobieństwo tekstu
- Miary podobieństwa słów
- Miary podobieństwa dokumentów
Uczenie maszynowe w analizie języka naturalnego
- Klasteryzacja dokumentów
- Klasyfikacja dokumentów
Znakowanie tekstu częściami mowy
- Universal tagset
- Penn TreeBank tagset
Analiza wydźwięku
- Podejście słownikowe
- Podejście oparte na metodach uczenia maszynowego
Rozpoznawanie nazw własnych
Semantyczne podobieństwo słów
Parsowanie zdań
- Parsowanie płytkie
- Parsowanie zależnościowe