Analiza danych tekstowych i języka naturalnego
LICZBA DNI: 3 (24h)
KOD KURSU: ANA/TXT
Weź udział w szkoleniu
Termin
Lokalizacja
Trener
Cena / os
17
marca
Warszawa,
Kraków,
Zdalne,
9
czerwca
Gdańsk,
Poznań,
Warszawa,
Zdalne,
8
września
Wrocław,
Łódź,
Warszawa,
Zdalne,
20
października
Kraków,
Warszawa,
Zdalne,
8
grudnia
Warszawa,
Zdalne,
Termin
17
marca
Lokalizacja
Warszawa,
Kraków,
Zdalne,
Trener
Cena / os
Termin
9
czerwca
Lokalizacja
Gdańsk,
Poznań,
Warszawa,
Zdalne,
Trener
Cena / os
Termin
8
września
Lokalizacja
Wrocław,
Łódź,
Warszawa,
Zdalne,
Trener
Cena / os
Termin
20
października
Lokalizacja
Kraków,
Warszawa,
Zdalne,
Trener
Cena / os
Termin
8
grudnia
Lokalizacja
Warszawa,
Zdalne,
Trener
Cena / os
Powiadom
o kolejnych terminach
O szkoleniu
DLA KOGO?
Programiści, pragnący zastosować w swoich systemach metody odkrywania wiedzy z danych tekstowych
Analitycy, którzy chcą rozbudować swój warsztat analityczny o narzędzie analizy danych tekstowych
Osoby zainteresowane zastosowaniem narzędzi statystycznych, metod uczenia maszynowego w pracy z danymi tekstowymi
WYMAGANIA
Wymagana podstawowa wiedza z programowania w dowolnym języku (np. Python, R, MATLAB itp.)
Doświadczenie w analizie danych
ZALETY
Dużo przykładów użycia do wykorzystania w życiu/pracy
Szerokie zapoznanie słuchacza z dziedziną analizy danych tekstowych i możliwościami jej wykorzystania w pracy
Cele szkolenia
Nauczenie szeregu narzędzi do pracy z danymi tekstowymi, przedstawienie szeregu przykładów użycia pokrywających większość tematów tej dziedziny
Zaprezentowanie podstawowych języków w pracy z tekstami: R, Python oraz Java
Program
Praca z danymi tekstowymi
- Dane tekstowe - ich charakterystyka, trendy
- Analiza danych tekstowych a odkrywanie wiedzy z danych tekstowych
- Krajobraz dziedziny - spacer po różnych obszarach i ich zastosowaniach
- Języki programowania do pracy nad analizą danych tekstowych
- Data Scientist - zawód, który głównie pracuje z danymi tekstowymi
Wstępne przetwarzanie danych oraz proste narzędzia statystyczne
- Wprowadzenie do R
- Pakiet tm do pracy z tekstami
- Czytanie danych
- Istniejące korpusy np. crude, acq
- Z katalogu plików
- Z pliku tekstowego
- Z Internetu
- Czyszczenie i Normalizacja danych
- Usuwanie nieistotnych słów tzw. stop words
- Usuwanie znaków punktacji oraz liczb
- Sprowadzanie do małych liter
- Stemming/lemmatyzacja
- Budowanie macierzy Term-Document
- Wyszukiwanie częstych terminów
- Wyszukiwanie asocjacji
- Usuwanie rzadkich terminów
- Mierzenie podobieństwa między dokumentami i terminami
- Miara Cosinusowa
- Miara Jaccarda
- Wizualizacja ważności terminów w postaci chmury słów
- Tagowanie tekstu częściami mowy
- Przykłady użycia wstępnego przetwarzania tekstów na zbiorach wpisów StackOverflow, korpusach crude, acq, czy danych z Internetu
- Przykłady czytania danych z dobrze zdefiniowanych API (np. Twitter)
- Web scrapping z użyciem R na przykładzie pobierania i agregowanie statystyk NHL
- Parsowanie HTML z użyciem R
Zaawansowane przetwarzanie i wizualizacja danych
- Analiza Sentymentu
- Podejście słownikowe
- Oparte na probabilistycznych modelach bayesowskich
- Rozpoznawanie nazw własnych (ang. Name Entity Recognition)
- Wykrywanie fraz (np. rzeczownikowych czy czasownikowych)
- Drzewa rozkładu
- Penn TreeBank
- Składnica
- Przekrój metod wizualizacji danych w R
- Word length counts plot
- Word frequency plots
- Word clouds
- Correlation plots
- Letter frequency plot
- Letter position
- Heatmap
- Grupowanie tekstów za pomocą różnych metod
- Metody data-centric
- Hierarchical Agglomerative Clustering
- K-means
- Metody description-centric
- Carrot2 oraz Yippy
- SnSRC
- Klasyfikacja na przykładzie detekcji spamu
- K Nearest Neighbours
- SVM
- Naive Bayes
- Semantyczne podobieństwo tekstów
Przetwarzanie danych tekstowych - przykłady użycia zaczerpnięte z komercyjnych projektów
- Python i NLTK w kilku krokach na przykładach: wykrywanie wzorców w danych tekstowych, budowanie słowników nazw własnych, pełnotekstowe wyszukiwanie z użyciem Apache Lucene, miary współwystępowania jako podstawa mierzenia podobieństwa semantycznego
- Budowanie bag-of-words z użyciem filtrów części mowy oraz nazw własnych
- Indukcja znaczeń słów oraz grupowanie wyników według znaczeń
- Budowanie w Javie ekstraktorów danych np. ScholarExtractor
- Ekstrakcja słów kluczowych z tekstów w Javie
- Klasyfikacja publikacji według taksonomii OSJ w Javie
- Wyszukiwanie podobnych kierunków studiów w oparciu o ich opisy kompetencji zapisane w plikach doc(x)/pdf (przetwarzanie tekstów za pomocą Apache Tika oraz ekstrakcja symboli z tekstów w celu zbudowanie ustrukturyzowanej reprezentacji wektorowej, miara Jaccarda jak alternatywa dla cosinusowej)
- Wzbogacanie semantyczne z użyciem Javy oraz zasobów wiedzy (np. Wikipedia i BabelNet)
