Analiza danych tekstowych i języka naturalnego

LICZBA DNI: 3 (24h)

KOD KURSU: ANA/TXT

Powiadom
o kolejnych terminach

# text-mining

# information-retrieval

# machine-learning

O szkoleniu

DLA KOGO?

Programiści, pragnący zastosować w swoich systemach metody odkrywania wiedzy z danych tekstowych

Analitycy, którzy chcą rozbudować swój warsztat analityczny o narzędzie analizy danych tekstowych

Osoby zainteresowane zastosowaniem narzędzi statystycznych, metod uczenia maszynowego w pracy z danymi tekstowymi

WYMAGANIA

Wymagana podstawowa wiedza z programowania w dowolnym języku (np. Python, R, matlab itp)

Doświadczenie w analizie danych

ZALETY

Dużo przykładów użycia do wykorzystania w życiu/pracy

Szerokie zapoznanie słuchacza z dziedziną analizy danych tekstowych, i możliwościami jej wykorzystania w pracy

Cele szkolenia

Nauczenie szeregu narzędzi do pracy z danymi tekstowymi, przedstawienie szeregu przykładów użycia pokrywających większość tematów tej dziedziny

Zaprezentowanie podstawowych języków w pracy z tekstami: R, Python oraz Java

Program

  • Dane tekstowe - ich charakterystyka, trendy
  • Analiza danych tekstowych a odkrywanie wiedzy z danych tekstowych
  • Krajobraz dziedziny - spacer po różnych obszarach i ich zastosowaniach
  • Języki programowania do pracy nad analizą danych tekstowych
  • Data Scientist - zawód, który głównie pracuje z danymi tekstowymi
  • Wprowadzenie do R
  • Pakiet ‘tm’ do pracy z tekstami
  • Czytanie danych
    • istniejące korpusy np. crude, acq
    • z katalogu plików
    • z pliku tekstowego
    • z Internetu
  • Czyszczenie i Normalizacja danych
    • usuwanie nieistotnych słów tzw. stop words
    • usuwanie znaków punktacji oraz liczb
    • sprowadzanie do małych liter
    • stemming/lemmatyzacja
  • Budowanie macierzy Term-Document
  • Wyszukiwanie częstych terminów
  • Wyszukiwanie asocjacji
  • Usuwanie rzadkich terminów
  • Mierzenie podobieństwa między dokumentami i terminami
    • Miara Cosinusowa
    • Miara Jaccarda
  • Wizualizacja ważności terminów w postaci chmury słów
  • Tagowanie tekstu częściami mowy
  • Przykłady użycia wstępnego przetwarzania tekstów na zbiorach wpisów StackOverflow, korpusach crude, acq, czy danych z Internetu
  • Przykłady czytania danych z dobrze zdefiniowanych API (np. TwiiterR)
  • Web scrapping z użyciem R na przykładzie pobierania i agregowanie statystyk NHL
  • Parsowanie HTML z użyciem R
  • Analiza Sentymentu
    • podejście słownikowe
    • oparte na probabilistycznych modelach bayesowskich
  • Rozpoznawanie nazw własnych (ang. Name Entity Recognition)
  • Wykrywanie fraz (np. rzeczownikowych czy czasownikowych)
  • Drzewa rozkładu
    • Penn TreeBank
    • Składnica
  • Przekrój metod wizualizacji danych w R
    • word length counts plot,
    • word frequency plots,
    • word clouds,
    • correlation plots,
    • letter frequency plot,
    • letter position,
    • heatmap
  • Grupowanie tekstów za pomocą różnych metod
    • Metody data-centric
      • Hierarchical Agglomerative Clustering,
      • K-means,
    • Metody description-centric
      • Carrot2 oraz Yippy,
      • SnSRC,
  • Klasyfikacja na przykładzie detekcji spamu
    • K Nearest Neighbours,
    • SVM,
    • Naive Bayes
  • Semantyczne podobieństwo tekstów
  • Python i NLTK w kilku krokach na przykładach: wykrywanie wzorców w danych tekstowych, budowanie słowników nazw własnych, pełnotekstowe wyszukiwanie z użyciem Apache Lucene, miary współwystępowania jako podstawa mierzenia podobieństwa semantycznego
  • Budowanie bag-of-words z użyciem filtrów części mowy oraz nazw własnych
  • Indukcja znaczeń słów oraz grupowanie wyników według znaczeń
  • Budowanie w Javie ekstraktorów danych np. ScholarExtractor
  • Ekstrakcja słów kluczowych z tekstów w Javie
  • Klasyfikacja publikacji według taksonomii OSJ w Javie
  • Wyszukiwanie podobnych kierunków studiów w oparciu o ich opisy kompetencji zapisane w plikach doc(x)/pdf (przetwarzanie tekstów za pomocą Apache Tika oraz ekstrakcja symboli z tekstów w celu zbudowanie ustrukturyzowanej reprezentacji wektorowej, miara Jaccarda jak alternatywa dla cosinusowej)
  • Wzbogacanie semantyczne z użyciem Javy oraz zasobów wiedzy (np. Wikipedia and BabelNet)

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.