Analiza danych tekstowych i języka naturalnego

LICZBA DNI: 3 (24h)

KOD KURSU: ANA/TXT

POZIOM SZKOLENIA:

# text-mining

# information-retrieval

# machine-learning

Najbliższy termin:

9 czerwca 2021

PROWADZI:

Patryk Pilarski

2680 PLN netto + 23% VAT

  • stacjonarne
  • zdalne

STACJONARNE

W CENIE

  • 3 dni pracy z trenerem
  • Materiały szkoleniowe
  • Lunch
  • Certyfikat ukończenia szkolenia

ZDALNE

W CENIE

  • 3 dni pracy z trenerem na żywo online
  • Materiały szkoleniowe
  • Certyfikat ukończenia szkolenia

Czy wiesz, że możesz uzyskać nawet do 100% DOFINANSOWANIA na szkolenie? Napisz do nas »

Oferta dla firm

Dostosuj zakres, czas i miejsce szkolenia do potrzeb Twojego zespołu. Uzyskaj indywidualną wycenę szkolenia dla grupy.

Weź udział w szkoleniu

Termin

Lokalizacja

Trener

Cena / os

9

czerwca

Gdańsk,

Poznań,

Warszawa,

Zdalne,

2680 PLN netto
+ 23% VAT

8

września

Wrocław,

Łódź,

Warszawa,

Zdalne,

2680 PLN netto
+ 23% VAT

20

października

Kraków,

Warszawa,

Zdalne,

2680 PLN netto
+ 23% VAT

8

grudnia

Warszawa,

Zdalne,

2680 PLN netto
+ 23% VAT

Termin

9

czerwca

Lokalizacja

Gdańsk,

Poznań,

Warszawa,

Zdalne,

Trener

Cena / os

2680 PLNnetto
+ 23% VAT

Termin

8

września

Lokalizacja

Wrocław,

Łódź,

Warszawa,

Zdalne,

Trener

Cena / os

2680 PLNnetto
+ 23% VAT

Termin

20

października

Lokalizacja

Kraków,

Warszawa,

Zdalne,

Trener

Cena / os

2680 PLNnetto
+ 23% VAT

Termin

8

grudnia

Lokalizacja

Warszawa,

Zdalne,

Trener

Cena / os

2680 PLNnetto
+ 23% VAT

Powiadom
o kolejnych terminach

O szkoleniu

DLA KOGO?

Programiści, pragnący zastosować w swoich systemach metody odkrywania wiedzy z danych tekstowych

Analitycy, którzy chcą rozbudować swój warsztat analityczny o narzędzie analizy danych tekstowych

Osoby zainteresowane zastosowaniem narzędzi statystycznych, metod uczenia maszynowego w pracy z danymi tekstowymi

WYMAGANIA

Szkolenie **Analiza danych tekstowych i języka naturalnego*

wymaga podstawowej wiedzy z programowania w dowolnym języku (np. Python, R, MATLAB itp.)

Doświadczenie w analizie danych

ZALETY

Dużo przykładów użycia do wykorzystania w życiu/pracy

Szerokie zapoznanie słuchacza z dziedziną analizy danych tekstowych i możliwościami jej wykorzystania w pracy

Cele szkolenia

Nauczenie szeregu narzędzi do pracy z danymi tekstowymi, przedstawienie szeregu przykładów użycia pokrywających większość tematów tej dziedziny

Zaprezentowanie podstawowych języków w pracy z tekstami: R, Python oraz Java

Program

  • Dane tekstowe - ich charakterystyka, trendy
  • Analiza danych tekstowych a odkrywanie wiedzy z danych tekstowych
  • Krajobraz dziedziny - spacer po różnych obszarach i ich zastosowaniach
  • Języki programowania do pracy nad analizą danych tekstowych
  • Data Scientist - zawód, który głównie pracuje z danymi tekstowymi
  • Wprowadzenie do R
  • Pakiet tm do pracy z tekstami
  • Czytanie danych
    • Istniejące korpusy np. crude, acq
    • Z katalogu plików
    • Z pliku tekstowego
    • Z Internetu
  • Czyszczenie i Normalizacja danych
    • Usuwanie nieistotnych słów tzw. stop words
    • Usuwanie znaków punktacji oraz liczb
    • Sprowadzanie do małych liter
    • Stemming/lemmatyzacja
  • Budowanie macierzy Term-Document
  • Wyszukiwanie częstych terminów
  • Wyszukiwanie asocjacji
  • Usuwanie rzadkich terminów
  • Mierzenie podobieństwa między dokumentami i terminami
    • Miara Cosinusowa
    • Miara Jaccarda
  • Wizualizacja ważności terminów w postaci chmury słów
  • Tagowanie tekstu częściami mowy
  • Przykłady użycia wstępnego przetwarzania tekstów na zbiorach wpisów StackOverflow, korpusach crude, acq, czy danych z Internetu
  • Przykłady czytania danych z dobrze zdefiniowanych API (np. Twitter)
  • Web scrapping z użyciem R na przykładzie pobierania i agregowanie statystyk NHL
  • Parsowanie HTML z użyciem R
  • Analiza Sentymentu
    • Podejście słownikowe
    • Oparte na probabilistycznych modelach bayesowskich
  • Rozpoznawanie nazw własnych (ang. Name Entity Recognition)
  • Wykrywanie fraz (np. rzeczownikowych czy czasownikowych)
  • Drzewa rozkładu
    • Penn TreeBank
    • Składnica
  • Przekrój metod wizualizacji danych w R
    • Word length counts plot
    • Word frequency plots
    • Word clouds
    • Correlation plots
    • Letter frequency plot
    • Letter position
    • Heatmap
  • Grupowanie tekstów za pomocą różnych metod
    • Metody data-centric
      • Hierarchical Agglomerative Clustering
      • K-means
    • Metody description-centric
      • Carrot2 oraz Yippy
      • SnSRC
  • Klasyfikacja na przykładzie detekcji spamu
    • K Nearest Neighbours
    • SVM
    • Naive Bayes
  • Semantyczne podobieństwo tekstów
  • Python i NLTK w kilku krokach na przykładach: wykrywanie wzorców w danych tekstowych, budowanie słowników nazw własnych, pełnotekstowe wyszukiwanie z użyciem Apache Lucene, miary współwystępowania jako podstawa mierzenia podobieństwa semantycznego
  • Budowanie bag-of-words z użyciem filtrów części mowy oraz nazw własnych
  • Indukcja znaczeń słów oraz grupowanie wyników według znaczeń
  • Budowanie w Javie ekstraktorów danych np. ScholarExtractor
  • Ekstrakcja słów kluczowych z tekstów w Javie
  • Klasyfikacja publikacji według taksonomii OSJ w Javie
  • Wyszukiwanie podobnych kierunków studiów w oparciu o ich opisy kompetencji zapisane w plikach doc(x)/pdf (przetwarzanie tekstów za pomocą Apache Tika oraz ekstrakcja symboli z tekstów w celu zbudowanie ustrukturyzowanej reprezentacji wektorowej, miara Jaccarda jak alternatywa dla cosinusowej)
  • Wzbogacanie semantyczne z użyciem Javy oraz zasobów wiedzy (np. Wikipedia i BabelNet)

Najbliższe szkolenie poprowadzi:

Patryk Pilarski

Data scientist. Dobrze czuje się w pracy z danymi w każdym rozmiarze – od dużych po małe. Na ścieżce kariery poszukuje interesujących wyzwań oraz możliwości pracy z ciekawymi technologiami, w związku z czym pracował w licznych projektach łączących w sobie wyzwania z zakresu analizy i inżynierii danych. Chętnie zgłębia nowe technologie oraz języki programowania. Stara się również przekazywać pozyskaną wiedzę i umiejętności wcielając się w rolę trenera.

POLITYKA COOKIES:

Korzystamy z plików cookies, by móc jak najlepiej dostosować stronę do Twoich potrzeb oraz wyświetlać Ci przydatne i adekwatnych dla Ciebie reklamy w serwisie i poza nim. Możesz kontrolować ustawienia ciasteczek w swoich ustawieniach swojej przeglądarki. Odwiedzając tę stronę, wyrażasz zgodę na wykorzystywanie przez nas plików cookies.