Szkolenie: Analiza danych tekstowych i języka naturalnego
Podczas szkolenia uczestnicy dowiedzą się jak pozyskiwać i przetwarzać informacje z danych tekstowych, wykorzystując do tego programowanie w języku Python. Dodatkowo poznają również zagadnienia związane z Large Language Models (LLM).
- Trenerzy praktycy
- Kameralne grupy
Czas trwania szkolenia:3 dni (24h)
Kod kursu:ANA/TXT
Analiza danych tekstowych i języka naturalnego
Cele szkolenia
- Zdobycie praktycznych umiejętności i wiedzy pozwalających na wykonywanie analiz języka naturalnego z wykorzystaniem języka Python 
- Zapoznanie z problemami przetwarzania, czyszczenia oraz eksploracji danych tekstowych, a także z wykorzystaniem przygotowanych danych między innymi do budowania modeli uczenia maszynowego 
- Wprowadzenie do Large Language Models (LLM) 
Dla kogo?
- Programiści, pragnący zastosować w swoich systemach metody odkrywania wiedzy z danych tekstowych 
- Analitycy, którzy chcą rozbudować swój warsztat analityczny o narzędzie analizy danych tekstowych 
- Osoby zainteresowane zastosowaniem narzędzi statystycznych, metod uczenia maszynowego w pracy z danymi tekstowymi 
Zalety
- Obszerne wprowadzenie do świata analizy danych tekstowych 
- Wykorzystanie modeli LLM od OpenAI 
- Przegląd zarówno klasycznych jak i współczesnych podejść do analizy tekstu 
Wymagania
- Podstawowa znajomość języka Python 
W cenie otrzymasz:
- Materiały szkoleniowe 
- Certyfikat ukończenia szkolenia 
- W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki 
Program szkolenia
Regex
- Czym są wyrażenia regularne? 
- Patterny 
- Znaki specjalne 
- Funkcje biblioteki re 
Pozyskiwanie tekstu
- API 
- Web scraping 
Preprocessing tekstu
- Tokenizacja 
- Eliminacja interpunkcji i znaków specjalnych 
- Usuwanie stopwords 
- Stemming i lematyzacja 
- Wykrywanie i usuwanie danych osobowych 
Wizualizacja danych tekstowych
- Word cloud 
- Wykres częstości słów 
- Wykres długości zdań 
Wektoryzacja i embeddingi
- Document-term matrix 
- TF-IDF 
- word2vec 
- fasttext 
- doc2vec 
Miary podobieństwa tekstu
- Odległość Hamminga 
- Odległość Levenshteina 
- Odległość Cosinusowa 
Uczenie maszynowe w analizie języka naturalnego
- Klasyfikacja dokumentów 
- Analiza sentymentu 
- Klasteryzacja dokumentów 
Rozpoznawanie nazw własnych
Large Language Models
- Wprowadzenie do LLM na przykładzie modelu GPT 
- OpenAI API 
- Zamiana tekstu na obraz i audio 
- LangChain 
Wybrane opinie
Przeczytaj pozytywne opinie pochodzące z ankiet satysfakcji z naszych szkoleń wypełnianych wyłącznie przez ich uczestników po realizacji usługi

