Szkolenie: Apache Lucene – wyszukiwanie pełnotekstowe i mechanizmy analityczne
Praktyczne szkolenie z Apache Lucene uczy projektowania i wdrażania wyszukiwania pełnotekstowego w Javie, konfiguracji analizatorów, optymalizacji relewancji, facetingu, DocValues oraz analityki indeksu dla nowoczesnych aplikacji
- Trenerzy praktycy
- Kameralne grupy
Czas trwania szkolenia:2 dni (16h)
Kod kursu:J/LUCENE
Apache Lucene – wyszukiwanie pełnotekstowe i mechanizmy analityczne
Cele szkolenia
Szkolenie przygotowuje do samodzielnego projektowania i wdrażania wyszukiwania pełnotekstowego oraz analityki indeksu z wykorzystaniem Apache Lucene w środowisku Java
Szkolenie uczy doboru i konfiguracji analizatorów tekstu, projektowania schematu indeksu oraz implementacji zapytań rankingowych i filtrowania wyników
Szkolenie pokazuje, jak optymalizować wydajność, zarządzać cyklem życia indeksu oraz rozwiązywać typowe problemy związane z pamięcią, latency i jakością wyników wyszukiwania
Dla kogo?
Programistów Java z doświadczeniem w tworzeniu aplikacji, którzy chcą wdrażać zaawansowane wyszukiwanie pełnotekstowe
Architektów i liderów technicznych odpowiedzialnych za projektowanie i optymalizację warstwy wyszukiwania w systemach informatycznych
Zespoły utrzymujące lub rozwijające systemy oparte o Lucene, zainteresowane poprawą wydajności i jakości wyszukiwania
Inżynierów danych oraz analityków technicznych wykorzystujących indeksy do analityki, sortowania i facetingu
Efekty kształcenia
Uczestnik projektuje i wdraża indeksy Lucene dopasowane do potrzeb aplikacji
Uczestnik konfiguruje analizatory tekstu i mechanizmy rankingowe
Uczestnik buduje zapytania wyszukiwawcze i stosuje faceting oraz DocValues
Uczestnik optymalizuje wydajność i stabilność wyszukiwania
Uczestnik diagnozuje i rozwiązuje typowe problemy produkcyjne
Uczestnik analizuje i interpretuje wyniki wyszukiwania oraz agregacje
Wymagania
Podstawowa umiejętność programowania w języku Java
W cenie otrzymasz:
Materiały szkoleniowe
Certyfikat ukończenia szkolenia
W przypadku szkolenia w trybie stacjonarnym zapewnimy Ci również lunch oraz sprzęt niezbędny do nauki
Program szkolenia
Wprowadzenie do Apache Lucene i przypadki użycia
Czym jest Apache Lucene
Full-text vs analityka indeksu: różnice w modelowaniu pól i przechowywaniu danych
Precyzja vs trafność, czyli dokładność zapytań
Model danych i schemat indeksu
Omówienie podstawowych typów: Document i Field
Konfiguracja celu i zawartości pól: stored fields, indexed fields, term vectors
DocValues jako pola numeryczne i binarne: typy, koszty, zastosowania (sortowanie, faceting, agregacje)
Typy pozwalające na przeszukiwanie po zakresach
Strategie przechowywania danych do prezentacji wyników
Analiza tekstu i jakość wyszukiwania
Typy procesorów tekstowych i ich konfiguracja (tokenizacja, filtry, normalizacja)
Analyzery dla różnych języków i domen
Konfiguracja synonimów, stemming, lemmatyzacja, stopwords
Indeksowanie w praktyce
Dodawanie/aktualizacja/usuwanie dokumentów, idempotencja i identyfikatory
Commit, refresh, near-real-time
Sortowanie podczas indeksowania
Segmenty i mergowanie: opcje MergePolicy, wpływ na IO i latency
Wydajność indeksowania
Stosowanie batchowości oraz paralelizmu w indeksowaniu
Ranking i relewancja
Obliczanie podobieństwa (BM25 i alternatywy): podstawy i strojenie
Boosting pól i funkcje scoringu
Typowe problemy relewancji: „szum”, dopasowania zbyt szerokie, brak trafień
Budowanie zapytań i wyszukiwanie
Typy zapytań: TermQuery, BooleanQuery, PhraseQuery, Prefix/Wildcard/Regexp, PointRangeQuery
Składanie zapytań: must/should/filter, boosting, minimalShouldMatch
Sortowanie wyników i stabilność sortowania
Filtrowanie i cache'owanie zapytań
Highlighting
Wykorzystanie Interval API dla zaawansowanego wyszukiwania tekstowego
Zapytania geograficzne (Opcjonalnie)
Analityka indeksu i wykorzystanie DocValues
Faceting: kategorie, liczniki, nawigacja po wynikach
Agregacje na polach
Projektowanie indeksu pod analitykę: kompromisy pamięć vs szybkość
Aspekty produkcyjne i bezpieczeństwo
Kontrola kosztu zapytań (limity, timeout, ochrona przed „drogimi zapytaniami”)
Diagnostyka i obserwowalność: logowanie zapytań, metryki, profilowanie
Zarządzanie cyklem życia indeksu: snapshoty, rebuild, reindex, migracje schematu
Najczęstsze błędy wdrożeniowe i praktyczne rekomendacje
Wybrane opinie
Przeczytaj pozytywne opinie pochodzące z ankiet satysfakcji z naszych szkoleń wypełnianych wyłącznie przez ich uczestników po realizacji usługi

