Ocena jakości opisów alternatywnych AI oraz dostępne reprezentacje diagramów

Zespół Sages

10 marca 2026

Materiały dydaktyczne oraz popularyzujące naukę i kulturę bardzo często opierają się na treściach wizualnych: ilustracjach, zdjęciach, schematach, wzorach czy wykresach. Pomagają one zrozumieć złożone idee i porządkować wiedzę, ale nie dla każdego stanowią one ułatwienie.

Jeśli materiały w formie graficznej nie posiadają poprawnie przygotowanej postaci alternatywnej (na przykład: opisu), osoby z niepełnosprawnościami wzroku pozostają bez dostępu do tych cennych informacji i kontekstów. Stworzenie takich alternatyw zajmuje jednak dużo czasu – zwłaszcza jeśli mowa o zbiorach zawierających wiele specjalistycznych treści, takich jak kursy uniwersyteckie czy zbiory muzealne. Dlatego w Sages realizujemy projekt B+R, którego celem jest automatyzacja tworzenia opisów alternatywnych dla grafik specjalistycznych.

Prace nad projektem są rozłożone na wiele miesięcy, a różne zadania toczą się równolegle. W ostatnim czasie w centrum naszego zainteresowania znajdowały się dwa wątki: ocena jakości opisów generowanych przez modele dla dzieł sztuki i obiektów muzealnych, a także przygotowanie fundamentów pod pracę z diagramami.

Ewaluacja opisów generowanych przez AI: ujęcie ogólne i szczegółowe oraz dążenie do automatyzacji oceny

1. Ogólne porównanie opisów generowanych i wzorcowych

Ta część prac zmierzała do uzyskania odpowiedzi na pytanie: które modele i podejścia pozwalają generować opisy o jakości wyższej lub podobnej w porównaniu z opisami pisanymi przez ludzi, a które wypadają gorzej?

Zarówno ludzie, jak i modele sztucznej inteligencji popełniają – i zawsze będą popełniać – różnego typu błędy podczas tworzenia opisów alternatywnych. Ponieważ nie istnieją rozwiązania idealne, w opracowywaniu metod automatyzacji realnym kryterium sukcesu jest osiągniecie takich wyników, które nie są gorsze w porównaniu z pracą ręczną.

W jaki sposób przebiegało porównanie?

Dla losowego zbioru obiektów muzealnych i dzieł sztuki zebraliśmy ich opisy alternatywne wygenerowane przez poszczególne modele AI oraz napisane przez człowieka,
Opisy każdego obiektu ze zbioru testowego połączyliśmy w pary w systemie „każdy z każdym”,
Anotatorki mające doświadczenie w opisie podobnych obiektów wybierały zwycięzcę spośród każdej pary.

W ocenie wzięliśmy pod uwagę osobno dwa kryteria: treść oraz formę. Zgodnie z pierwszym kryterium wygrywa opis, który przekazuje jak najwięcej informacji, a przy tym nie zawiera przekłamań, a zgodnie z drugim ten, który jest najbardziej poprawny językowo, zwięzły, neutralny stylistycznie i przyjemny w odbiorze. Ten sam opis może wygrać w jednej kategorii, ale przegrać w drugiej.

Anotatorki nigdy nie oceniały obiektów, nad których opisami wcześniej pracowały. Nie wiedziały też, który z opisów został wygenerowany przez model, a który napisany przez inną osobę z zespołu.

Póki co ludzkie teksty plasują się wysoko w rankingach, ale zarówno pod względem stylu, jak i merytorycznej poprawności da się wskazać modele, które dorównują ludziom przynajmniej na jednym polu porównania.

2. Ocena jakościowa

Poza oceną na skali „lepszy – podobny – gorszy” generowane opisy zostały poddane szczegółowej ocenie jakościowej, która wskazywała między innymi fragmenty:

zawierające informacje nieprawdziwe,
o treści mało zrozumiałej lub potencjalnie wprowadzającej w błąd,
powtarzające informacje zawarte w innej części opisu,
niepotrzebnie przytaczające wiedzę zewnętrzną.

Dzięki temu wyraźnie widać, jakie problemy pojawiają się najczęściej w opisach wygenerowanych z użyciem danego podejścia. Pozwala to szczegółowo monitorować wpływ doboru modelu i instrukcji (promptu) na realnie uzyskiwane wyniki.

To ważne, bo naszym celem nie jest jeden model do wszystkiego, tylko rozwiązanie, które finalnie zapewnia przewidywalną jakość.

Dla zastosowań w pełni automatycznych lepszym wyborem może być model mający tendencję do powtarzania informacji, ale rzadko przekłamujący rzeczywistość. Z kolei dla opisów, które docelowo mają być poddane weryfikacji i korekcie przez człowieka, najbardziej atrakcyjny może być brak informacji o nieoczywistej interpretacji, ponieważ oczywiste błędy są znacznie lepsze do zauważenia.

Dzięki podzieleniu zbioru na różne kategorie odpowiadające typom obiektu możliwe jest również wskazanie, które rodzaje zbiorów sprawiają największą trudność poszczególnym modelom.

3. Czy da się zautomatyzować ocenę? Podejście LLM-as-a-judge

Ocena jakości opisów przez człowieka jest najlepszym punktem odniesienia, ale w dłuższej perspektywie trudno ją skalować. Dlatego testujemy podejście LLM-as-a-judge, czyli wykorzystanie dużego modelu językowego do rozstrzygnięcia, który opis zostałby wybrany przez człowieka jako lepszy.

W jaki sposób wybieramy naszego „arbitra”?

Kilka różnych modeli ocenia opisy pod względem ich treści i stylu,
Oceny modeli dotyczą tych samych par, dla których wcześniej zebraliśmy oceny przeszkolonych anotatorek,
Sprawdzamy za pomocą metod statystycznych, który model daje oceny najbardziej zbliżone do oceny człowieka.

Jeżeli znajdziemy model o wysokiej rzetelności i zgodności z ocenami eksperckimi, będziemy mogli:

wykorzystać go jako narzędzie do automatyzacji oceny w kolejnych zadaniach projektu, co przyspieszy kolejne iteracje prac,
docelowo użyć tego mechanizmu w automatycznych narzędziach walidujących dostępność, w których obecnie brakuje jakościowych ocen opisów alternatywnych.

Praca nad diagramami: rozeznanie, formy alternatywne, spójność modeli

Diagramy są bardzo niejednorodną grupą treści. To zróżnicowanie dotyczy nie tylko treści, ale również różnych odmian i poziomu skomplikowania. Zaczęliśmy od porządkowania podstaw: jakie diagramy są najczęściej spotykane i jak je sensownie przetłumaczyć na formę dostępną.

1. Jakie typy diagramów są najczęściej używane?

Na samym początku prac sprawdziliśmy w praktyce, jakie diagramy mają największe szanse na pojawienie się w realnych scenariuszach użycia. Analizę oparliśmy przede wszystkim o praktyczne źródła, takie jak przegląd popularnych narzędzi do tworzenia diagramów i poradników na temat wizualizacji danych, a także o opracowania teoretyczne. Spośród bardzo wielu specyficznych kategorii udało nam się wyłonić 9 bardziej ogólnych typów, w ramach których można wskazać podobne elementy funkcjonalne.

Dzięki temu możemy lepiej planować kolejne działania i stosować różne podejścia dla różnych typów treści, a także łatwiej monitorować wyniki.

2. Jakie formy alternatywne bierzemy pod uwagę?

Dla wielu diagramów kluczowe jest znalezienie takiej formy opisu, która nie jest jedynie krótkim opisem obrazka, ale oddaje strukturę informacji w sposób maksymalnie wykorzystujący możliwości oferowane przez czytniki ekranu.

Dlatego analizujemy możliwe formy prezentacji alternatywnej:

listy, które są dobrym odzwierciedleniem m.in. diagramów przedstawiających hierarchę czy elementy zbiorów,
tabele, które w czytelny sposób grupują dane, pomiędzy którymi zachodzi analogia,
długie opisy, kiedy dane nie są możliwe do przedstawienia w formie bardziej ustrukturyzowanej,
postaci mieszane, które łączą powyższe możliwości, na przykład zawierają listę wraz z krótkim opisem streszczającym inne istotne informacje wynikające z diagramu.

3. Test spójności: diagramy organizacyjne w wielu wariantach wizualnych

W kolejnej części prac przygotowaliśmy zestawy testowe na przykładzie schematów organizacyjnych, zawierające po kilkanaście wariantów wizualnych tej samej treści. Różnią się one między innymi orientacją, wielkością liter, stylem linii i elementów blokowych czy obecnością elementów dekoracyjnych.

Co dzięki temu osiągamy?

Usuwamy czynnik losowy, jakim jest różny wygląd poszczególnych diagramów napotkanych w realnych przykładach, dzięki czemu ewaluacja wyników jest bardziej rzetelna,
Możemy wskazać nie tylko najlepsze podejście, ale również podejście o wynikach najbardziej spójnych, czyli niezależnych od wyglądu diagramu,
Mamy możliwość zauważenia, czy istnieją czynniki utrudniające przetwarzanie diagramów niezależnie od zastosowanego podejścia.

To podejście jest szczególnie ważne, jeśli myślimy o narzędziu, które ma działać w realnym świecie, gdzie te same dane mogą być przedstawione na wiele sposobów.

Kolejne kroki w projekcie

W następnym etapie planujemy:

pogłębić testy oceny jakości opisów i wyłonić metodę, która najlepiej odwzorowuje ocenę człowieka,
przeprowadzić testy różnych metod generowania postaci alternatywnych dla poszczególnych klas diagramów,
rozpocząć prace zmierzające do znalezienia metod generowania postaci alternatywnych dla wykresów.

Docelowo, zgodnie z założeniami projektu, wyniki prac mają zostać ujęte w rozwiązaniu technicznym (API) i wdrożone w narzędziu wspierającym zgodność z WCAG, wraz z testami i iteracyjnymi poprawkami.

Jeśli interesuje Cię podsumowanie wcześniejszych działań w projekcie, zapraszamy do poprzedniego wpisu „AI dla dostępnych opisów alternatywnych dzieł sztuki i grafik specjalistycznych" – opisujemy tam założenia prac oraz rezultaty pierwszego etapu.

Projekt pt. „Opracowanie specjalistycznych algorytmów automatycznie tworzących dostępne dla osób z niepełnosprawnościami wzroku wersje alternatywne grafik specjalistycznych w celu automatycznego zapewniania dostępności cyfrowych materiałów dydaktycznych” współfinansowany jest ze środków Europejskiego Funduszu Rozwoju Regionalnego w ramach Priorytetu: I “Fundusze Europejskie dla bardziej konkurencyjnego i inteligentnego Mazowsza”, Działania: 1.1 “Badania, rozwój i innowacje przedsiębiorstw”, Typ projektów: “Infrastruktura badawczo-rozwojowa przedsiębiorstw” programu Fundusze Europejskie dla Mazowsza 2021 - 2027.

Wartość projektu: 4 887 450,00 PLN Wysokość wkładu z Funduszy Europejskich: 2 432 225,00 PLN

Przeczytaj także

22 kwiecień

User Experience Design w erze AI - W jaki sposób sztuczna inteligencja zmienia sposób korzystania z aplikacji?

Być może niektórzy czytelnicy jeszcze pamiętają tekstowe interfejsy systemu DOS i komunikowanie się z komputerem przy pomocy komend w...

3 kwiecień

Czym jest Baza Usług Rozwojowych i dlaczego warto ją znać?

Jeśli nigdy wcześniej nie spotkaliście się z pojęciem Bazy Usług Rozwojowych (BUR), nie martwcie się – to wciąż stosunkowo mało znane...

1 kwiecień

Rabatka wraca – skorzystaj z 15% zniżki na szkolenia!

Po dwóch latach przerwy wracamy z akcją promocyjną Rabatka, która poprzednio cieszyła się dużym zainteresowaniem.

Powrót do blogów

Kategorie szkoleń

Terminarz - szkolenia otwarte

Szkolenia zamknięte dla Firm

E-learning

Stacja IT - warsztaty dla programistów

Kodołamacz - kursy AI, bootcampy

AI Programming - Nowy kurs PRO by Kodołamacz

Upskilling, reskilling i optymalizacja w IT

AI Programming

AI dla uczelni

AI i analityka danych

Testowanie

Zarządzanie

DevOps / CloudOps

Programowanie

AI & Data Driven Business

Inżynieria uczenia maszynowego i AI

UX Design

Data Science

Big Data

AI-Powered Business Intelligence

Vouchery

Dofinansowania

Promocje

Dokumenty

FAQ

Chatboty

Rozwiązania AI

Cyfrowa dostępność

Usługi DevOps

Chatboty

USOS

SSOP

Omega-PSIR

UNIplaner

Rektorat

Portal Pracowniczy

Wszystkie rozwiązania

Co nas wyróżnia

Referencje

Opinie ze szkoleń

Zespół

Kariera

Wszystkie wpisy

Case studies

Aktualności

Artykuły

Kategorie szkoleń

Terminarz - szkolenia otwarte

Szkolenia zamknięte dla Firm

E-learning

Stacja IT - warsztaty dla programistów

Kodołamacz - kursy AI, bootcampy

AI Programming - Nowy kurs PRO by Kodołamacz

Upskilling, reskilling i optymalizacja w IT

AI Programming

AI dla uczelni

AI i analityka danych

Testowanie

Zarządzanie

DevOps / CloudOps

Programowanie

AI & Data Driven Business

Inżynieria uczenia maszynowego i AI

UX Design

Data Science

Big Data

AI-Powered Business Intelligence

Vouchery

Dofinansowania

Promocje

Dokumenty

FAQ

Chatboty

Rozwiązania AI

Cyfrowa dostępność

Usługi DevOps

Chatboty

USOS

SSOP