Innowacyjny projekt Sages – sztuczna inteligencja przeciw wykluczeniu cyfrowemu osób z niepełnosprawnościami

Sages

20 lutego 2022

Powszechność rozwiązań cyfrowych w nauce, pracy, kulturze i życiu społecznym stawia przed twórcami aplikacji i witryn internetowych wyzwania, aby produkty cyfrowe były dostępne dla jak największej liczby osób. Jednym z takich wyzwań jest dostosowywanie treści do potrzeb osób z niepełnosprawnościami. Rozwiązania aktualnie istniejące na rynku są wciąż niewystarczające i kosztowne, ponieważ w dużej mierze wymagają ręcznego wprowadzania dodatkowych opisów i oznaczeń. Innowacyjny projekt Sages przy wykorzystaniu sztucznej inteligencji automatyzuje proces dostosowania dokumentów i stron internetowych do standardów dostępności zgodnie z wytycznymi WCAG.

WCAG (Web Content Accessibility Guidelines) to zbiór wytycznych dotyczących dostępności treści internetowych. W tym dokumencie możemy znaleźć zalecenia, jak tworzyć strony internetowe i aplikacje tak, aby osoby z niepełnosprawnościami np. wzroku, słuchu, ruchu czy też z niepełnosprawnością intelektualną mogły z nich korzystać. W Polsce promocją standardu WCAG zajmuje się Forum Dostępnej Cyberprzestrzeni, w skład którego wchodzą różne organizacje, m.in. Fundacja Widzialni.

Problemy z dostępnością serwisów internetowych, nawet w przypadku podmiotów publicznych

Celem statutowym Fundacji Widzialni jest przeciwdziałanie wykluczeniu cyfrowemu i społecznemu, tzn. umożliwienie wszystkim obywatelom swobodnego dostępu do zasobów internetowych niezależnie od ich wieku, niepełnosprawności, zamożności, sprzętu i oprogramowania. Fundacja Widzialni co roku przygotowuje raport dostępności serwisów administracji publicznej. Jak wynika z ostatniego badania, w 2020 roku poziom dostępności serwisów podmiotów publicznych wyniósł jedynie 58%, co – jak możemy przeczytać na stronie fundacji – nie jest satysfakcjonujące¹, zwłaszcza że do owej dostępności podmioty te zobowiązuje ustawa z 2019 roku².

Z czego to wynika?

Niski wskaźnik dostępności może być spowodowany długim brakiem na rynku automatycznych rozwiązań, które umożliwiają w łatwy i szybki sposób dostosowanie dokumentu czy serwisu do wymogów dostępności. Taki mechanizm ułatwia pracę redaktorów i twórców serwisów internetowych, a co ważniejsze – upowszechnia praktykę tworzenia stron bez barier dla osób z niepełnosprawnościami.

Według statystyk dostępnych na portalu Stowarzyszenia Otwarte Drzwi 10–15% obywateli krajów Unii Europejskiej stanowią osoby z różnego rodzaju niepełnosprawnościami³, dlatego prace nad automatyzacją tych procesów są niezwykle istotne.

Jak wygląda korzystanie z Internetu przez osoby z niepełnosprawnościami?

W jaki sposób osoby z niepełnosprawnościami korzystają z sieci i z jakimi barierami się spotykają? O odpowiedź na to pytanie poprosiliśmy Sebastiana Deptę, Specjalistę ds. dostępności cyfrowej w Fundacji Widzialni, który doskonale zna problemy związane z dostępnością serwisów i dokumentów, nie tylko ze względu na zajmowane stanowisko, ale także na własne doświadczenia, ponieważ jest osobą słabowidzącą.

Jak wyjaśnia Sebastian Depta – istnieje wiele programów ułatwiających odczyt treści cyfrowych dla osób słabowidzących i niewidomych. Przede wszystkim są to czytniki ekranowe, czyli programy komputerowe, które rozpoznają i interpretują informacje wyświetlane na monitorze komputera, a następnie przedstawiają je użytkownikowi w postaci głosowej lub zostają wysłane do brajlowskiego urządzenia wyjściowego. Czytniki ekranowe są formą technologii asystujących, wykorzystywaną m.in. przez osoby niewidome, niedowidzące, głuchoniewidome czy mające trudności w uczeniu się.

Na rynku dostępnych jest wiele czytników, w zależności od systemu operacyjnego czy urządzenia. Przykładowo dla systemu Windows dostępne są narzędzia bezpłatne – NVDA, Narrator systemu Windows i płatne – JAWS, ZoomText Fusion, dla Apple – VoiceOver, na Androidzie – VoiceAssistance lub TalkBack, na Linuxie aplikacja ORCA czy ChromeVox w przeglądarce Google Chrome.

To, czy osoba niewidoma może skorzystać z dostępnych narzędzi ułatwiających odczyt treści w sieci, warunkuje przygotowanie strony internetowej i jej zgodność ze standardami dostępności.

Jeśli ktoś zaniedba dostępność WWW lub o niej w ogóle nie pomyśli, nie dotrę do treści – tłumaczy Sebastian Depta na łamach publikacji „Dostępne multimedia”⁴.

Najczęściej spotykane bariery w korzystaniu z sieci wyszczególnione przez Sebastiana Deptę to:

linki bez jednoznacznych opisów
kontrolki formularzy bez powiązanych etykiet lub bez jakichkolwiek etykiet
grafiki bez opisów alternatywnych lub z niejednoznacznymi opisami
niewłaściwa struktura nagłówków
problemy z logiczną kolejnością odczytu treści
problemy z kodem, co może sprawiać, że czytniki mają problem z odczytem danej strony lub poprzez błędy przestają działać
niewłaściwy kontrast
dostęp z poziomu klawiatury

Oczywiście tutaj można wymieniać wiele problemów, w zależności od potrzeb, jakie ma osoba niepełnosprawna. Można tutaj mówić o braku świadomości twórców stron oraz redaktorów, jeśli chodzi o potrzeby osób z niepełnosprawnościami, ale ostatnio to się trochę zmienia na plus. Osobiście jednak zauważam kolejny problem, który wynika nie z braku świadomości, ale z błędnego podejścia do rozwiązań – niewłaściwe myślenie, błędne interpretacje etc. co może powodować jeszcze więcej problemów niż wcześniej.

W przypadku dokumentów jest podobnie. Coraz rzadziej spotykam skany, jednak jeszcze można spotkać strony, gdzie takie dokumenty są udostępniane. Kolejne to dokumenty, które zostały niewłaściwie eksportowane do formatu PDF i posiadają wiele błędów, które utrudniają odczyt, np. poprzez brak zastosowania śródtytułów, opisywania linków, grafik, odpowiedniej implementacji tabel z danymi etc. To wszystko przyczynia się, do faktu, że odczyt takich dokumentów jest uciążliwy/utrudniony – wymaga skupienia lub należy poświęcić zbyt dużo czasu, aby odszukać lub pozyskać konkretną informację.

Jak dowiadujemy się z publikacji „Dostępne multimedia” – częstym problemem i barierą w korzystaniu z sieci w przypadku osób niepełnosprawnych są też zbyt trudne treści. Dotyczy to nie tylko osób niepełnosprawnych intelektualnie, lecz także m.in. osób głuchych, które mogą mieć problem ze zrozumieniem treści w języku polskim, ponieważ jest on ich drugim językiem, po języku migowym.

Dostosowanie stron do wymogów dostępności wymaga ręcznych oznaczeń

Sebastian Depta wyjaśnia, w jaki sposób strony internetowe są dostosowywane do potrzeb osób z niepełnosprawnościami:

Najczęściej, jeśli strona już istnieje, odbywa się to poprzez audyt. Eksperci typują przykładowe strony, następnie analizują je pod kątem standardu WCAG 2.1 na poziomie AA. Następnie przygotowany jest raport, który zawiera wykaz błędów, jakie zostały znalezione i przedstawione, są przykłady rozwiązań wraz z odnośnikami do zasobów, jak można dany problem rozwiązać. Taki raport przekazywany jest twórcy strony czy aplikacji i tu rozpoczyna się praca programistów, którzy implementują poprawki, zgodnie z rekomendacjami.

Drugi sposób, to podczas tworzenia strony, uwzględnia się już standard WCAG i tworzy dane rozwiązanie, tak aby było dostępne cyfrowo.

W skrócie – wprowadza się odpowiednie poprawki w kodzie źródłowym strony, aby dane rozwiązanie było zgodne z wytycznymi standardu WCAG.

Podobnie wygląda to w przypadku dokumentów cyfrowych. Należy ręcznie opisać poszczególne sekcje dokumentu za pomocą odpowiednich znaczników HTML/PDF – jest to kosztowne i bardzo czasochłonne zajęcie – edycja jednego dokumentu może zająć nawet cały dzień.

Dlaczego dostosowywanie stron i dokumentów elektronicznych do standardów dostępności jest ważne?

Pierwszą i najważniejszą kwestią, na którą należy zwrócić uwagę, jest fakt, że poprzez likwidację barier cyfrowych, osoby ze szczególnymi potrzebami mogą na podobnym poziomie korzystać ze stron www czy dokumentów. Daje to ogromne szanse, m.in. na pozyskiwanie informacji, w szczególności nabywanie dodatkowych kompetencji, co sprawia, że osoby takie mają większe szanse na otwartym rynku pracy. Dzięki dostępnym serwisom www, aplikacjom mobilnym czy dostępnym dokumentom mogą się edukować, rozwijać swoje pasje etc. – to drugi ważny element. Kolejne to np. załatwianie spraw urzędowych, zakupy czy korzystanie z bankowości elektronicznej – nie wyobrażam sobie w dzisiejszych czasach, aby poprzez niedostępną stronę nie wykonać przelewu (np. opłacić rachunki za telefon, Internet etc.).

Kolejny ważny argument, to czynny udział w życiu kulturalnym. Dzięki dostępności, osoby takie mają ułatwiony dostęp do filmów, sztuk teatralnych, mogą zapoznać się z twórczością artysty (opisy obrazów, rzeźb etc.) – wyjaśnia Sebastian Depta.

Nowy projekt Sages ułatwia korzystanie z sieci i dokumentów cyfrowych osobom z niepełnosprawnościami

Celem projektu było wytworzenie innowacyjnego rozwiązania, które umożliwia automatyczne dostosowanie dokumentów tekstowych i tekstowo-graficznych do standardów dostępności, określonych w zaleceniach WCAG 2.1.⁵.

Zaproponowane przez Sages rozwiązania przy wykorzystaniu głębokich sieci neuronowych, oprogramowania OCR i metod analizy obrazu określają strukturę dokumentu na podstawie cech wizualnych i metadanych, automatycznie generują opisy zdjęć, tabel, wykresów i rysunków w języku naturalnym (polskim, z możliwością dostosowania do innych języków, szczególnie języka angielskiego) oraz rozpoznają te obiekty w kontekście.

Rozwiązania opracowane dla dokumentów stosowane są także w przypadku stron internetowych i aplikacji.

Rozpoznawanie struktury dokumentu i segmentacja obiektów

Na początku kluczowe jest określenie struktury dokumentów. Rozpoznawanie właściwej kolejności odczytu takich elementów jak: nagłówki, bloku tekstu (również w układzie wieloszpaltowym czy na plakacie), paginacja, przypisy, wykresy, tabele, ilustracje itp. – także w dokumentach dostępnych jako obraz (skan, zdjęcie) – pozwala osobom z niepełnosprawnościami swobodnie poruszać się po dokumencie przy wykorzystaniu np. narzędzi typu text-to-speech. Wyuczony model przewidywania elementów w dokumentach tekstowych umożliwia przewijanie tekstu, pomijanie określonych informacji, przejście do następnego punktu czy kolejnej tabeli.

Elementy na zdjęciu interpretowane w kontekście

Wytyczne WCAG określają obligatoryjność stosowania ekwiwalentów tekstowych w przypadku wszystkich treści nietekstowych. Aby to osiągnąć na dużą skalę, konieczne było wprowadzenie rozwiązań automatycznych.

To, że algorytm jest w stanie rozpoznać obiekt na zdjęciu, nie jest już dla nikogo zaskoczeniem. Natomiast stworzenie właściwego opisu zdjęcia w języku naturalnym wciąż nie jest oczywiste. Problemem może być wieloaspektowość informacji przekazywanej obrazem. Na zdjęciach często znajduje się wiele elementów, które można różnie interpretować.

Rozwiązanie, które miało efektywnie zastąpić obraz tekstem, wymagało więc nie tylko rozpoznawania elementów na obrazie, lecz także decyzji o najistotniejszych relacjach między tymi elementami w kontekście. Projekt Sages zakładał stworzenie mechanizmu, który – dzięki architekturze opartej o głębokie sieci neuronowe – zidentyfikuje elementy na zdjęciu, zinterpretuje scenę i wygeneruje ekwiwalent tekstowy kluczowej informacji zawartej na obrazie w kontekście treści dokumentu.

Co to oznacza? Zamiast długiego opisu poszczególnych elementów, algorytm interpretuje, o jaką informację chodzi w kontekście całego tekstu, biorąc pod uwagę sąsiadujące elementy i oryginalny podpis tekstowy. Dzięki temu wygenerowany opis może być krótki i treściwy i – zgodnie z wytycznymi WCAG – pełnić tę samą funkcję, co obraz.

Dodatkowo na jednym z elementów prac nastąpiła normalizacja obrazu – korekta jasności i kontrastu, co ułatwia odczytanie zdjęcia także osobom słabowidzącym.

Opis wykresu, rysunku i tabeli wciąż wyzwaniem dla algorytmu/komputera(?)

Dostosowanie wykresów, tabel i rysunków do wymogów dostępności wymaga zastosowania innego rodzaju mechanizmów niż w przypadku interpretacji zdjęć. Dla porównania, mechanizm opisywania zdjęcia powinien wygenerować dla wykresu opis typu: „Szereg zielonych słupków różnej długości na białym tle”, podczas gdy procedura opisywania wykresów polega na wygenerowaniu opisu typu: „Wykres słupkowy. Na osi X przedstawione zostały przedziały wiekowe, na osi Y populacja. Dla wartości ‘30–40 lat’ populacja jest najliczniejsza i wynosi … osób”.

Interpretacja wykresu wymaga opisu oddającego kluczowe informacje oraz wnioski, a więc interpretacji semantycznej – relacji między poszczególnymi elementami i rozpoznania danych. Metoda opracowana przez Sages pozwala na generowanie odpowiedników tekstowych, które stanowią ekwiwalent interpretacji wykresu przez człowieka, a więc nie tylko identyfikacja osi wykresu, ich opisów, skali, jednostek oraz wartości serii danych, ale zwrócenie uwagi na kluczowe cechy prezentowanych danych, na przykład punkty przegięcia, minimum, maksimum, trend itp.

Do automatycznego generowania opisów wykresów i tabel użyta została architektura sieci neuronowej poddana procesowi uczenia z wykorzystaniem metadanych (tytuł, nazwy osi itp.). W przypadku tabel natomiast została wyuczona sieć typu Encoder-Decoder.

Innym ważnym elementem projektu było dostosowanie dostępnych metod generowania tekstu do specyfiki języka polskiego.

Automatyczna identyfikacja elementów wymagających wyjaśnienia

Wytyczne WCAG wskazują na konieczność stosowania ułatwień dla osób o mniejszym zasobie słów przez łączenie ich z odnośnikami definicyjnymi np. w przypadku słownictwa specjalistycznego, żargonu czy skrótów. Ułatwia to zrozumienie dokumentów cyfrowych i stron internetowych osobom głuchym, słabo wykształconym lub upośledzonym umysłowo.

Na tym etapie prac zespół Sages skupił się na stworzeniu algorytmu, który zautomatyzował proces łączenia trudnych słów z ich definicjami. Kluczowa była tu identyfikacja, które słowa wymagały wyjaśnienia. Jako słownik definicyjny została wykorzystana Słowosieć, czyli polska wersja ontologii typu Wordnet. Wiązało się to także ze skomplikowanym procesem ujednoznaczniania sensu słów (Word Sense Disambiguation).

W tym celu został wykorzystany model bazujący na uczeniu nienadzorowanym, który charakteryzuje się możliwością zastosowania do słów wcześniej przez algorytm niewidzianych. Dotychczasowe rozwiązania skuteczności algorytmu łączenia pojęć z definicjami koncentrowały się na ujednoznacznianiu słów w zbiorach zamkniętych. Sages natomiast wprowadził nowy model, w którym algorytm skutecznie identyfikuje i przyporządkowuje definicje w tekstach wcześniej nieanalizowanych.

Automatyzacja pozostałych wytycznych WCAG 2.1.

W dalszych etapach prac zautomatyzowano pozostałe wytyczne wskazane przez WCAG. A szczególnie:

wprowadzenie metod, które zapewniły możliwość odczytywania przez odbiorcę treści bez wykorzystania informacji o kolorze poszczególnych elementów, które jest tak samo wartościowe dla osób obserwujących różnice kolorystyczne
generowanie opisu w języku naturalnym opisu odsyłaczy i linków w tekście
określenie języków występujących w dokumencie

Wszystkie wypracowane metody zostały zaimplementowane do aplikacji, która na wejściu otrzymuje dokument w postaci zbioru plików graficznych PDF, DOCX, EPUB, MOBI itp., a zwraca dokument PDF anotowany zgodnie z wytycznymi WCAG 2.1. Działa również w trybie software-as-a-service, czyli oprogramowania dostępnego w sieci.

Rozwiązania Sages w praktyce

Mechanizm odczytuje zarówno publikacje naukowe, jak i infografiki czy memy

Ze względu na opracowanie wykresów, tabel czy rysunków mechanizm znajduje zastosowanie w przypadku publikacji naukowych i dokumentów urzędowych. Jego potencjał nie kończy się jednak na adnotacji tego typu plików.

Zasadniczo ten mechanizm jest potrzebny w bardzo wielu miejscach, nie tylko w kontekście dokumentów, ale też na Twitterze czy na Facebooku, czy też na stronach internetowych i w aplikacjach webowych. To spektrum zastosowań jest bardzo szerokie – zaznacza Łukasz Kobyliński, CSO firmy Sages i zarządzający projektem.

W dobie kultury obrazkowej i social mediów, gdzie informacje często przekazywane są za pomocą infografik i zdjęć (por. komunikaty Ministerstwa Zdrowia na Facebooku), wiele osób jest wykluczonych z odbioru tego typu treści. Likwidacja barier cyfrowych dla osób niepełnosprawnych to zwiększenie dostępności do kultury i życia społecznego, zdobywania kompetencji i edukacji oraz pracy.

Dlaczego to zrobiliśmy? Dlaczego Sages?

Mamy doświadczenie w technologiach i metodach, które są potrzebne do zrealizowania tego zadania. Jestem pewny, że zgromadziliśmy najlepszy możliwy zespół. Ten projekt potencjalnie może zmienić rzeczywistość wielu osób, które do tej pory nie miały dostępu do informacji lub miały ten dostęp utrudniony. Cieszę się, że my to realizujemy i mam nadzieję, że to się faktycznie przełożyły się na realną zmianę dla tych osób. Jest to dodatkowa wartość tego projektu – Łukasz Kobyliński

Poza wymiarem społecznym rozwiązanie Sages ma także duży potencjał biznesowy. Projekt znajduje zastosowanie np. w komercyjnej usłudze adnotacji dokumentów.

Sages w sztucznej inteligencji widzi przyszłość

To nie pierwszy tak innowacyjny projekt firmy. Sages współpracuje z instytucjami, uczelniami wyższymi oraz firmami, które mają wizję zmieniania świata przy wykorzystaniu uczenia maszynowego i sztucznej inteligencji.

W portfolio Sages można znaleźć takie projekty, jak obsługa klienta oparta na sztucznej inteligencji, tworzenie asystenta głosowego dla e-commerce czy optymalizacja potoku przetwarzania Big Data, a także oprogramowanie Omega-PSIR, czyli system informacji naukowej nr 1 w Polsce i nr 5 na świecie jeżeli chodzi o liczbę wdrożeń oprogramowania tego typu.

Sages tworzą specjaliści z doświadczeniem w przetwarzaniu języka naturalnego, przetwarzaniu obrazu, bezpieczeństwa systemów i data science. Łączą oni research z praktyką biznesową oraz pomagają przekształcić pomysł lub projekt badawczy tak, by wprowadzić go na rynek. Firma jest otwarta na wyzwania i chętnie podejmuje współpracę przy projektach związanych z NLP i AI/ML.

Przypisy

Przeczytaj także

4 listopad

AgentKit od OpenAI – nowa era budowania agentów AI. Dlaczego warto poznać go ze szkoleniem Sages?

Poznaj AgentKit od OpenAI – nowy sposób budowy agentów AI. Dowiedz się, jak wykorzystać go w biznesie i zapisz się na szkolenie Sages...

1 wrzesień

AI & NLP Day razem z Confiturą 2025 już we wrześniu

AI & NLP Day w ramach Confitury 2025 - najnowsze trendy AI, polskie LLM i praktyczne zastosowania. Już 19-20 września w Warszawie!

27 sierpień

Pożyczka na cyfryzację dla uczelni – jak sfinansować inwestycje IT już dziś

Trwa nabór na Pożyczkę na cyfryzację realizowaną w ramach Krajowego Planu Odbudowy przez Ministerstwo Cyfryzacji.

Powrót do blogów

Kategorie szkoleń

Terminarz - szkolenia otwarte

Szkolenia zamknięte dla Firm

E-learning

Stacja IT - warsztaty dla programistów

Kodołamacz - kursy AI, bootcampy

AI Programming - Nowy kurs PRO by Kodołamacz

Upskilling, reskilling i optymalizacja w IT

AI Programming

AI dla uczelni

AI i analityka danych

Testowanie

Zarządzanie

DevOps / CloudOps

Programowanie

AI & Data Driven Business

Inżynieria uczenia maszynowego i AI

UX Design

Data Science

Big Data

Wizualna analityka danych

Vouchery

Dofinansowania

Promocje

Dokumenty

FAQ

Chatboty

Rozwiązania AI

Cyfrowa dostępność

Usługi DevOps

Chatboty

USOS

SSOP

Omega-PSIR

UNIplaner

Rektorat

Portal Pracowniczy

Wszystkie rozwiązania

Co nas wyróżnia

Referencje

Opinie ze szkoleń

Zespół

Kariera

Wszystkie wpisy

Case studies

Aktualności

Artykuły

Kategorie szkoleń

Terminarz - szkolenia otwarte

Szkolenia zamknięte dla Firm

E-learning

Stacja IT - warsztaty dla programistów

Kodołamacz - kursy AI, bootcampy

AI Programming - Nowy kurs PRO by Kodołamacz

Upskilling, reskilling i optymalizacja w IT

AI Programming

AI dla uczelni

AI i analityka danych

Testowanie

Zarządzanie

DevOps / CloudOps

Programowanie

AI & Data Driven Business

Inżynieria uczenia maszynowego i AI

UX Design

Data Science

Big Data

Wizualna analityka danych

Vouchery

Dofinansowania

Promocje

Dokumenty

FAQ

Chatboty

Rozwiązania AI

Cyfrowa dostępność

Usługi DevOps

Chatboty

USOS

SSOP