Jak niezależny badacz lub mała firma może sobie poradzić w świecie zdominowanym przez koncerny typu FAANG? [TOP TECH TRENDS - Panel dyskusyjny]
Author
Karolina Zadroga
Content Marketing Specialist
blog_date_icon
15 grudnia

Zapraszamy do przeczytania zapisu panelu dyskusyjnego, który odbył się podczas konferencji Top Tech Trends 2021. W dyskusji udział wzięli: Łukasz Kobyliński, Danijel Korzinek, Patryk Pilarski, Norbert Ryciak i Ryszard Tuora.<!--more-->

W pierwszej części panelu temat dyskusji dotyczył sytuacji osób pracujących w pojedynkę, w startupach lub w większych firmach IT, ale nie tak ogromnych jak Facebook, Apple i Amazon. Prelegenci rozmawiali m.in. o tym, jak poradzić sobie w warunkach konkurencji z dużymi graczami, mającymi niemalże nieograniczone zasoby, a także jak znaleźć swoje miejsce w szeregu i co można osiągnąć.

Łukasz Kobyliński: Być może część z Was pracuje samodzielnie, w startupie lub zamierza podjąć pracę w mniejszej, lub większej firmie. Czy w związku z tym należałoby szukać pracy w jednej z tych największych firm? Kiedyś słyszałem takie powiedzenie, że trzeba iść tam, gdzie są dane, więc może należałoby rzucić wszystko i szukać pracy w wielkiej piątce najlepszych graczy: Facebooku, Amazonie, Apple’u, Netfliksie i Google’u? Co o tym sądzicie? Czy ta przewaga rzeczywiście jest tak ogromna, że ci najmniejsi od początku znajdują się na straconej pozycji?

Danijel Korzinek: Zacznę od pewnej anegdoty. Kiedyś starałem się o fundusze do rozpoczęcia różnych projektów. Zauważyłem, że jak staramy się o jakieś pieniądze, występujemy przed jakąś komisją i opowiadamy, jakie rzeczy chcemy robić i co zaprojektować, to praktycznie zawsze pada pytanie: po co wy w ogóle chcecie coś takiego zrobić, skoro Google już coś takiego zrobił? To dotyczyło rozpoznawania mowy, w której Google jest liderem. Obrona przed tego typu argumentacją bywa stresująca i frustrująca, ale jest możliwa do zrobienia. Moje doświadczenie zakończyło się jednak pozytywnie. Chciałbym usłyszeć, jakie inni mają na ten temat opinie.

Norbert Ryciak: Jak w takim razie obronić się przed tego typu zarzutem?

Danijel Korzinek: Gdy podchodzimy do rozwiązywania jakiegoś problemu konsekwentnie, jesteśmy lepsi od Google’a. Wiem, że wiele osób porównywało się z nim w kontekście tłumaczenia maszynowego, natomiast nie wiem, czy są inne dziedziny, w których Google tak bardzo głośno występuje z jakimiś wynikami, równie łatwymi do przetestowania, bo przetestowanie własnego zbioru przy użyciu ich usługi jest bardzo proste. Za każdym razem jak mamy jakąś dobrze zdefiniowaną dziedzinę, to jesteśmy w stanie osiągnąć dwukrotnie lepszy wynik niż Google, który bardzo dobrze działa na ogólnych zastosowaniach. On specjalizuje się w rzeczach, które przynoszą mu zyski, czyli m.in. wyszukiwanie w internecie, rozpoznawanie mowy, ale jeśli chodzi o konkretne zastosowania w rozpoznawaniu mowy, zawsze jesteśmy w stanie osiągnąć lepsze wyniki, ponieważ oni nie mają interesu w tym, żeby zajmować się każdą dziedziną na świecie, każdym językiem specyficznym wewnątrz niej, np. językiem medycznym. Jesteśmy w stanie obronić ten argument, że nie zawsze warto korzystać z rzeczy produkowanych gdzieś za oceanem, tylko zastanowić się, czy da się to zrobić lepiej u nas.

Norbert Ryciak: Powiedziałeś, że Google ma rozwiązania ogólne, które w wielu przypadkach działają dobrze, ale nie są sprecyzowane na konkretny problem i dziedzinę. Odnosząc to do przetwarzania języka naturalnego: sam język może być taką niszą, np. Polska z punktu widzenia Google’a nie jest jakimś super dużym krajem i można w nim robić lepsze algorytmy do przetwarzania języka niż te ogólne, które Google tworzy na światową skalę. Google nie interesuje się każdym krajem z osobna, tylko działa masowo. Angielski jest językiem wiodącym, daje najwięcej danych i dla tego języka będzie to zapewne lepsze, ale rozwiązania dla języka polskiego dają duże pole do popisu i jak jeszcze dołożymy do tego jakieś specjalistyczne dziedziny, np. medyczne, to z dużym prawdopodobieństwem te nasze rozwiązania będą lepsze.

Patryk Pilarski: Prawdą jest to, że wielkie firmy nie zajmują się zupełnie wszystkim, więc zależy, czym my się zajmujemy. To stawia nas w sytuacji wyboru: czy konkurujemy z gigantami, czy walczymy na swoim podwórku? Jeśli nie próbujemy zostać kolejną wielką platformą internetową, to szanse na znalezienie swojej niszy są całkiem spore.

Danijel Korzinek: Warto też podkreślić, że to, co robi Google lub Facebook, jakkolwiek pięknie to wygląda w postach blogowych, nie jest żadną magią z punktu widzenia nauki i wiedzy na temat rozwiązywania tych problemów. Owszem, oni są w stanie ściągnąć na swój pokład bardzo mądrych ludzi, ale wiedza wdrażana tam w produkcję jest taka sama. I to, że Google jest w stanie coś zrobić, nie oznacza, że ktoś inny też nie może zrobić tego samego albo zrobić tego lepiej.

Łukasz Kobyliński: Gołym okiem widać też pewne różnice, np. największe firmy mają dostęp do miliardów zdjęć, w dodatku często etykietowanych przez różnych użytkowników, bo z jakimiś opisami, lub zescrapowanych z internetu, bo Google i tak to robi, żeby tworzyć swój indeks. Posiadają dostęp do miliardów tekstów, które są oznaczane łapkami w górę lub w dół. Czyli krótko mówiąc, mają dostęp do danych, których nie ma nikt inny, a przynajmniej nie w takiej skali. Dzięki Androidowi mogą uczyć się na przykładach błędnie rozpoznanych komend wydawanych do telefonu, więc ten zbiór danych rośnie. I każda inna firma musi wydać bardzo duże pieniądze, żeby podobne dane uzyskać. To stanowi potencjalny problem w takiej rywalizacji.

Patryk Pilarski: Ale każda firma, każda branża ma taką specyfikę. Jeśli nagle Google chciałby wejść na rynek telekomunikacyjny, to on też nie ma danych, które posiada T-Mobile czy inne tego typu korporacje.

banernlp.webp

Ryszard Tuora: Oczywiście Google ma pierwszeństwo dostępu do danych, ale pojawiają się inicjatywy tworzenia danych publicznych, np. odgórnie w instytucjach państwowych, instytucjach kontroli publicznej. W instytucjach na poziomie europejskim jest kładziona troska o to, żeby te dane były otwarte i dostępne. I koncerny mają z tego korzyści, np. odnośnie kompetencji do tłumaczenia maszynowego Google’a. Sporo korzystają na tym, że funkcjonuje Parlament Europejski, w którym takie tłumaczenie jest non stop generowane przez wysokiej jakości tłumaczy, którzy takie dane dostarczają. I tu właśnie punkt ciężkości przesuwa się z nierównego dostępu do danych na nierówny dostęp do mocy obliczeniowych. To jest problem, przez który dużo trudniej przejść.

Danijel Korzinek: Bardzo często przywoływanym przykładem jest GPT. Jak się wpisze w Google „cena GPT”, to bardzo często cytowaną kwotą jest kilka milionów dolarów. Już pomijając fakt, że trzeba było mieć dane i je wytrenować. Później pojawiają się jeszcze sytuacje, w których firma robi taki model, ale stwierdza, że nie udostępni go z powodów etycznych. I w tym momencie robi się taka asymetria: część osób ma dostęp do pewnych źródeł, inni niekoniecznie. Pytanie: jak ważny jest GPT, by odnieść sukces w NLP? Czy da się żyć bez tego?

Łukasz Kobyliński: Pewnie bez GPT można żyć, natomiast faktem jest, że w wielu konkursach wygrywają jednak te rozwiązania, które są oparte na największych modelach, których przetrenowanie trwa długo. To wszystko wymaga mocy obliczeniowych. Dostęp do takich mocy na pewno wpływa na rzeczywistość.

Patryk Pilarski: Pytanie, czy konkurs jest odzwierciedleniem rzeczywistości i czy zawsze potrzebujemy tego najlepszego modelu, żeby dostarczyć wartość dla klienta, a do tego biznes się sprowadza.

Norbert Ryciak: Dokładnie. Jeżeli mamy model, który działa na skuteczność o jeden promil lepiej niż inne, ale jest dużo łatwiejszy w utrzymaniu, to nie musimy konkurować z tymi najpotężniejszymi algorytmami, bo model i tak spełnił swoje zadanie. Osobiście nigdy nie czułem pociągu do wielkich danych, mimo że w branży data science i w uczeniu maszynowym siedzę już od wielu lat. Wydaje mi się, że mówienie o dużych danych troszkę zakrawa o inżynierię, bo obsługa tego wszystkiego staje się mocno techniczną stroną data science i uczenia maszynowego. Myślę, że nie każdego może to interesować, bo na małych danych też można robić bardzo fajne i przydatne rzeczy.

Danijel Korzinek: Wbrew pozorom dużo mówiliśmy o danych, o zasobach. Słyszałem, że podobno taka infrastruktura jak PL-Grid nadal w 50% nie jest używana. I tej infrastruktury obliczeniowej w Polsce mamy naprawdę dużo. Wydaje mi się, że nie brakuje nam zasobów obliczeniowych czy danych, lecz ludzi, którzy byliby w stanie coś z tym zrobić, np. naukowców lub komercyjnych badaczy. Wydaje się, że to jest dla nas głównym ograniczeniem, bo zawsze znajdą się nowe dziedziny, problemy i zawsze znajdzie się ktoś, kto nam sfinansuje badanie, jak się troszkę poszuka. Ale wciąż chcielibyśmy widzieć więcej ludzi zajmujących się tymi dziedzinami, żeby móc odkrywać nowe rzeczy.

Łukasz Kobyliński: Zgodzę się, wciąż są braki kadrowe, natomiast nie znam tematu PL-Grid, mogę jedynie powiedzieć, że jako instytucja naukowa zawsze mieliśmy problem z uzyskaniem dostępu do jakiejś infrastruktury obliczeniowej, ale może to wynikało z naszej niewiedzy na temat tego, jak to formalnie zrobić, albo ze zbyt dużego sformalizowania tego tematu. Bo wiadomo, że jak się ma w Google’u kartę kredytową, to można to wyklikać w pięć minut, a to jest być może za mało rozreklamowane i ułatwione, żeby naukowcy faktycznie mieli do tego dostęp.

Dyskusja odbyła się podczas pierwszej edycji konferencji Top Tech Trends organizowanej pod patronatem kursów Sages Masterclass. Prelegenci są również autorami kursów Masterclass Przetwarzanie Języka Naturalnego oraz Masterclass Uczenie maszynowe.

banerum.webp

Przeczytaj także