W pierwszej części panelu temat dyskusji dotyczył sytuacji osób pracujących w pojedynkę, w startupach lub w większych firmach IT, ale nie tak ogromnych jak Facebook, Apple i Amazon. **Prelegenci rozmawiali m.in. o tym, jak poradzić sobie w warunkach konkurencji z dużymi graczami**, mającymi niemalże nieograniczone zasoby, a także jak znaleźć swoje miejsce w szeregu i co można osiągnąć.
**Łukasz Kobyliński:** Być może część z Was pracuje samodzielnie, w startupie lub zamierza podjąć pracę w mniejszej, lub większej firmie. **Czy w związku z tym należałoby szukać pracy w jednej z tych największych firm?** Kiedyś słyszałem takie powiedzenie, iż trzeba iść tam, gdzie są dane, więc może należałoby rzucić wszystko i szukać pracy w wielkiej piątce najlepszych graczy: Facebooku, Amazonie, Apple’u, Netfliksie i Google’u? Co o tym sądzicie? Czy ta przewaga rzeczywiście jest tak ogromna, iż ci najmniejsi od początku znajdują się na straconej pozycji?
**Danijel Korzinek:** Zacznę od pewnej anegdoty. Kiedyś starałem się o fundusze do rozpoczęcia różnych projektów. Zauważyłem, iż jak staramy się o jakieś pieniądze, występujemy przed jakąś komisją i opowiadamy, jakie rzeczy chcemy robić i co zaprojektować, to praktycznie zawsze pada pytanie: po co wy w ogóle chcecie coś takiego zrobić, skoro Google już coś takiego zrobił? To dotyczyło rozpoznawania mowy, w której Google jest liderem. Obrona przed tego typu argumentacją bywa stresująca i frustrująca, ale jest możliwa do zrobienia. Moje doświadczenie zakończyło się jednak pozytywnie. Chciałbym usłyszeć, jakie inni mają na ten temat opinie.
**Norbert Ryciak:** Jak w takim razie obronić się przed tego typu zarzutem?
**Danijel Korzinek:** Gdy podchodzimy do rozwiązywania jakiegoś problemu konsekwentnie, jesteśmy lepsi od Google’a. Wiem, iż wiele osób porównywało się z nim w kontekście tłumaczenia maszynowego, natomiast nie wiem, czy są inne dziedziny, w których Google tak bardzo głośno występuje z jakimiś wynikami, równie łatwymi do przetestowania, bo przetestowanie własnego zbioru przy użyciu ich usługi jest bardzo proste. **Za każdym razem jak mamy jakąś dobrze zdefiniowaną dziedzinę, to jesteśmy w stanie osiągnąć dwukrotnie lepszy wynik niż Google, który bardzo dobrze działa na ogólnych zastosowaniach.** On specjalizuje się w rzeczach, które przynoszą mu zyski, czyli m.in. wyszukiwanie w internecie, rozpoznawanie mowy, ale jeżeli chodzi o konkretne zastosowania w rozpoznawaniu mowy, zawsze jesteśmy w stanie osiągnąć lepsze wyniki, ponieważ oni nie mają interesu w tym, żeby zajmować się każdą dziedziną na świecie, każdym językiem specyficznym wewnątrz niej, np. językiem medycznym. Jesteśmy w stanie obronić ten argument, iż nie zawsze warto korzystać z rzeczy produkowanych gdzieś za oceanem, tylko zastanowić się, czy da się to zrobić lepiej u nas.
**Norbert Ryciak:** Powiedziałeś, iż Google ma rozwiązania ogólne, które w wielu przypadkach działają dobrze, ale nie są sprecyzowane na konkretny problem i dziedzinę. Odnosząc to do przetwarzania języka naturalnego: sam język może być taką niszą, np. Polska z punktu widzenia Google’a nie jest jakimś super dużym krajem i można w nim robić lepsze algorytmy do przetwarzania języka niż te ogólne, które Google tworzy na światową skalę. Google nie interesuje się każdym krajem z osobna, tylko działa masowo. Angielski jest językiem wiodącym, daje najwięcej danych i dla tego języka będzie to prawdopodobnie lepsze, ale rozwiązania dla języka polskiego dają duże pole do popisu i jak jeszcze dołożymy do tego jakieś specjalistyczne dziedziny, np. medyczne, to z dużym prawdopodobieństwem te nasze rozwiązania będą lepsze.
**Patryk Pilarski:** **Prawdą jest to, iż wielkie firmy nie zajmują się zupełnie wszystkim, więc zależy, czym my się zajmujemy. To stawia nas w sytuacji wyboru: czy konkurujemy z gigantami, czy walczymy na swoim podwórku?** jeżeli nie próbujemy zostać kolejną wielką platformą internetową, to szanse na znalezienie swojej niszy są całkiem spore.
**Danijel Korzinek:** Warto też podkreślić, iż to, co robi Google lub Facebook, jakkolwiek pięknie to wygląda w postach blogowych, nie jest żadną magią z punktu widzenia nauki i wiedzy na temat rozwiązywania tych problemów. Owszem, oni są w stanie ściągnąć na swój pokład bardzo mądrych ludzi, ale wiedza wdrażana tam w produkcję jest taka sama. I to, iż Google jest w stanie coś zrobić, nie oznacza, iż ktoś inny też nie może zrobić tego samego albo zrobić tego lepiej.
**Łukasz Kobyliński:** Gołym okiem widać też pewne różnice, np. największe firmy mają dostęp do miliardów zdjęć, w dodatku często etykietowanych przez różnych użytkowników, bo z jakimiś opisami, lub zescrapowanych z internetu, bo Google i tak to robi, żeby tworzyć swój indeks. Posiadają dostęp do miliardów tekstów, które są oznaczane łapkami w górę lub w dół. Czyli krótko mówiąc, mają dostęp do danych, których nie ma nikt inny, a przynajmniej nie w takiej skali. Dzięki Androidowi mogą uczyć się na przykładach błędnie rozpoznanych komend wydawanych do telefonu, więc ten zbiór danych rośnie. I każda inna firma musi wydać bardzo duże pieniądze, żeby podobne dane uzyskać. To stanowi potencjalny problem w takiej rywalizacji.
**Patryk Pilarski:** Ale każda firma, każda branża ma taką specyfikę. **Jeśli nagle Google chciałby wejść na rynek telekomunikacyjny, to on też nie ma danych, które posiada T-Mobile czy inne tego typu korporacje.**
[![banernlp.webp](/uploads/banernlp_243e943628.webp)](https://kursy.sages.pl/kursy/przetwarzanie-jezyka-naturalnego/)
**Ryszard Tuora:** Oczywiście Google ma pierwszeństwo dostępu do danych, ale pojawiają się inicjatywy tworzenia danych publicznych, np. odgórnie w instytucjach państwowych, instytucjach kontroli publicznej. W instytucjach na poziomie europejskim jest kładziona troska o to, żeby te dane były otwarte i dostępne. I koncerny mają z tego korzyści, np. odnośnie kompetencji do tłumaczenia maszynowego Google’a. Sporo korzystają na tym, iż funkcjonuje Parlament Europejski, w którym takie tłumaczenie jest non stop generowane przez wysokiej jakości tłumaczy, którzy takie dane dostarczają. I tu właśnie punkt ciężkości przesuwa się z nierównego dostępu do danych na nierówny dostęp do mocy obliczeniowych. To jest problem, przez który dużo trudniej przejść.
**Danijel Korzinek:** Bardzo często przywoływanym przykładem jest GPT. Jak się wpisze w Google „cena GPT”, to bardzo często cytowaną kwotą jest kilka milionów dolarów. Już pomijając fakt, iż trzeba było mieć dane i je wytrenować. Później pojawiają się jeszcze sytuacje, w których firma robi taki model, ale stwierdza, iż nie udostępni go z powodów etycznych. I w tym momencie robi się taka asymetria: część osób ma dostęp do pewnych źródeł, inni niekoniecznie. Pytanie: jak istotny jest GPT, by odnieść sukces w NLP? Czy da się żyć bez tego?
**Łukasz Kobyliński**: Pewnie bez GPT można żyć, natomiast faktem jest, iż **w wielu konkursach wygrywają jednak te rozwiązania, które są oparte na największych modelach, których przetrenowanie trwa długo**. To wszystko wymaga mocy obliczeniowych. Dostęp do takich mocy na pewno wpływa na rzeczywistość.
**Patryk Pilarski:** Pytanie, czy konkurs jest odzwierciedleniem rzeczywistości i czy zawsze potrzebujemy tego najlepszego modelu, żeby dostarczyć wartość dla klienta, a do tego biznes się sprowadza.
**Norbert Ryciak:** Dokładnie. o ile mamy model, który działa na skuteczność o jeden promil lepiej niż inne, ale jest dużo łatwiejszy w utrzymaniu, to nie musimy konkurować z tymi najpotężniejszymi algorytmami, bo model i tak spełnił swoje zadanie. Osobiście nigdy nie czułem pociągu do wielkich danych, mimo iż w branży data science i w uczeniu maszynowym siedzę już od wielu lat. Wydaje mi się, iż mówienie o dużych danych troszkę zakrawa o inżynierię, bo obsługa tego wszystkiego staje się mocno techniczną stroną data science i uczenia maszynowego. Myślę, iż nie każdego może to interesować, bo na małych danych też można robić bardzo fajne i przydatne rzeczy.
**Danijel Korzinek:** Wbrew pozorom dużo mówiliśmy o danych, o zasobach. Słyszałem, iż podobno taka infrastruktura jak PL-Grid przez cały czas w 50% nie jest używana. I tej infrastruktury obliczeniowej w Polsce mamy naprawdę dużo. **Wydaje mi się, iż nie brakuje nam zasobów obliczeniowych czy danych, ale ludzi, którzy byliby w stanie coś z tym zrobić, np. naukowców lub komercyjnych badaczy**. Wydaje się, iż to jest dla nas głównym ograniczeniem, bo zawsze znajdą się nowe dziedziny, problemy i zawsze znajdzie się ktoś, kto nam sfinansuje badanie, jak się troszkę poszuka. Ale wciąż chcielibyśmy widzieć więcej ludzi zajmujących się tymi dziedzinami, żeby móc odkrywać nowe rzeczy.
**Łukasz Kobyliński:** Zgodzę się, wciąż są braki kadrowe, natomiast nie znam tematu PL-Grid, mogę jedynie powiedzieć, iż jako instytucja naukowa zawsze mieliśmy problem z uzyskaniem dostępu do jakiejś infrastruktury obliczeniowej, ale może to wynikało z naszej niewiedzy na temat tego, jak to formalnie zrobić, albo ze zbyt dużego sformalizowania tego tematu. Bo wiadomo, iż jak się ma w Google’u kartę kredytową, to można to wyklikać w pięć minut, a to jest być może za mało rozreklamowane i ułatwione, żeby naukowcy faktycznie mieli do tego dostęp.
Dyskusja odbyła się podczas pierwszej edycji konferencji Top Tech Trends organizowanej pod patronatem [kursów Sages Masterclass](https://kursy.sages.pl/). Prelegenci są również autorami kursów **[Masterclass Przetwarzanie Języka Naturalnego](https://kursy.sages.pl/kursy/przetwarzanie-jezyka-naturalnego/)** oraz **[Masterclass Uczenie maszynowe](https://kursy.sages.pl/kursy/uczenie-maszynowe/)**.
[![banerum.webp](/uploads/banerum_f053a89bfe.webp)](https://kursy.sages.pl/kursy/uczenie-maszynowe/)