„Rozpoczęła się następna rewolucja… Przedsiębiorstwa i kraje łączą się z firmą NVIDIA, aby zmienić warte biliony dolarów tradycyjne centra danych w nowoczesne serwerownie, budując nowy typ centrów danych – fabryki sztucznej inteligencji – aby wytwarzać nowy towar – sztuczną inteligencję” – napisał w informacji dla akcjonariuszy CEO i założyciel NVIDII Jensen Huang. Pod koniec maja 2024 NVIDIA zaprezentowała wyniki za ostatni kwartał, które przebiły ponownie oczekiwania rynku akcji. Przychody producenta poszybowały prawie o 300 procent rok do roku, a kolejki chętnych na ich produkty walczą o dostęp do kart graficznych, aby budować swoje modele i dostosowywać je do własnych celów biznesowych. Obecny potencjał dużych modeli językowych, a zwłaszcza ich zdolność do pracy z różnymi danymi jak tekst, obraz, dźwięk nadały im formę narzędzi do wszelkich zastosowań – nie tylko pomocy z pracą domową, ale też z szeregiem zadań biznesowych: od inteligentnego przetwarzania dokumentów, przez domenowych asystentów, po wszelakie prace w obszarach kreatywnego marketingu itp. Bardzo dużo zmieniło przejście z poziomu modelu obsługującego tylko tekst (tzw. unimodalność) na multimodalność.
„Multimodalność to następna generacja tych dużych modeli, które mogą przetwarzać nie tylko tekst, ale także obrazy, dźwięk, wideo, a choćby inne modalności” – mówi Linxi Fan, naukowiec zajmujący się badaniami nad sztuczną inteligencją w firmie NVIDIA. Wszystko to razem wzięte daje nam niespotykane do tej pory możliwości interakcji z danymi. Nowe rozwiązania technologiczne zawsze były znakiem rewolucji w rozwoju człowieka; parę wieków temu mieliśmy rewolucję przemysłową, po niej motoryzacyjną czy środków masowego przekazu, a teraz przyszedł czas na rewolucję AI. Rewolucje, która zmieni warunki gry, ale też otworzy nowe obszary interakcji człowiek-komputer.
Niewidzialne LLM-y
Każda z poprzednich rewolucji technologicznych miała swoją dynamikę i swoje artefakty. Mieliśmy już maszynę parową, auta, telewizory, komputery czy samoloty. Teraz czas na rewolucję AI, obejmującą najbardziej w tej chwili rozpoznawalne duże modele językowe, zwane skrótowo LLM-ami (ang. Large Language Models).
Wszystkie z rewolucyjnych artefaktów, gdy pierwszy raz je ukazano, wywoływały całe spektrum emocji; w tym radość, sceptycyzm, obawy i fascynację. Ale łączyło je jedno – fizyczna namacalność, można było je dotknąć, przenieść czy wskazać palcem innej osobie. Obecna rewolucja AI oparta jest na modelach, które dla większości ludzi są „nienamacalne”, są ujęte w usługach informatycznych, które wystawione w chmurze pozwalają komunikować się poprzez przeglądarkę internetową czy API. Miliony osób, które siedzą teraz przy komputerach z odpalonymi przeglądarkami, konsumują pośrednio duże modele językowe, działające na tysiącach kart GPU w odległych serwerowniach.
Ile osób potrafi sobie wyobrazić taki model, który wymaga tysięcy kart GPU? Ile osób kiedykolwiek samodzielnie taki mniejszy model uruchomiło, będąc świadomym składowych elementów i jego zależności? Wszystko to nadaje tej rewolucji pewien magiczny charakter, ale też tworzy wiele pytań, np. jak bardzo ta rewolucja nas zniewoli, jak bardzo będziemy zależni od BigTechów, czy wiemy, co się dzieje z naszymi danymi, którymi zalewamy LLM-y pytając je o wszelakie sprawy, problemy, wyzwania, czy zadania? To wszystko wierzchołek góry lodowej, ale każda rewolucja zawsze miała wiele wyzwań, czy to regulacyjnych, czy też dotyczących kwestii własności i niezależności. Ta nie różni się od poprzednich, poza tym, iż tempo jej postępu jest niebywałe.
Kiedy zaczęła się rewolucja AI?
Rewolucja AI, której w tej chwili doświadczamy, zaczęła się dużo wcześniej niż debiut aplikacji ChatGPT jesienią 2022 roku. Jedni wymieniają cykliczny konkurs ImageNet (konkurs dotyczył wykrywania obiektów i klasyfikacji obrazów) i zwycięstwo sieci konwolucyjnej AlexNet w 2012, jako pierwszy silny sygnał nadchodzących zmian, tzw. pierwszy znamienny znak, iż głębokie sieci neuronowe mogą wywrócić porządek rzeczy. Przez wiele lat uczestnicy poprzednich edycji tego konkursu walczyli ze sobą poprawiając nieznacznie wyniki, nagle użycie głębokich sieci neuronowych przesunęło skuteczność zdecydowanie bardziej niż wcześniej. Kolejne edycje tego konkursu jeszcze bardziej podnosiły poprzeczkę, aż doszliśmy do poziomów, gdzie maszyny zaczęły wygrywać z człowiekiem w tym konkretnym zadaniu komputerowej wizji. Tak, to komputerowa wizja (ang. computer vision) była pierwszą dziedziną, gdzie do masowej publiki dotarło, iż AI może dorównać człowiekowi, a potem i z nim wygrać. Następnie pojawiły się kolejne, liczne rywalizacje człowiek vs AI, m.in. skomplikowane gry (np. Go) czy konkursy typu „Jeden z Dziesięciu” (np. Jeopardy). W raz z rozwojem kolejnych metod okazało się, iż AI potrafi nie tylko skutecznie analizować dane, ale też je generować. Pojawiły się piękne obrazy tworzone przez AI (np. DALL-E) na bazie słownych opisów. Modele text-to-image zdolne do malowania w zadanym stylu malarskim rozbudziły fantazje i nadzieje. Wydawało się, iż aforyzm „obraz wart jest tysiąca słów” dalej jest bez wątpienia prawdziwy i to właśnie obraz cenniejszy jest niż sekwencja słów. Jednak to dopiero tekstowy asystent o nazwie ChatGPT wywołał masowe poruszenie, daleko wychodzące poza grono specjalistów i geeków. Czemu to słowo wygrało z obrazem? Dlaczego tekstowa rozmowa przysłoniła piękne malunki?
Słowo wygrało z obrazem
Na to pytanie nie ma łatwej i dokładnej odpowiedzi. Obrazy zawierają mnóstwo informacji i najczęściej, aby opisać obraz potrzebujemy setek, jak nie tysięcy słów, ale też i czasu, aby je wypowiedzieć, na końcu i tak stwierdzimy, iż te słowa nie oddają wszystkiego co widzimy. Obrazy o wysokiej dawce informacyjnej powstają relatywnie długo, wymagają warunków do ich wytwarzania. Zdolności graficzne (wystarczające do sprawnego malowania) są też dość rzadkim zestawem kompetencji w dużych populacjach. Dodatkowo komunikacja obrazami na poziomie konwersacji jest bardziej kosztowna energetycznie niż wymiana słów. Wszystko to prawdopodobnie stało się cząstkową przyczyną, dlaczego ludzkość nie komunikuje się ze sobą rysując obrazy. Nasz rozwój oparliśmy na mowie i zapisie jej z użyciem znaków, które tworzą słowa. Słowo stało się powszechnym, tanim nośnikiem informacji między członkami społeczności, a potem zapisane na kamieniu/ pergaminie stało się nośnikiem informacji dla kolejnych pokoleń. To słowami myślimy i marzymy, wybrzmiewają one w naszych głowach nie będąc słyszanymi. Słowo, a potem konstrukcje na nim oparte, pozwoliły nam w coraz to bardziej skomplikowany sposób komunikować się i opisywać sytuacje, emocje czy plany. Zacytuję fragment Ewangelii, aby uświadomić czytelnikowi, jak język mówiony i pisany, w tym właśnie jego cząstkowy element – słowo, jest najważniejszy od tysięcy lat.
“Na początku było Słowo, a Słowo było u Boga, i Bogiem było Słowo…Wszystko przez Nie się stało, a bez Niego nic się nie stało, co się stało. W Nim było życie, a życie było światłością ludzi…”
Słowa Ewangelii według świętego Jana, wybrane frazySłowo ma moc sprawczą, ono raduje i smuci, porywa i tłamsi, miłuje i złości. Na nim oparliśmy swoje dziedzictwo człowieczeństwa. A słowo właśnie jest paliwem LLM-ów. Słowa w postaci korpusów tekstów, instrukcji, preferencji prowadzą do finalnego produktu w postaci modelu. Czym w takim razie jest ten tajemniczy LLM, jeżeli wiemy, iż napędza go słowo, a na wyjściu generuje odpowiedzi słowo po słowie? Teraz postaram się w jednym akapicie zdefiniować. Czym jest ten twór, który kształtuje obecną rewolucję AI.
Czym adekwatnie są LLM-y?
LLM – to generatywny neuronowy model językowy liczący co najmniej dziesiątki czy choćby setki miliardów parametrów (wag). Został on wstępnie wytrenowany na ogromnych zbiorach danych tekstowych, liczy terabajty danych (po tej fazie uczenia, model jaki uzyskujemy nazywa się modelem fundamentalnym), potrafi generować tekst wyjściowy słowo po słowie na podstawie podanego mu wejściowego tekstu (zwanego promptem). Kolejna faza uczenia nazywa się strojeniem na dużych korpusach instrukcji, które zawierają różne polecenia/ zadania z przykładowymi ich rozwiązaniami, np. streść tekst, odpowiedz na pytanie, napisz mi przemówienie. Trzeci etap uczenia nazywany jest wychowaniem wystrojonego modelu na bazie korpusów preferencji (ludzie oceniają odpowiedzi modelu, co jest potem wykorzystywane do jego optymalizacji). Wszystkie te razem połączone etapy uczenia dają nam finalny, konwersacyjny model, np. ChatGPT.
Polska a rewolucja AI
Na końcu swojego wywodu o rewolucji AI pragnę zwrócić uwagę na wątek polskości w tej rewolucji, a dokładniej na pojęcie konkurencyjność gospodarki opartej na wiedzy. Polska przestaje być konkurencyjna ze względu na koszty pracy (np. już widać trend, w którym zakłady z Polski przenoszą się tańszych państw w Azji). Przyszłość naszej gospodarki będzie zależała od tego, jak gwałtownie i głęboko wdrożymy AI do naszych usług biznesowych czy sfery publicznej. Bo to zdeterminuje, czy uda nam się opuścić pewną strefę ograniczonego wzrostu i awansować do grona państw kreujących rozwiązania, a nie dostarczających tylko kapitał ludzki do ich wykorzystywania.
Autor: dr inż. Marek Kozłowski – Kierownik AI Labu w Ośrodku Przetwarzania Informacji – Państwowym Instytucie Badawczym, gdzie zajmuje się tworzeniem systemu wzbogaconego inteligentnymi metodami przetwarzania danych (głównie danych tekstowych i obrazowych). Jego zainteresowania dotyczą przetwarzania języka naturalnego, eksploracji danych i uczenia maszynowego. Napisał ponad 40 publikacji naukowych z zakresu semantycznego przetwarzania tekstów i uczenia maszynowego. W swojej karierze brał udział w wielu komercyjnych projektach badawczych, które dotyczyły uczenia maszynowego dla firm takich jak np.: Samsung, France Telecom, Orange Labs, Millward Brown, Vive Textile Recycling czy Connectis. Brał udział w wielu międzynarodowych konkursach uczenia maszynowego m.in IEEE BigData 2019 Cup.