W tym podcaście przyglądamy się pamięci masowej i sztucznej inteligencji (AI) z Jasonem Hardym, dyrektorem ds. technologii AI w Hitachi Vantara.
Mówi o wymaganiach dotyczących wydajności pamięci masowej, jakie niesie ze sobą przetwarzanie sztucznej inteligencji, ale podkreśla także ekstremalne przełączanie kontekstu, jakie może to spowodować, gdy przedsiębiorstwa są zmuszone przełączać się między obciążeniami związanymi ze szkoleniem i wnioskowaniem w ramach sztucznej inteligencji.
Hardy mówi także o przyszłości, która potencjalnie obejmuje agentyczną sztuczną inteligencję – sztuczną inteligencję, która projektuje własny przepływ pracy i samodzielnie podejmuje decyzje – co prawdopodobnie doprowadzi do jeszcze większego wzrostu przełączania kontekstu obciążenia.
Antony Adshead: Jakie wymagania stawiane są obciążeniom AI w zakresie przechowywania danych?
Jasona Hardy’ego: To problem dwuwymiarowy. Oczywiście sztuczna inteligencja potrzebuje szybkości, prędkości, prędkości, prędkości i jeszcze większej prędkości. Mając taki poziom przetwarzania, zwłaszcza jeżeli mówimy o budowaniu LLM i szkoleniu z podstawowych modeli, to tak [AI] wymaga niezwykle dużej wydajności.
Tak jest przez cały czas i zawsze tak będzie, szczególnie gdy zaczniemy robić wiele z tych rzeczy masowo, gdy zaczniemy zwracać uwagę na wnioskowanie, RAG i wszystkie inne paradygmaty, które zaczynają się do tego wprowadzać . Jednak drugim wymaganiem, które moim zdaniem jest – nie chcę powiedzieć, iż jest pomijane, ale niedostatecznie podkreślane – jest aspekt zarządzania danymi.
Na przykład, skąd mam wiedzieć, jakie dane muszę wprowadzić i wprowadzić do wyników mojej sztucznej inteligencji, nie rozumiejąc, jakie dane faktycznie posiadam? Można powiedzieć, iż właśnie do tego służy jezioro danych, a tak naprawdę w wielu przypadkach jest to po prostu wielkie wysypisko śmieci.
Zatem tak, potrzebujemy niezwykle wysokiej wydajności, ale musimy też wiedzieć, jakimi danymi dysponujemy. Muszę wiedzieć, jakie dane mają zastosowanie w przypadku użycia, na który zaczynam kierować, a następnie w jaki sposób mogę je odpowiednio wykorzystać, choćby na podstawie wymogu zgodności, wymogu regulacyjnego lub czegoś podobnego w tych tematach.
To prawie dwugłowy smok, który musi być niezwykle wydajny, ale także dokładnie wiedzieć, jakie dane tam mam, a następnie mieć odpowiednie praktyki i narzędzia do zarządzania danymi i tym podobne.
Duża część tego obciążenia, zwłaszcza gdy spojrzymy na stronę danych nieustrukturyzowanych, jest bardzo krytyczna i osadzona w niektórych z tych technologii, takich jak pamięć obiektowa, w której znajdują się funkcje metadanych i tym podobne, co daje trochę więcej tej warstwy opisowej.
Jednak w przypadku tradycyjnego serwera NAS stanowi to o wiele większe wyzwanie, ale wiąże się także z dużo większymi problemami związanymi ze źródłem danych. Jest to więc znowu dwustronna zasada: „Muszę działać niezwykle szybko, ale muszę też mieć do dyspozycji odpowiednie narzędzia do zarządzania danymi”.
Funkcje dla przypadków użycia AI
To prowadzi mnie do następnego pytania, a mianowicie: jakich funkcji potrzebują korporacyjne macierze do przechowywania danych w przypadkach użycia sztucznej inteligencji?
Wytrzymały: Masz całkowitą rację. Jedno prowadzi do drugiego, w którym, jak powiedzieliśmy, musimy być niezwykle wydajni, ale musimy także wykazywać się wydajnością na dużą skalę.
Jeśli spojrzeć na to z perspektywy… jeżeli mówimy o szkoleniu modelowym, szkolenie modelowe zawsze polegało na tym, że: „Potrzebuję ogromnej ilości objętości i ogromnej przepustowości, abym mógł po prostu przetrawić i uczyć się na podstawie tych danych, a następnie przejść od Tam.”
Teraz widzimy to, co jest [that] zaczynamy operacjonalizować i wprowadzać poziom przedsiębiorczości do wyników sztucznej inteligencji, co wymaga znacznie więcej aspektów związanych z zgodnością i widocznością danych, a jednocześnie jest bardzo wydajne.
Ale strona wydajności również nieco się zmienia. To znaczy: tak, potrzebuję dużej przepustowości i muszę mieć możliwość ciągłego ulepszania lub dostrajania tych modeli… Ale to także [that] Mam teraz nieopisane obciążenie pracą, z którym moi użytkownicy końcowi, aplikacje lub procesy biznesowe zaczynają się integrować, tworząc obciążenie na poziomie wnioskowania.
A obciążenie pracą na poziomie wnioskowania jest nieco bardziej nieprzewidywalne, zwłaszcza gdy zaczynamy wkraczać w przełączanie kontekstu. Na przykład: „Hej, zawsze muszę dostrajać i ulepszać moje modele, wprowadzając najnowsze dane, ale muszę też wprowadzić do tego rozszerzenie wyszukiwania, więc teraz mam z tym związany nakład pracy RAG”.
Muszę więc mieć możliwość przełączania kontekstu z dużą przepustowością i wysokim IOPS w obie strony oraz móc obsługiwać to na skalę przedsiębiorstwa.
Ale także w miarę wprowadzania do ekosystemu nowych danych – generowanych przez aplikacje i normalne procesy biznesowe – muszę rozumieć, niekoniecznie w czasie rzeczywistym, ale prawie w czasie rzeczywistym, jakie nowe dane są udostępniane, aby móc je uwzględnić.
[That’s] o ile są to adekwatne dane i mają odpowiednią otokę, elementy sterujące i wszystko wokół nich. W zależności ponownie od typu danych, aby umożliwić mi osadzenie lub ulepszenie moich procesów RAG lub cokolwiek innego, ale [also] jak mogę umieścić w nim wiele takich danych.
Jednocześnie ważne są systemy źródłowe, z których czerpiemy te informacje. Niezależnie od tego, czy jest to środowisko OLTP, takie jak SQL, czy jakiś rodzaj środowiska strukturalnego, czy też środowisko nieustrukturyzowane, te systemy źródłowe również muszą być wyposażone, aby były w stanie obsłużyć również to dodatkowe obciążenie.
Muszę mieć świadomość danych, ale muszę mieć wydajność choćby wykraczającą poza to, co jest ogólnie udostępniane procesorowi graficznemu bezpośrednio z wysokowydajnego systemu plików, który obsługuje bezpośrednio obciążenie procesora graficznego. Zatem jedno jest tak naprawdę drugim i nie jest to tajemnica, żadne wielkie objawienie ani nic takiego. Są to powszechne praktyki dotyczące danych, które w Vantara zawsze praktykowaliśmy i głosiliśmy od długiego czasu. [that] dane mają wartość.
Musisz zrozumieć, iż dane są [using] adekwatne indeksowanie, adekwatne tagowanie – znowu wszystkie te procesy danych – i adekwatna higiena danych. Ale także teraz, jak to zrobić na dużą skalę i bardzo wydajnie?
Potrzeby szkoleniowe i wnioskowania
Czym różnią się potrzeby w zakresie szkolenia i wnioskowania w AI, jeżeli chodzi o pamięć masową?
Wytrzymały: To świetne pytanie. I tak jak powiedziałem, byliśmy bardzo skupieni na – „my” będącym rynkiem – byłem bardzo skupiony na tym, jak budować modele oraz jak integrować się i tworzyć te podstawowe modele, które mogą naprawdę zrewolucjonizować sposób, w jaki my robić interesy. Wszystko było w porządku; ogromne ilości objętości. Firma Hitachi sama tworzy je dla wielu rynków, na których pracujemy, z perspektywy dużej firmy Hitachi.
Ale teraz dzieje się tak, iż odchodzimy od – i zaczniemy dostrzegać tę tendencję w latach 2025 i 2026… [being] wyłącznie na temat budowania modeli sposobu, w jaki się integrujemy i wnioskowania na dużą skalę.
Jak powiedziałem, wnioskowanie na dużą skalę jest bardzo losowe, ponieważ jest sterowane przez użytkowników końcowych, aplikacje lub procesy, a nie w przewidywalny sposób w stylu: „Hej, rozpocznę proces szkoleniowy i zamierzam go ocenić i przeprowadź kolejny proces szkoleniowy, który będzie w pewnym sensie bardzo uporządkowany i zaplanowany.
Dzieje się to w pewnym sensie na skutek kaprysu sposobu działania firmy i niemal na skutek kaprysu: „Mam pytanie, które chcę zadać systemowi”… a następnie uruchamia wszystkie te zasoby i procesy, aby móc to obsłużyć obciążenie pracą.
Staje się to więc dużo bardziej losowe. Co więcej, nie jest to tylko jeden przypadek użycia. Zobaczymy wiele przypadków użycia, w których infrastruktura będzie musiała obsługiwać to wszystko jednocześnie.
Polega na załadowaniu odpowiedniego modelu, tokenizacji, następnie uzyskaniu danych wyjściowych z tego, z czym się łączy, a następnie możliwości przedstawienia tego klientowi lub konsumentowi, a następnie zmiany tego charakteru. Zatem z naszej perspektywy wnioskowanie spowoduje ogromny poziom losowego obciążenia pracą, które będzie miało większy wpływ również na strony danych źródłowych, a nie tylko na model.
Zatem, jak wspomniałem wcześniej, zwiększanie odzyskiwania, agentyczna sztuczna inteligencja i tym podobne.
Zwiększają one różnego rodzaju poziomy zużycia w stosunku do platformy pamięci masowej, która jest w szczególności napędzana przez wnioskowanie.
Agentyczna sztuczna inteligencja, ten nowy trend, który zaczyna się pojawiać, sprawi, iż będzie to również problem wykładniczy, ponieważ teraz, zamiast tradycyjnie, jeżeli mam zamiar połączyć się z systemem, zadaję mu pytanie, model zostaje załadowany, dokonuje tokenizacji, otrzymuję wynik itd., itd. Cały proces.
Cóż, teraz dzieje się tak, iż ten sam poziom komunikacji podczas pracy z systemem zamienia się w nie tylko jeden model, ale wiele różnych modeli, wiele różnych zapytań lub te same zapytania wykonywane wobec wielu różnych modeli, aby uzyskać najlepszy wynik lub najlepszą odpowiedź na to konkretne pytanie.
Teraz dzieje się tak, iż zwiększa się wykładniczy poziom większego obciążenia pracą. A potem, gdy już to zrobisz, musisz to odwrócić i wrócić do dostrajania, treningu lub innego obciążenia pracą, ponieważ nie masz po prostu bezczynnego zestawu zasobów, które po prostu będą czekać . Będzie teraz stale używany przez obie strony, do wnioskowania i obciążeń szkoleniowych.
To przełączanie kontekstu będzie dużym obciążeniem dla platformy pamięci masowej, ponieważ będzie w stanie obsługiwać naprawdę szybkie punkty kontrolne, dzięki czemu będę mógł zatrzymać dostrajanie lub szkolenie modelu, a następnie przejść do korzystania z tych zasobów w celu spełnienia wymagań użytkownika końcowego lub przetwarzaj zapotrzebowanie tak szybko, jak to możliwe, ponieważ jest to interfejs czasu rzeczywistego.
Następnie wszystko zostaje przerwane, ponieważ wnioskowanie zostało zakończone, a następnie wracam do działania i kontynuuję od miejsca, w którym przerwałem, po stronie treningu i strojenia. Zatem zobaczycie teraz naprawdę dziwny, losowy poziom obciążenia, jaki oba rodzaje wymagań będą nakładać na systemy pamięci masowej.