Wywiad: Nvidia o wymaganiach obciążenia AI i wydajności pamięci masowej

cyberfeed.pl 2 miesięcy temu


Obciążenia sztucznej inteligencji (AI) są nowe i inne od tych, które widzieliśmy wcześniej w przedsiębiorstwie. Obejmują one zarówno intensywne obliczeniowo szkolenia, jak i codzienne wnioskowanie i odwoływanie się do RAG, które ledwo łaskoczą procesor i wejście/wyjście pamięci masowej (I/O).

Tak więc w różnych gatunkach obciążeń AI profil wejścia/wyjścia i wpływ na przechowywanie może się znacząco różnić.

W tej drugiej części dwuczęściowego cyklu rozmawiamy z Nvidia wiceprezes i dyrektor generalny DGX Systems Charlie Boyle o wymaganiach dotyczących punktów kontrolnych w sztucznej inteligencji, roli wskaźników wydajności pamięci masowej, takich jak przepustowość i prędkość dostępu w pracy nad sztuczną inteligencjąoraz atrybuty pamięci masowej wymagane dla różnych typów obciążeń AI.

Kontynuujemy dyskusję po czacie Pierwszy artykuł o najważniejszych wyzwaniach związanych z danymi w projektach AI, praktycznych wskazówkach dla klientów rozpoczynających przygodę z AI oraz różnicach między typami obciążeń AI, takimi jak szkolenie, dostrajanie, wnioskowanie, RAG i punkty kontrolne.

Antony Adshead: Czy istnieje jakiś standardowy stosunek liczby zapisów w punktach kontrolnych do objętości modelu szkoleniowego?

Charlie Boyle: Jest. Kiedy współpracujemy z klientami nad ich własnymi modelami i szkoleniami, mamy średnie. Ponieważ wiemy, ile czasu powinno zająć rozmiar modelu i liczba elementów obliczeniowych, które posiadasz. A następnie rozmawiamy z klientami o tolerancji ryzyka.

Niektórzy nasi badacze punkt kontrolny co godzinę. Niektóre punkty kontrolne raz dziennie. Zależy to od tego, czego się spodziewają i ile czasu zajmuje im przejście przez punkt kontrolny.

I jest też czas potrzebny na odzyskanie się z punktu kontrolnego. Bo można powiedzieć: „OK, robiłem punkt kontrolny raz dziennie. I gdzieś między czwartym a piątym dniem miałem problem”.

Możesz nie wiedzieć, iż masz problem aż do szóstego dnia, ponieważ praca nie umarła, ale patrzysz na wyniki i coś jest nie tak. I tak naprawdę musisz cofnąć się o kilka dni do tego momentu.

Następnie chodzi o to, „Jak gwałtownie zauważę, iż mam problem, a jak daleko chcę się cofnąć w punkcie kontrolnym?”. Ale mamy dane, ponieważ przeprowadzamy te masowe treningi – począwszy od kilkuminutowych treningów, aż po takie, które realizowane są prawie rok.

Mamy wszystkie te dane i możemy pomóc klientom osiągnąć tę adekwatną równowagę. Istnieją nowe technologie, nad którymi pracujemy z naszymi partnerami ds. pamięci masowej, aby znaleźć sposoby wykonywania zapisu, ale także przez cały czas utrzymywać obliczenia w działaniu, podczas gdy I/O jest dystrybuowane z powrotem do systemów pamięci masowej. W tej przestrzeni jest wiele nowych technologii.

Adshead: Rozmawialiśmy o szkoleniu, a ty mówiłeś o potrzebie szybkiego przechowywania. Jaka jest rola przepustowości obok szybkości?

Boyle: Więc przepustowość i prędkość po stronie szkoleniowej są ściśle powiązane, ponieważ musisz być w stanie gwałtownie ładować. Przepustowość i ogólna wydajność odczytu są dla nas niemal tym samym wskaźnikiem.

Istnieje również opóźnienie, które może się kumulować w zależności od tego, co próbujesz zrobić. jeżeli muszę pobrać jeden element z mojego magazynu danych, moje opóźnienie jest właśnie takie.

Ale w przypadku nowoczesnej AI, zwłaszcza RAG, jeżeli zadajesz modelowi pytanie i on rozumie twoje pytanie, ale nie ma danych, aby na nie odpowiedzieć, musi je zdobyć. Pytanie może dotyczyć pogody, notowań giełdowych lub czegoś innego. Wie więc, jak odpowiedzieć na notowania giełdowe i wie, iż źródłem prawdy dla notowań giełdowych są dane SEC lub NASDAQ. Ale w sensie przedsiębiorstwa może to być numer telefonu do biura pomocy technicznej w Las Vegas.

To powinna być bardzo szybka transakcja. Ale czy ten fragment danych znajduje się w dokumencie? Czy jest na stronie internetowej? Czy jest przechowywany jako komórka danych?

Powinno być w stanie iść, bum, super gwałtownie i z opóźnieniem, które jest super niskie. Ale jeżeli jest to bardziej złożona odpowiedź, opóźnienie się kumuluje, ponieważ musi pobrać ten dokument, przeanalizować dokument, a następnie odesłać go z powrotem. To mały fragment informacji, ale może mieć duże opóźnienie. Może mieć tam dwie lub trzy warstwy opóźnienia.

Dlatego w przypadku GenAI kwestia opóźnienia jest tym, czego naprawdę oczekujesz. Czy zadaję bardzo złożone pytanie i mogę na nie poczekać sekundę? Czy zadaję pytanie, które uważam za proste? jeżeli zaczekam zbyt długo, zastanawiam się, czy model AI działa? Czy muszę nacisnąć przycisk odświeżania? Tego typu rzeczy.

A następnie w odniesieniu do opóźnienia jest tryb AI, do którego dążysz. jeżeli zadam pytanie głosem i oczekuję odpowiedzi głosowej, musi zinterpretować mój głos, zamienić to na tekst, zamienić to na zapytanie, znaleźć informacje, zamienić te informacje z powrotem na tekst i odczytać mi tekst na mowę. jeżeli to krótka odpowiedź, na przykład „Jaka jest temperatura w Vegas?”, nie chcę czekać ani pół sekundy.

Ale jeżeli zadam bardziej złożone pytanie, z którego spodziewam się kilku zdań, to mogę być skłonny poczekać pół sekundy, aż zacznie do mnie mówić. A potem pojawia się pytanie, czy moje opóźnienie nadąży, aby wysłać wystarczająco dużo tekstu do syntezatora mowy, aby brzmiało to jak naturalna odpowiedź.

Adshead: Jaka jest różnica w zakresie wejścia/wyjścia pamięci masowej między trenowaniem a wnioskowaniem?

Boyle: jeżeli budujesz nowy system pamięci masowej, są one bardzo podobne. jeżeli tworzysz system szkoleniowy AI, potrzebujesz nowoczesnego, szybkiego urządzenia pamięci masowej lub jakiegoś systemu. Potrzebujesz wysokiej przepustowości, niskiego opóźnienia, wysokiej energooszczędności.

Po stronie wnioskowania potrzebujesz tej samej struktury dla pierwszej części wnioskowania. Ale musisz również upewnić się, iż gwałtownie łączysz się ze swoimi magazynami danych przedsiębiorstwa, aby móc pobrać tę część informacji.

Czy zatem ta pamięć masowa jest wystarczająco szybka? I co równie ważne, czy ta pamięć masowa jest wystarczająco gwałtownie podłączona? Ponieważ pamięć masowa może być bardzo gwałtownie podłączona do najbliższego systemu IT, ale może znajdować się w innym centrum danych, innym centrum danych niż mój system wnioskowania.

Klient może powiedzieć: „Mam tu najszybszą pamięć masową i kupiłem najszybszą pamięć masową dla mojego systemu AI”. Wtedy zdaje sobie sprawę, iż znajdują się w dwóch różnych budynkach, a dział IT ma między nimi łącze o przepustowości jednego gigabajta, które również obsługuje program Exchange i wszystkie inne procesy.

Sieć jest więc niemal tak samo ważna jak magazyn, aby upewnić się, iż jesteś zaprojektowany, iż faktycznie możesz uzyskać informacje. A to może oznaczać przenoszenie danych, kopiowanie danych, inwestowanie w nowe technologie, ale także inwestowanie w zapewnienie, iż twoja sieć istnieje.



Source link

Idź do oryginalnego materiału