Google uruchamia magazyn plików Parallelstore podczas szkolenia AI w chmurze

cyberfeed.pl 4 miesięcy temu

Platforma Google Cloud Platform (GCP) została uruchomiona z usługą równoległego przechowywania plików zarządzaną przez Parallelstore, do której jest skierowana intensywne wejścia/wyjścia (I/O) dla zastosowań sztucznej inteligencji (AI). i jest oparty na architekturze open source – ale opracowanej przez firmę Intel – Distributed Asynchronous Object Storage (DAOS). Intel pierwotnie zamierzał DAOS być obsługiwany przez trwałą pamięć Optane, ale ta marka podrzędna już nie istnieje.

DAOS, który był dostępny w prywatnej wersji zapoznawczej, składa się z równoległego systemu plików wdrożonego w wielu węzłach magazynowania, wspieranego przez magazyn metadanych w pamięci trwałej. Replikuje całe pliki na maksymalną liczbę węzłów, aby umożliwić równoległy dostęp przy możliwie najmniejszych opóźnieniach klientom tworzącym aplikacje AI.

Pomimo upadek Optane pamięć trwała – która stanowiła część przestrzeni technologii pamięci klasy pamięci masowej – DAOS w dalszym ciągu opiera się na własności intelektualnej firmy Intel.

Należą do nich protokół komunikacyjny Intel Omnipath, który jest podobny do Infiniband i wdrażany za pośrednictwem kart Intel w węzłach obliczeniowych. Te przepytują serwery metadanych, aby znaleźć lokalizację pliku podczas operacji odczytu/zapisu, a następnie komunikują się z węzłem w trybie blokowym poprzez RDMA przez konwergentną sieć Ethernet (RoCE ).

Nasycenie przepustowości serwera

„To efektywne dostarczanie danych maksymalizuje korzyści dobra opinia Do Procesory graficzne [graphics processing units] I TPU [tensor processing units]to najważniejszy czynnik optymalizacji kosztów obciążenia AI” – powiedział w poście na blogu dyrektor produktu GCP Barak Epstein. „Parallelstore może również zapewnić ciągły dostęp do odczytu/zapisu na tysiącach maszyn wirtualnych [virtual machines]procesorów graficznych i TPU, spełniając skromne lub ogromne wymagania w zakresie sztucznej inteligencji i obciążeń obliczeniowych o wysokiej wydajności.

Dodał, iż w przypadku maksymalnego wdrożenia Parallelstore wynoszącego 100 TB (terabajtów) przepustowość można skalować do około 115 GB/s, trzech milionów IOPS odczytu, jednego miliona IOPS zapisu i minimalnego opóźnienia wynoszącego blisko 0,3 milisekundy.

„Oznacza to, iż Parallelstore jest również dobrą platformą dla małych plików i losowego, rozproszonego dostępu dla dużej liczby klientów” – powiedział Epstein.

Według Epsteina czas szkolenia modelu AI można skrócić prawie czterokrotnie w porównaniu z innymi modułami ładowania danych uczenia maszynowego.

Pomysł GCP polega na tym, iż klienci najpierw umieszczają swoje dane w Google Cloud Storage, z którego można korzystać we wszystkich przypadkach użycia w GCP oraz w aplikacjach typu oprogramowanie jako usługa za pośrednictwem maszyn wirtualnych. Ta część procesu umożliwiłaby klientowi wybranie spośród wszystkich jego danych danych nadających się do przetwarzania AI za pośrednictwem Parallelstore. Aby w tym pomóc, GCP oferuje usługę Storage Insights Dataset, będącą częścią oferty Gemini AI, aby pomóc klientom ocenić ich dane.

Po wybraniu danych jako danych szkoleniowych ich transfer do Parallelstore może odbywać się z szybkością 20 GB/s. jeżeli pliki są małe – na przykład mniejsze niż 32 MB – można osiągnąć szybkość przesyłania 5000 plików na sekundę.

Poza przypadkami użycia szkoleń AI ukierunkowanymi przez GCP, Parallelstore będzie również dostępny dla klastrów Kubernetes – na przykład za pośrednictwem Silnik kontenerowy Google (GKE) firmy GCP – poprzez dedykowane sterowniki CSI. W praktyce administratorzy będą mogli zarządzać wolumenem Parallelstore jak każdą inną pamięcią podłączoną do GKE.

DAOS jest wysiłek open source system obiektowej pamięci masowej, który oddziela płaszczyznę danych od płaszczyzny sterującej, jednocześnie segregując metadane we/wy i indeksując obciążenia z pamięci masowej.

DAOS przechowuje metadane w szybkiej, trwałej pamięci i dane masowe na dyskach półprzewodnikowych (SSD) typu non-volatile memory express (NVMe). Według firmy Intel wydajność operacji we/wy odczytu/zapisu DAOS skaluje się niemal liniowo wraz ze wzrostem liczby żądań we/wy klientów – do około 32 do 64 zdalnych klientów – dzięki czemu dobrze nadaje się do chmury i innych współdzielonych środowisk.

Source link

Idź do oryginalnego materiału