Amazon AWS ogłasza ogólną dostępność instancji Trainium2 i ujawnia szczegóły dotyczące układu Trainium3 nowej generacji

cyberfeed.pl 2 miesięcy temu

Na konferencji AWS re:Invent firma Amazon Web Services, Inc. (AWS), spółka należąca do Amazon.com, Inc., ogłosiła dzisiaj ogólną dostępność instancji Amazon Elastic Compute Cloud (Amazon EC2) opartych na AWS Trainium2, wprowadziła nowe serwery Trn2 UltraServers, umożliwiając klientom szkolenie i wdrażanie najnowszych modeli sztucznej inteligencji, a także przyszłych modeli wielkojęzykowych (LLM) i modeli podstawowych (FM) o wyjątkowym poziomie wydajności i efektywności kosztowej, a także zaprezentowano chipy Trainium3 nowej generacji.

„Trainium2 zostało stworzone specjalnie z myślą o obsłudze największych, najnowocześniejszych obciążeń generatywnej sztucznej inteligencji, zarówno na potrzeby szkolenia, jak i wnioskowania, a także w celu zapewnienia najlepszej wydajności cenowej na platformie AWS” – powiedział David Brown, wiceprezes ds. obliczeń i sieci w AWS. „Rozumiemy, iż modele o parametrach sięgających bilionów parametrów rozumiemy, iż klienci potrzebują również nowatorskiego podejścia do szkolenia i obsługi tak ogromnych obciążeń. Nowe serwery Trn2 UltraServers oferują najszybszą wydajność szkolenia i wnioskowania w AWS oraz pomagają organizacjom każdej wielkości szkolić i wdrażać największe modele na świecie szybciej i taniej.”

Instancje Trn2 oferują o 30–40% lepszą wydajność cenową niż obecna generacja instancji EC2 P5e i P5en opartych na procesorach graficznych i są wyposażone w 16 chipów Trainium2, które zapewniają szczytową moc obliczeniową na poziomie 20,8 petaflopów – idealne do szkolenia i wdrażania LLM z miliardami parametrów.
Serwery Amazon EC2 Trn2 UltraServers to zupełnie nowa oferta EC2 obejmująca 64 połączone ze sobą chipy Trainium2, korzystające z ultraszybkiego łącza NeuronLink, umożliwiające skalowanie do 83,2 szczytowych petaflopów mocy obliczeniowej — czterokrotnie zwiększając moc obliczeniową, pamięć i sieć w pojedynczej instancji — co umożliwia szkolić i wdrażać największe modele na świecie.
Razem z Anthropic firma AWS buduje EC2 UltraCluster Trn2 UltraServers — nazwany Project Rainier — zawierający setki tysięcy chipów Trainium2 i ponad 5 razy większą liczbę eksaflopów używanych do szkolenia obecnej generacji wiodących modeli sztucznej inteligencji.
AWS zaprezentowało Trainium3, układ AI nowej generacji, który umożliwi klientom szybsze budowanie większych modeli i zapewnianie doskonałej wydajności w czasie rzeczywistym podczas ich wdrażania.

W miarę powiększania się modeli przesuwają one granice infrastruktury obliczeniowej i sieciowej, ponieważ klienci chcą skrócić czas szkolenia i opóźnienia wnioskowania — czas pomiędzy otrzymaniem danych wejściowych przez system sztucznej inteligencji a wygenerowaniem odpowiednich danych wyjściowych. AWS oferuje już najszerszy i najgłębszy wybór przyspieszonych instancji EC2 dla AI/ML, w tym tych zasilanych przez procesory graficzne i chipy ML. Jednak choćby w przypadku najszybszych dostępnych w tej chwili instancji przyspieszonych klienci oczekują większej wydajności i skalowalności, aby móc szybciej i przy niższych kosztach szkolić te coraz bardziej wyrafinowane modele. W miarę wzrostu złożoności modelu i ilości danych samo zwiększenie rozmiaru klastra nie zapewnia krótszego czasu uczenia ze względu na ograniczenia równoległości. Jednocześnie wymagania dotyczące wnioskowania w czasie rzeczywistym przekraczają możliwości architektur jednoinstancyjnych.

Trn2 to najskuteczniejsza instancja Amazon EC2 do głębokiego uczenia się i generatywnej sztucznej inteligencji
Trn2 oferuje o 30-40% lepszą wydajność cenową niż obecna generacja instancji EC2 opartych na GPU. Pojedyncza instancja Trn2 łączy 16 chipów Trainium2 połączonych ze sobą ultraszybkim łączem NeuronLink o dużej przepustowości i niskim opóźnieniu między chipami, aby zapewnić szczytową moc obliczeniową 20,8 petaflopów, idealną do szkolenia i wdrażania modeli o rozmiarze miliardów parametrów.

Serwery Trn2 UltraServers spełniają coraz większe wymagania obliczeniowe AI największych modeli świata
W przypadku największych modeli, które wymagają jeszcze większej mocy obliczeniowej, serwery Trn2 UltraServers umożliwiają klientom skalowanie szkolenia poza limity pojedynczej instancji Trn2, skracając czas szkolenia, przyspieszając czas wprowadzenia produktu na rynek i umożliwiając szybką iterację w celu poprawy dokładności modelu. Trn2 UltraServers to zupełnie nowa oferta EC2, która wykorzystuje ultraszybkie połączenie NeuronLink do łączenia czterech serwerów Trn2 w jeden gigantyczny serwer. Dzięki nowym serwerom Trn2 UltraServers klienci mogą skalować swoje generatywne obciążenia AI na 64 chipach Trainium2. W przypadku obciążeń związanych z wnioskowaniem klienci mogą używać serwerów Trn2 UltraServers w celu poprawy wydajności wnioskowania w czasie rzeczywistym dla modeli produkcyjnych o bilionach parametrów. Razem z Anthropic, AWS buduje EC2 UltraCluster z Trn2 UltraServers, nazwany Project Rainier, który będzie skalował rozproszone szkolenie modeli na setki tysięcy chipów Trainium2 połączonych ze sobą siecią EFA trzeciej generacji o małych opóźnieniach w skali petabitowej – ponad 5 razy więcej liczbę eksaflopów, które firma Anthropic wykorzystała do szkolenia obecnej generacji wiodących modeli sztucznej inteligencji. Oczekuje się, iż po ukończeniu będzie to największy na świecie klaster obliczeniowy AI, dostępny do tej pory dla firmy Anthropic, na którym będzie można budować i wdrażać swoje przyszłe modele.

Anthropic to firma zajmująca się bezpieczeństwem i badaniami nad sztuczną inteligencją, która tworzy niezawodne, interpretowalne i sterowalne systemy sztucznej inteligencji. Flagowym produktem Anthropic jest Claude, LLM, któremu zaufały miliony użytkowników na całym świecie. W ramach rozszerzonej współpracy firmy Anthropic z AWS rozpoczęto optymalizację modeli Claude pod kątem działania na Trainium2, najbardziej zaawansowanym jak dotąd sprzęcie AI firmy Amazon. Anthropic będzie używać setek tysięcy chipów Trainium2 — ponad pięciokrotnie większych niż ich poprzedni klaster — aby zapewnić wyjątkową wydajność klientom korzystającym z Claude w Amazon Bedrock.

Mosaic AI firmy Databricks umożliwia organizacjom tworzenie i wdrażanie systemów agentów wysokiej jakości. Jest zbudowany natywnie na bazie jeziora danych, dzięki czemu klienci mogą łatwo i bezpiecznie dostosowywać swoje modele dzięki danych przedsiębiorstwa i dostarczać dokładniejsze wyniki specyficzne dla domeny. Dzięki wysokiej wydajności i opłacalności Trainium klienci mogą niewielkim kosztem skalować szkolenia w zakresie modeli na Mosaic AI. Dostępność Trainium2 będzie główną korzyścią dla Databricks i jej klientów, ponieważ popyt na Mosaic AI stale rośnie we wszystkich segmentach klientów i na całym świecie. Databricks, jedna z największych na świecie firm zajmujących się danymi i sztuczną inteligencją, planuje wykorzystać Trn2, aby zapewnić swoim klientom lepsze wyniki i obniżyć całkowity koszt posiadania choćby o 30%.

Hugging Face to wiodąca otwarta platforma dla twórców sztucznej inteligencji, z ponad 2 milionami modeli, zbiorów danych i aplikacji AI udostępnianych przez społeczność składającą się z ponad 5 milionów badaczy, analityków danych, inżynierów uczenia maszynowego i twórców oprogramowania. Hugging Face współpracował z AWS przez ostatnie kilka lat, ułatwiając programistom poznanie wydajności i korzyści kosztowych AWS Inferentia i Trainium poprzez bibliotekę open source Optimum Neuron, zintegrowaną z punktami końcowymi Hugging Face Inference, a teraz zoptymalizowaną w ramach nowa usługa samodzielnego wdrożenia HUGS, dostępna na AWS Marketplace. Wraz z premierą Trainium2 użytkownicy Hugging Face będą mieli dostęp do jeszcze wyższej wydajności, aby szybciej opracowywać i wdrażać modele.

Poolside ma zbudować świat, w którym sztuczna inteligencja będzie napędzać większość ekonomicznie wartościowych prac i postępu naukowego. Poolside wierzy, iż tworzenie systemu będzie pierwszą istotną funkcją sieci neuronowych, która osiągnie inteligencję na poziomie ludzkim. Aby to umożliwić, budują FM, API i asystenta, który udostępni programistom moc generatywnej sztucznej inteligencji. Kluczem do wdrożenia tej technologii jest infrastruktura, której używają do tworzenia i uruchamiania swoich produktów. Dzięki AWS Trainium2 klienci Poolside będą mogli skalować wykorzystanie Poolside przy stosunku ceny do wydajności, w przeciwieństwie do innych akceleratorów AI. Ponadto firma Poolside planuje szkolić przyszłe modele przy użyciu serwerów Trainium2 UltraServers, co przyniesie oczekiwane oszczędności na poziomie 40% w porównaniu z instancjami EC2 P5.

Chipy Trainium3 — zaprojektowane z myślą o wysokich wymaganiach związanych z kolejną edycją generatywnych obciążeń AI
AWS zaprezentował Trainium3, chip szkoleniowy AI nowej generacji. Trainium3 będzie pierwszym chipem AWS wykonanym w 3-nanometrowym procesie technologicznym, ustanawiającym nowy standard wydajności, efektywności energetycznej i gęstości. Oczekuje się, iż serwery UltraServers oparte na Trainium3 będą 4 razy bardziej wydajne niż serwery Trn2 UltraServers, umożliwiając klientom jeszcze szybsze wykonywanie iteracji podczas budowania modeli i zapewniając doskonałą wydajność w czasie rzeczywistym podczas ich wdrażania. Oczekuje się, iż pierwsze instancje oparte na Trainium3 będą dostępne pod koniec 2025 roku.

Umożliwianie klientom odblokowania wydajności Trainium2 dzięki systemu AWS Neuron
Zestaw Neuron SDK zawiera kompilator, biblioteki wykonawcze i narzędzia pomagające programistom optymalizować ich modele do działania w Trainium. Zapewnia programistom możliwość optymalizacji modeli w celu uzyskania optymalnej wydajności na chipach Trainium. Neuron jest natywnie zintegrowany z popularnymi frameworkami, takimi jak JAX i PyTorch, dzięki czemu klienci mogą przez cały czas korzystać z istniejącego kodu i przepływów pracy w Trainium przy mniejszej liczbie zmian w kodzie. Neuron obsługuje także ponad 100 000 modeli w centrum modeli Hugging Face. Dzięki interfejsowi Neuron Kernel Interface (NKI) programiści uzyskują dostęp do chipów Trainium typu bare metal, umożliwiających im pisanie jąder obliczeniowych maksymalizujących wydajność w przypadku wymagających obciążeń.

Oprogramowanie Neuron zostało zaprojektowane tak, aby ułatwić korzystanie z popularnych frameworków, takich jak JAX, do uczenia i wdrażania modeli w Trainium2, minimalizując jednocześnie zmiany w kodzie i powiązanie z rozwiązaniami specyficznymi dla dostawców. Google wspiera wysiłki AWS mające na celu umożliwienie klientom używania JAX do szkoleń i wnioskowania na dużą skalę poprzez natywną integrację z OpenXLA, zapewniając użytkownikom łatwą i przenośną ścieżkę kodowania umożliwiającą szybkie rozpoczęcie pracy z instancjami Trn2. Dzięki szerokiej w branży współpracy w zakresie systemu open source i dostępności Trainium2 Google spodziewa się zwiększonego przyjęcia JAX w społeczności ML – co będzie znaczącym kamieniem milowym dla całego ekosystemu ML.

Instancje Trn2 są dziś ogólnie dostępne we wschodnich Stanach Zjednoczonych (Ohio) w regionie AWS, a niedługo będą dostępne w dodatkowych regionach. Serwery Trn2 UltraServers są dostępne w wersji zapoznawczej.

Source link

Idź do oryginalnego materiału