Ostatnio temat AI/ML stał się najbardziej populary od czasów bitcoinów i samochodów elektrycznych. Gneruje on również interesujące wyzwania dla sieci IP. Biorąc pod uwagę, iż protokół IP może przenosić InfiniBand w enkapsulacji RoCEv2 stawia to pod znakiem zapytania przyszłość Infiniband. Co więcej, klastry AI/ML są wdrażane i planowane w takim rozmiarze, który uniemożliwi skalowanie scentralizowanego rozwiązania routingu leżącego u podstaw InfiniBand. W związku z tym klastry AI/ML mogłyby odnieść korzyści z rozproszonego rozwiązania routingu IP ,który powinien zaspokoić na dużą skalę trudne wymagania stawiane przez RoCEv2 z RDMA proxy. Podczas tej prelekcji zaprezentujemy przegląd sieci szkieletowych IP, RoCEv2 i wymagań, jakie ta kombinacja stawia w klastrach AI/ML z inżynieryjnego punktu widzenia. Następnie skoncentrujemy się na możliwych podejściach do routingu rozproszonego, aby umożliwić IP, w miarę możliwości, dynamiczną reakcję na obciążenie, szczególnie w przypadku dużych środowisk. To wymaga modyfikacji IGP dla sieci IP, zupełnie nowych protokołów, zmian w BGP.
Dowiedz się więcej na: @