NVIDIA udoskonala model Llama 3.1, aby pokonać GPT-4o i Claude 3.5 Sonnet przy zaledwie 70 miliardach parametrów

cyberfeed.pl 2 miesięcy temu

NVIDIA oficjalnie wypuściła swój model Llama-3.1-Nemotron-70B-Instruct. Model Nemotron, oparty na Llama3.1 70B firmy META, jest dużym modelem językowym dostosowanym przez firmę NVIDIA w celu poprawy przydatności odpowiedzi generowanych przez LLM. NVIDIA wykorzystuje dostrajające uporządkowane dane do sterowania modelem i umożliwiania mu generowania bardziej przydatnych odpowiedzi. Mając zaledwie 70 miliardów parametrów, model przewyższa swoją klasę wagową. Firma twierdzi, iż model ten pokonuje aktualnie najlepsze modele z wiodących laboratoriów, takich jak GPT-4o firmy OpenAI i Claude 3.5 Sonnet firmy Anthropic, które są w tej chwili liderami w testach porównawczych sztucznej inteligencji. W ocenach takich jak Arena Hard karta NVIDIA Llama3.1 Nemotron 70B uzyskała 85 punktów, podczas gdy GPT-4o i Sonnet 3.5 uzyskały odpowiednio 79,3 i 79,2. Inne testy porównawcze, takie jak AlpacaEval i spot MT-Bench, NVIDIA również zajmują pierwsze miejsca, zdobywając wyniki 57,6 i 8,98. Claude i GPT osiągają wartości 52,4/8,81 i 57,5/8,74, tuż poniżej Nemotrona.

Ten model języka przeszedł szkolenie z wykorzystaniem uczenia się przez wzmacnianie na podstawie informacji zwrotnych od ludzi (RLHF), w szczególności z wykorzystaniem algorytmu REINFORCE. Proces obejmował model nagrody oparty na architekturze modelu z dużym językiem i niestandardowych podpowiedziach preferencji, zaprojektowanych w celu kierowania zachowaniem modelu. Szkolenie rozpoczęło się od istniejącego modelu językowego dostosowanego do instrukcji jako punktu wyjścia. Jako początkowa polityka została przeszkolona w oparciu o podpowiedzi Llama-3.1-Nemotron-70B-Reward i HelpSteer2-Preference na modelu Llama-3.1-70B-Instruct. Lokalne uruchomienie modelu wymaga czterech procesorów graficznych VRAM o pojemności 40 GB lub dwóch 80 GB i 150 GB wolnego miejsca na dysku. Udało nam się omówić to na stronie internetowej NVIDIA, aby przywitać się z czytelnikami TechPowerUp. Model przechodzi także niechlubny test „truskawki”, gdzie musi policzyć liczbę konkretnych liter w słowie, jednak wygląda na to, iż wchodził on w skład danych dostrajających, gdyż nie przechodzi kolejnego testu, pokazanego na obrazku poniżej.

Source link

Idź do oryginalnego materiału