Ten model języka przeszedł szkolenie z wykorzystaniem uczenia się przez wzmacnianie na podstawie informacji zwrotnych od ludzi (RLHF), w szczególności z wykorzystaniem algorytmu REINFORCE. Proces obejmował model nagrody oparty na architekturze modelu z dużym językiem i niestandardowych podpowiedziach preferencji, zaprojektowanych w celu kierowania zachowaniem modelu. Szkolenie rozpoczęło się od istniejącego modelu językowego dostosowanego do instrukcji jako punktu wyjścia. Jako początkowa polityka została przeszkolona w oparciu o podpowiedzi Llama-3.1-Nemotron-70B-Reward i HelpSteer2-Preference na modelu Llama-3.1-70B-Instruct. Lokalne uruchomienie modelu wymaga czterech procesorów graficznych VRAM o pojemności 40 GB lub dwóch 80 GB i 150 GB wolnego miejsca na dysku. Udało nam się omówić to na stronie internetowej NVIDIA, aby przywitać się z czytelnikami TechPowerUp. Model przechodzi także niechlubny test „truskawki”, gdzie musi policzyć liczbę konkretnych liter w słowie, jednak wygląda na to, iż wchodził on w skład danych dostrajających, gdyż nie przechodzi kolejnego testu, pokazanego na obrazku poniżej.