Bielik 7B jest modelem generatywnym opartym na architekturze swojego starszego brata, czyli modelu Mistral-7B-v0.1, a do jego stworzenia użyto ponad 70 miliardów tokenów. Jak deklarują jego twórcy, zespół SpeakLeash, dokumenty źródłowe przed tokenizacją zostały dokładnie przeanalizowane przez specjalnie do tego stworzony model kontroli jakości. W rezultacie możliwe było wyselekcjonowanie najlepszych dostępnych tekstów.