Phi-2 - duży krok w stronę małych modeli językowych

bulldogjob.pl 8 miesięcy temu

Poznaj specyfikę SLM, czyli małych modeli językowych, na przykładzie świeżego modelu Phi-2 od Microsoftu.

W 2023 roku uwaga środowiska IT w dużej miejsce koncentrowała się na rozwoju dużych modeli językowych (LLM) takich jak GPT od OpenAI, czy Llama od Mety. Nie da się dyskutować z tym, iż zdominowali liczbę i rangę doniesień w tym obszarze. Jednak równolegle do nich Microsoft eksplorował we własnym zakresie potencjał małych modeli językowych (SLM), ze szczególnym naciskiem na serię Phi.SLM, takie jak Phi-2, stawiają na minimalizację zasobów i bardziej zindywidualizowane podejście do generowania treści. W przeciwieństwie do potężnych modeli LLM, Phi-2 działa na znacznie mniejszej liczbie parametrów (2,6 mld), co zdaniem Microsoftu nie stoi w sprzeczności z efektywnością działania tego modelu.Kluczem do sukcesu SLM ma być selektywne dobieranie danych treningowych. W przypadku Phi-2, proces ten opiera się na łączeniu syntetycznych danych wygenerowanych automatycznie przez AI z danymi zamieszczonymi w sieci, wyselekcjonowanymi pod kątem wartości edukacyjnej i jakości. To podejście pozwala na uzyskanie modelu zdolnego "wypluwać" bardziej klarowne i zwięzłe odpowiedzi.
Idź do oryginalnego materiału