Microsoft ogłosił niedawno wprowadzenie Phi-4, nowego modelu AI, który wyróżnia się przede wszystkim swoimi rozmiarami. W odróżnieniu od dużych modeli językowych (Large Language Models, LLM), takich jak te wykorzystywane przez ChatGPT czy Copilot, Phi-4 należy do kategorii małych modeli językowych (Small Language Models, SLM). Jego twórcy zadbali jednak o to, by miał asa w rękawie – Phi-4 doskonale radzi sobie z rozwiązywaniem zaawansowanych problemów matematycznych i przetwarzaniem języka.
Model ten wykazuje zaskakujące możliwości, wyprzedzając swoimi osiągami choćby takie „giganty” jak Gemini Pro 1.5 w zadaniach matematycznych na poziomie konkursowym. Jak to możliwe? Wszystko wskazuje na to, iż klucz tkwi w nowoczesnych metodach szkolenia oraz prężnym postępowaniu po zakończeniu głównej fazy uczenia.
Dlaczego małe modele językowe zdobywają popularność?
Małe modele AI, jak ChatGPT-4o mini, Gemini 2.0 Flash czy Claude 3.5 Haiku, cieszą się coraz większym zainteresowaniem, i to nie bez powodu. W porównaniu do większych odpowiedników są one:
- szybsze w działaniu,
- tańsze w eksploatacji.
Jeszcze do niedawna wydawało się, iż ich wydajność zawsze będzie ustępować LLM. Ale teraz, wraz z postępami w ich rozwoju, różnice między nimi a „większymi braćmi” coraz częściej się zacierają. W przypadku Phi-4 Microsoft postawił na syntetyczne, wysokiej jakości zestawy danych, które posłużyły w procesie szkolenia modelu. Kluczową rolę odegrało również dopracowanie technik stosowanych już po zakończeniu głównego etapu trenowania modelu – to prawdziwy przełom w rozwijaniu małych modeli AI.
Co sprawia, iż Phi-4 jest tak wyjątkowy?
Jednym z największych wyzwań przy tworzeniu zaawansowanych modeli AI zawsze było pokonanie tak zwanego „pre-training data wall” – bariery wynikającej z ogromnych zasobów przetwarzania i danych wymaganych na etapie wstępnego uczenia maszynowego. Coraz częściej jednak producenci, zamiast zwiększać moc obliczeniową, koncentrują się na ulepszeniach w trakcie i po zakończeniu szkolenia modelu. Phi-4 to doskonały przykład takiego podejścia.
Co ciekawe, choć możliwości Phi-4 wydają się imponujące, model ten nie jest dostępny do bezpośrednich interakcji takich, jak z ChatGPT. Microsoft udostępnił go na platformie Azure AI Foundry, narzędziu wspomagającym deweloperów w tworzeniu aplikacji opartych na generatywnej sztucznej inteligencji. Możliwość samodzielnego testowania Phi-4 jest ograniczona – wymaga podpisania odpowiedniej licencji badawczej. Jego dalsze zastosowania zależą więc od kreatywności programistów.
Z niecierpliwością czekamy na pierwsze projekty i narzędzia oparte na Phi-4. Potencjał tego modelu nie budzi wątpliwości, zwłaszcza w obszarach wymagających złożonego rozumowania matematycznego czy przetwarzania języka.