
Czy mały może więcej? Na to wygląda – szczególnie w specjalizowanych zadaniach. Maleńki model Samsunga bije na głowę o wiele większą konkurencję w problemach, co do których wiemy, iż są trudne do rozwiązania dla modeli językowych. To nie oznacza, iż nowy model od Samsunga we wszystkim zastąpi modele językowe. Ale rodzi się pytanie, czy stawianie wyłącznie na LLM-y to nie ślepa uliczka.
Jeszcze nieco ponad rok temu wydawało się, iż miniaturyzacja modeli – odchodzenie od tych największych i zastępowanie ich mniejszymi, wytrenowanymi na zestawach danych wyższej jakości – będzie istotną drogą rozwoju sztucznej inteligencji. Potem pojawiły się modele rozumujące, fascynacja maluchami trochę opadła. Choć mniejsze modele, takie jak Flash w Gemini czy mini w modelach rozumujących od OpenAI, na trwałe weszły do repertuaru firm rozwijających AI.
Teraz okazuje się, iż w pewnych, zwłaszcza wizualnych zadaniach, mały – bo liczący zaledwie 7 milionów (tak, milionów, nie miliardów) parametrów – model radzi sobie lepiej niż modele choćby przeszło 10 tysięcy razy większe. Takie jak DeepSeek-R1 czy o3-mini, czyli modele rozumujące.
Maleńki model Samsunga bije konkurencję
Jak do tego doszli badacze z Samsunga? Po prostu zrezygnowali zupełnie z architektury LLM-ów i zastosowali inną, o wiele prostszą. Nazwali ją Tiny Recursive Model (czyli Maleńki Model Rekurencyjny) i faktycznie pod względem głębokości sieci neuronowej jest on maleńki. Ma raptem 2 warstwy, trudno więc tu choćby mówić o uczeniu głębokim. Dla porównania, GPT-4 ma podobno 120 warstw.
Jak takiemu maluchowi udaje się uzyskać zadawalające rozwiązania? W odróżnieniu od LLM-ów nie generuje on odpowiedzi token po tokenie. Zamiast tego rekurencyjnie ulepsza swoje własne odpowiedzi. Odpowiedź z jednej iteracji staje się danymi wejściowymi dla kolejnej. Liczba iteracji może dojść do 16.
Oczywiście trzeba pamiętać, iż konstrukcja modelu jest szczególnie dopasowana do rozwiązywania zadań dwuwymiarowych. Mogą to być zadania arytmetyczne, takie jak sudoku, albo geometryczne, takie jak ARC-AGI, zestaw zadań uznawanych za bardzo łatwe dla ludzi, ale bardzo trudne dla dużych modeli językowych.
I to właśnie wyniki TRM w ARC-AGI wzbudziły największe zdumienie. Modelowi udało się uzyskać lepszy wynik (44,6%) niż uzyskało wcześniej wiele innych, znacznie większych modeli.

Jak widać z wykresu, pochodzącego z przeprowadzonego pod koniec zeszłego roku testu ARC-AGI, tylko modele o3 były lepsze od obecnych wyników modelu Samsunga. W pokonanym polu pozostały nie tylko oznaczone na wykresie modele o1, ale również DeepSeek-R1 czy Gemini-2.5-Pro.
A wszystko to przy nieprawdopodobnej efektywności obliczeniowej. Maleńki model Samsunga zużywa raptem 0,01% zasobów obliczeniowych, których używają wielkie modele językowe.
Czas na nowe podejście?
Zaskakujące osiągi TRM, a zwłaszcza jego efektywność obliczeniowa każą zadać podstawowe pytanie. Czy stawiając niemal wyłącznie na duże modele językowe, wielkie laby AI nie popełniają fundamentalnego błędu.
Wskazuje na to jedna z autorek TRM, Alexia Jolicoeur-Martineau.
„Pomysł, iż aby rozwiązać trudne zadania, trzeba polegać na potężnych modelach fundamentowych szkolonych za miliony dolarów przez jakąś wielką korporację, jest pułapką. w tej chwili zbyt duża uwaga skupia się na eksploatowaniu dużych modeli językowych (LLM) zamiast na obmyślaniu i rozwijaniu nowych kierunków działania” – napisała na platformie X badaczka.
Nie jest to jedyny głos wskazujący na to, iż LLM-y jako podstawa AI nie wystarczą. Od dawna wskazuje na to jedna z najwybitniejszych postaci AI, Yann LeCun. Według niego, dojście przez AI do ludzkiego poziomu inteligencji będzie wymagało nowych pomysłów, a LLM-y będą co najwyżej elementem, a nie podstawą takich systemów. Z kolei założyciel startupu Periodic Labs Liam Fedus stwierdził niedawno, iż Dolina Krzemowa jest „intelektualnie leniwa” w swojej wierze, iż LLM-y doprowadzą nas do nowych odkryć naukowych czy technologicznych.
Na razie wielkie laby AI wydają się wierzyć, iż połączenie LLM-ów z uczeniem ze wzmocnieniem, które dało nam modele „rozumujące”, jest adekwatną ścieżką rozwoju AI. Nie jest jednak pewne, czy to podejście ma jeszcze spory potencjał. Na przykład postęp GPT-5 w stosunku do o3 był w kilku dziedzinach relatywnie niewielki.
Być może jesteśmy jeszcze w stanie wycisnąć z LLM-ów nieco więcej inteligencji. Jednak pojawienie się takiej architektury jak TRM, z jej wąskimi, ale nieprawdopodobnie efektywnymi umiejętnościami wskazuje, iż być może powinniśmy tworzyć systemy AI z kilku specjalizowanych i efektywnych elementów. A nie – starać się wycisnąć niemal wszystko z jednej, olbrzymiej i, jak się okazuje, przynajmniej w niektórych zastosowaniach – kompletnie nieefektywnej architektury.
Źródło zdjęcia: Kote Puerto/Unsplash