Od pojawienia się GPT-4.5-preview nie minęły jeszcze dwa miesiące, a firma OpenAI już przekazała informację o wycofaniu tego modelu – dostęp poprzez API będzie możliwy do dnia 14 lipca 2025. Jednocześnie gigant zachęca użytkowników do zapoznania się z modelem GPT-4.1, który to w wielu testach wydajnościowych według producenta wypada lepiej niż poglądowa wersja GPT-4.5, a tym samym jest zdecydowanie tańszy i szybszy.
Ponadto firma z San Francisco kilka dni temu oficjalnie pochwaliła się budżetowymi modelami GPT-4.1 w postaci mini i nano. Na szczególną uwagę zasługuje fakt, iż nano jest cztery razy tańszy od inteligentniejszego mini. Pytanie, jak w tej sytuacji ta niska cena wpłynie na jakość wyników prezentowanych przez najmniejszego z „transformerów”? Postanowiłem wykonać niewielkie testy porównawcze i sprawdzić czy nano, w ogóle ma szanse stać się pierwszym wyborem deweloperów.
Analiza obrazu o niskiej rozdzielczości
Na podstawie zamieszczonego zdjęcia, trzy poszczególne modele od OpenAI miały za zadanie opisać widoczne elementy. Tego typu działanie, już na samym początku pomoże rozeznać się w zdolnościach jakie posiada obecne wydanie transformatorów generatywnych w temacie analizy obrazu. Poniżej zamieściłem zdjęcie oraz pytanie.
Na wejściu (input): typ pliku: WEBP (.webp), 18 KB, rozdzielczość: 360 x 480 px.
GPT-4.1
Na zdjęciu widać filiżankę z czarną kawą stojącą na białym spodeczku, która znajduje się na okrągłym, ciemnym stoliku. Obok na stoliku stoi zielona butelka (prawdopodobnie woda mineralna) oraz papierowy podkładek lub serwetka. W tle widoczna jest czerwona kurtka przewieszona przez oparcie krzesła oraz niewyraźne elementy wnętrza lokalu.
Moim zdaniem opis jest prawidłowy i szczegółowy. Niekoniecznie wszystkim przypadną do gustu użyte zdrobnienia, jednak w tej sytuacji nie zamierzam szukać dziury w całym.
GPT-4.1 mini
Na zdjęciu znajduje się biały filiżanka wypełniona czarną kawą, postawiona na białym spodeczku, które stoją na marmurowym lub kamiennym stole o ciemnej kolorystyce z jasnymi żyłkami. W tle widoczna jest zielona butelka, która stoi na białym podkładce na stole. Dodatkowo w tle znajduje się czerwony element, prawdopodobnie kurtka lub płaszcz, a także zarys wnętrza pomieszczenia.
Mini ma jeszcze delikatne problemy z tworzeniem opisów w języku polskim, ale sama analiza obrazu jest zdecydowanie na wysokim poziomie.
GPT-4.1 nano
Na zdjęciu znajduje się biały filiżanka z kawą postawiona na spodku, które leży na ciemnym stole. Obok filiżanki stoi zielona butelka, najprawdopodobniej z wodą, na boku znajduje się też biała serwetka. W tle widoczny jest człowiek w czerwonej kurtce, który siedzi z plecakiem na plecach, oraz elementy wnętrza kawiarni lub restauracji.
Nano podobnie jak mini, musi jeszcze popracować nad językiem polskim. Natomiast w oczy rzuca się nieprawidłowe rozpoznanie kurtki, tutaj jako człowieka, „który siedzi z plecakiem na plecach”. Można się czepiać, ale na usprawiedliwienie nano, mogę dodać, iż podany obraz nie jest w wysokiej rozdzielczości, a elementy w tle są delikatnie rozmyte.
Ruch drogowy, czyli GPT-4.1 jako kierowca
W tym teście sprawdziłem czy poszczególne modele poradzą sobie z oceną sytuacji na drodze. Podobnie jak wyżej, kolejne wersje GPT-4.1 przeanalizowały zadane na wejściu dwa zdjęcia i wcieliły się w uczestnika ruchu drogowego. Poniżej; zdjęcie oraz „pytanie do AI”.
Na wejściu: typ pliku: JPG (.jpg), 134 KB, rozdzielczość: 1200 x 715 px.
GPT-4.1
Na podstawie podanego obrazu:
– Wszystkie sygnalizatory świetlne na głównej drodze (przed Tobą, dla pojazdów jadących prosto oraz skręcających w prawo) **świecą się na zielono**.
– Dla kierowców chcących wyjechać z lewej strony jest czerwone światło.
– Pojazd po prawej stronie (biała ciężarówka) również ma zielone światło.
W tej sytuacji **pierwszeństwo mają pojazdy jadące na wprost oraz skręcające zgodnie z przepisami obowiązującymi na zielonym świetle**.
Jeśli Ty znajdujesz się na drodze z którego wykonano zdjęcie i masz zielone światło, masz **pierwszeństwo przed pojazdami jadącymi z lewej strony**, które mają czerwone światło.
Jeśli jednak ciężarówka z prawej strony (skręca lub wjeżdża na ten sam pas), obowiązuje zasada ogólna dotycząca skrzyżowań z sygnalizacją świetlną: **wszyscy mający zielone światło mają prawo jazdy, ale muszą ustępować pierwszeństwa pieszym na przejściu oraz pojazdom wykonującym manewry przecinające się (np. skręt w lewo vs. jazda na wprost).**
**Podsumowanie:**
Pierwszeństwo mają pojazdy poruszające się na wprost lub skręcające zgodnie z przepisami na zielonym świetle. Ważne, aby zachować ostrożność wobec pojazdów skręcających oraz pieszych na przejściach.
W przypadku GPT-4.1 mamy do czynienia z delikatnym wodolejstwem. Ponadto biała ciężarówka po prawej stronie ma czerwone światło, natomiast nie jest ono widoczne na zdjęciu.
GPT-4.1 mini
Na podstawie podanego obrazu można zauważyć sygnalizację świetlną:
– Światło dla pojazdu, z którego wykonujesz zdjęcie, jest zielone.
– Sąsygnalizatory po lewej stronie pokazują czerwone światło, a pojazdy tam stoją.
– Pojazd po prawej stronie również ma czerwone światło, co oznacza, iż nie może przejechać.
W takiej sytuacji pojazd, z którego punktu widzenia wykonano zdjęcie, ma pierwszeństwo przejazdu, ponieważ ma zielone światło i tor ruchu jest wolny.
Podsumowując: masz pierwszeństwo przejazdu w tej sytuacji.
Wygląda na to, iż mini przedstawił najlepszą odpowiedź. Jest ona konkretna i nie ma wątpliwości związanych z interpretacją danej sytuacji na drodze.
GPT-4.1 nano
Na podstawie tego obrazu, pierwszy do przejazdu ma pojazd, który jedzie na wprost z prawego pasa (auto w środku).
Pojazd na lewym pasie (czarny samochód) powinien ustąpić pierwszeństwa, ponieważ jest na pasie skrętu w lewo (z lewej strony).
Pojazd po prawej stronie, czyli na białej ciężarówce, ma czerwone światło i się zatrzymał.
Podsumowując, w tej sytuacji pierwszy ma przejazd pojazd jadący na wprost, a następnie pojazd skręcający w lewo (czarny samochód), jeżeli nie ma innych znaków lub sygnałów, które to zmieniają.
Najmniejszy model, czyli nano przedstawił całość w swój charakterystyczny sposób. Z opisu można wywnioskować, iż mam w tej sytuacji pierwszeństwo przejazdu. Moim zdaniem przeanalizował ten obraz choćby lepiej niż bazowy model. Być może wynika to z pewnych ograniczeń i braku miejsca na nadinterpretacje i halucynacje. Zaznaczam jednak, iż są to tylko moje przypuszczenia.
Przejdźmy do kolejnego zdjęcia i inne sytuacji na drodze.
Na wejściu: typ pliku: JPG (.jpg), 153 KB, rozdzielczość: 1200 x 675 px.
Spostrzegawczy GPT-4.1
W tej sytuacji należy zachować szczególną ostrożność, ponieważ przed Tobą jadą rowerzyści. Oto, jakie kroki powinieneś podjąć jako kierowca:
1. **Zwolnij** – Zredukuj prędkość, aby w razie potrzeby móc bezpiecznie zahamować.
2. **Zachowaj bezpieczny odstęp** – Utrzymuj odpowiedni dystans od rowerzystów, aby nie stwarzać dla nich zagrożenia.
3. **Nie wyprzedzaj w niebezpiecznym miejscu** – Droga jest wąska, a przed Tobą palmowy pas zieleni i jadący z naprzeciwka samochód, więc wyprzedzanie byłoby niebezpieczne.
4. **Poczekaj na dogodny moment** – jeżeli chcesz wyprzedzić rowerzystów, poczekaj aż będzie wystarczająco dużo miejsca, widoczność będzie dobra i nie będzie nadjeżdżających pojazdów z naprzeciwka. Wyprzedzaj ich w odległości co najmniej 1-1,5 metra.
5. **Zachowaj szczególną ostrożność przy mijaniu pieszych** – Piesi mogą również wejść na jezdnię.
Podsumowując: **Jedź wolno za rowerzystami i nie wyprzedzaj ich w tym miejscu. Poczekaj na bezpieczną okazję, by to zrobić.**
Na uwagę zasługuje spostrzeżenie nadjeżdżającego z naprzeciwka samochodu.
Dopracowany GPT-4.1 mini
Na podstawie obrazu widzę, iż jedziesz za rowerzystami poruszającymi się w grupie na drodze. W takiej sytuacji należy zachować szczególną ostrożność i dostosować prędkość do rowerzystów, zachowując odpowiedni bezpieczny odstęp, aby nie stwarzać zagrożenia dla ich bezpieczeństwa. Nie należy wyprzedzać rowerzystów na zakręcie ani na wąskiej drodze, jeżeli nie masz pewności, iż manewr jest całkowicie bezpieczny i zgodny z przepisami ruchu drogowego. o ile droga jest wystarczająco szeroka i pozwalają na to warunki, można bezpiecznie wyprzedzić rowerzystów, pamiętając o zachowaniu odpowiedniego odstępu na bok.
Podsumowując:
– Zwolnij.
– Zachowaj bezpieczną odległość od rowerzystów.
– Nie wyprzedzaj ich na zakręcie i w miejscach o ograniczonej widoczności.
– Wyprzedzaj tylko wtedy, gdy jest to bezpieczne i zgodne z przepisami.
Ogólne, ale dosyć trafne przemyślenia i wskazówki.
GPT-4.1 nano odpowiada w swoim stylu
W tej sytuacji, jeżeli jestem kierowcą i widzę rowerzystów na drodze, powinienem zachować szczególną ostrożność. Zatrzymuję się lub zmniejszam prędkość, aby umożliwić bezpieczne minęcie rowerzystów, oraz upewniam się, iż nie zjeżdżam na ich pas, jeżeli jadą w tym samym kierunku. jeżeli mam możliwość, ustępuję im pierwszeństwa i pozwalam przejechać, aby uniknąć kolizji. Dodatkowo, zachowuję czujność, obserwując otoczenie i sygnały do dalszego bezpiecznego zachowania na drodze.
Nie jest to odpowiedź jakiej oczekiwałem; jest delikatnie mówiąc sztampowa. Ponadto nano pomylił manewr wyprzedzania z omijaniem.
Zadanie z matematyki w formie zagadki (dodatek)
Z ciekawości sprawdziłem jak poszczególne wydania GPT-4.1 radzą sobie z różnymi zadaniami. Poniżej znajduje się jedna przykładowa zagadka matematyczna („Łodyga lotosu”). Zdecydowałem, iż zamieszczę tylko i wyłącznie końcową odpowiedź, a cały tok rozumowania pominę (sporo wygenerowanego, dodatkowego tekstu).
Treść zagadki:
„Nad powierzchnią jeziora nawiedzane przez liczne stada flamingów i żurawi wynurza się koniec łodygi lotosu, który wznosi się na pół łokcia nad wodą. Pod działaniem wiatru łodyga stopniowo się pochyla i zanurza, aż wreszcie niknie pod wodą w odległości dwóch łokci od miejsca, w którym wyrosła. Jaka jest głębokość wody?”GPT-4.1
**Podsumowanie:**
Głębokość wody wynosi **3 i 3/4 łokcia**.
GPT-4.1 mini
### Odpowiedź:
**Głębokość wody wynosi 3,75 łokcia.**
GPT-4.1 nano
## **Podsumowanie:**
**Głębokość wody wynosi 0,25 łokcia.**
Prawidłowa odpowiedź to 3,75 łokcia, czyli dwa modele rozwiązały zadanie prawidłowo.
Pomimo iż nano wygenerował największą ilość tekstu uwzględniając choćby taki etap jak „Korekta i adekwatne rozwiązanie”, to niestety podał nieprawidłową odpowiedź.
Czy oszczędności przekładają się na jakość wyników?
OpenAI chwali się tym, iż nano jest najszybszym i najbardziej opłacalnym modelem GPT-4.1. Trzeba przyznać, iż jest bardzo tani, ale wiele zadań oraz prac osobiście i tak przekazałbym większemu i droższemu bratu, czyli GPT-4.1 mini.

Ponadto, jeżeli już ktoś szuka oszczędności na tym polu, to może zainteresować się dosyć konkurencyjnym rozwiązaniem, czyli małym modelem AI od Google, mianowicie Gemini 1.5 Flash-8B. Jak już kiedyś wspominałem, sprawdzi się on w przypadku dużej ilości mniej zaawansowanych problemów.
Źródło: OpenAI, opracowanie wł.