Nie odróżnisz prawdy od fałszu. Obrazki z GPT-4o za darmo

konto.spidersweb.pl 3 miesięcy temu

Bing Image Creator otrzymał GPT-4o – najnowszy model generowania obrazów od OpenAI, który według pierwszych testów wydaje się lepszy od wszystkiego, co widzieliśmy do tej pory w bezpłatnych narzędziach AI.

Największym problemem dotychczasowych generatorów obrazów były napisy. DALL-E 3, mimo swojej mocy, często produkował nieczytelne hieroglify zamiast zwykłych słów, a próby stworzenia menu restauracyjnego czy infografiki z tekstem kończyły się fiaskiem. GPT-4o to zmienia.

Model wykorzystuje architekturę autoregresyjną, która buduje obraz krok po kroku – od lewej do prawej, z góry na dół. To pozwala mu zrozumieć nie tylko to co ma namalować, ale także jak powinny wyglądać napisy, tablice, drogowskazy czy choćby złożone diagramy. W praktyce oznacza to, iż wreszcie możemy tworzyć obrazy z czytelnym tekstem w języku polskim bez obaw o literówki czy zniekształcenia.

Przykłady z testów są imponujące – GPT-4o bezbłędnie renderuje tablice drogowe z kilkoma liniami tekstu, tworzy realistyczne menu restauracyjne, a choćby generuje złożone infografiki naukowe z równaniami i wykresami. To szczególnie istotne dla marketerów i grafików, którzy do tej pory musieli manualnie poprawiać każdy element tekstowy.

Fotorealizm? Prawie

Różnica jakościowa między GPT-4o a poprzednimi modelami jest uderzająca. DALL-E 3 często produkował obrazy z charakterystyczną gładkością AI i nienaturalnymi proporcjami ciała. Nowy model osiąga poziom fotorealizmu, który momentami trudno odróżnić od prawdziwych zdjęć.

Szczególnie widać to w renderowaniu ludzi – GPT-4o radzi sobie z anatomią znacznie lepiej niż jakikolwiek darmowy konkurent. Ręce mają adekwatną liczbę palców w naturalnych pozycjach, twarze są symetryczne i realistyczne, a proporcje ciała odpowiadają rzeczywistości. To koniec z koszmarami z wcześniejszych modeli, gdzie każda próba narysowania człowieka kończyła się groteskowym wynikiem.

Model doskonale radzi sobie także z różnymi stylami artystycznymi. Chcesz obraz w stylu Van Gogha? GPT-4o odwzoruje charakterystyczne pociągnięcia pędzla z niesamowitą precyzją. Potrzebujesz pixel artu? Każdy piksel zostanie umieszczony dokładnie tam, gdzie powinien być, bez rozmycia charakterystycznego dla wcześniejszych generatorów.

DALL-E 3 pozostaje opcją dla tych, którzy priorytetyzują szybkość nad jakością. Generuje kilka wariantów obrazu jednocześnie. GPT-4o z kolei tworzy pojedynczy, ale znacznie bardziej dopracowany obraz, wymagający więcej czasu w renderowanie.

GPT-4o wprowadza też konwersacyjną edycję obrazów do Binga. Po wygenerowaniu grafiki można naturalnym językiem poprosić o modyfikacje – zmienić kolor tła, dodać obiekt, skorygować oświetlenie – a model zastosuje zmiany, zachowując spójność pozostałych elementów. A wszystko to za darmoszkę, z dziennym limitem użytku.

Idź do oryginalnego materiału