Imagen 4 – nowy silnik do generowania obrazów w Gemini. Google rzuca wyzwanie Midjourney i DALL-E

itreseller.com.pl 3 miesięcy temu

Google wprowadza potężną aktualizację swojego modelu AI do generowania obrazów. Gemini, napędzane teraz przez najnowszy silnik Imagen 4, ma tworzyć bardziej fotorealistyczne grafiki, lepiej radzić sobie z tekstem i dawać użytkownikom znacznie większą kontrolę nad edycją.

Google podnosi poprzeczkę w wyścigu generatorów obrazów AI. Firma ogłosiła, iż jej flagowy chatbot Gemini otrzymał potężną aktualizację w postaci nowego modelu do tworzenia grafiki – Imagen 4. Nowy silnik ma być odpowiedzią na rosnące oczekiwania użytkowników i bezpośrednią konkurencją dla rozwiązań takich jak DALL-E od OpenAI czy Midjourney.

Największą nowością, którą przynosi Imagen 4, jest znacząca poprawa jakości i fotorealizmu generowanych obrazów. Grafiki mają być bardziej szczegółowe, a model ma lepiej rozumieć złożone i abstrakcyjne polecenia. Co jednak kluczowe, Google położyło ogromny nacisk na poprawę renderowania tekstu. Do tej pory generatory AI miały ogromny problem z tworzeniem napisów – litery były często zniekształcone i nieczytelne. Imagen 4 ma sobie z tym radzić znacznie lepiej, co otwiera zupełnie nowe możliwości, takie jak tworzenie plakatów, zaproszeń czy logotypów bezpośrednio z poziomu chatbota.

Aktualizacja to nie tylko lepsza jakość, ale także większa kontrola dla użytkownika. Nowe narzędzia do edycji, zintegrowane bezpośrednio z aplikacją Zdjęcia Google, pozwolą na modyfikowanie istniejących fotografii dzięki prostych poleceń tekstowych. Użytkownik będzie mógł na przykład poprosić o zmianę pory dnia na zdjęciu, dodanie lub usunięcie obiektów, a choćby zmianę wyrazu twarzy fotografowanej osoby. Wszystko to ma odbywać się w sposób bardziej intuicyjny i precyzyjny niż dotychczas.

Nowe możliwości są już udostępniane subskrybentom płatnych planów Gemini, takich jak Gemini Pro i Ultra. Aby zapewnić odpowiedzialne korzystanie z technologii, wszystkie obrazy generowane przez Imagen 4 będą zawierały niewidoczny cyfrowy znak wodny SynthID, który pozwoli na ich identyfikację jako dzieła AI. To kolejny krok Google w stronę uczynienia Gemini centralnym, multimodalnym asystentem, który potrafi nie tylko rozmawiać, ale także tworzyć i edytować treści wizualne na niespotykaną dotąd skalę.

Idź do oryginalnego materiału