Przetestuj Gemini AI – nowy generator obrazów, rywal DALL-E w technologii Imagen 3.

sztucznainteligencjablog.pl 2 miesięcy temu

Nowa Era Generowania Obrazów od Google

W świecie technologii, Google zaprezentowało swoje najnowsze osiągnięcie w dziedzinie generowania obrazów – model Imagen 3. Premiera miała miejsce kilka miesięcy po prezentacji na tegorocznym wydarzeniu Google I/O. Nowa wersja jest dostępna zarówno w bezpłatnej opcji, jak i w płatnej usłudze Gemini Advanced, a także w produktach biznesowych Google. Celem tej nowości jest podjęcie rywalizacji z rosnącą liczbą narzędzi do generowania obrazów opartego na sztucznej inteligencji.

Model Imagen 3, podobnie jak jego poprzednicy, potrafi tworzyć obrazy w różnych stylach – od fotorealistycznych krajobrazów po bajkowe, stylizowane animacje. Jednym z kluczowych usprawnień w stosunku do Imagen 2 są zdolności tego nowego modelu do przedstawiania ludzi. Google wskazało, iż Imagen 3 nie powinien powtarzać wcześniejszych błędów, które przyniosły firmie nieprzyjemne konsekwencje. Warto dodać, iż generowanie „fotorealistycznych, rozpoznawalnych osób” wciąż jest zabronione.

Interaktywny Proces Tworzenia Obrazów

Kolejną innowacją w Imagen 3 są funkcje edytowania w czasie rzeczywistym. Użytkownicy mogą teraz dać informację zwrotną na temat generowanych obrazów i poprosić sztuczną inteligencję o wprowadzenie odpowiednich zmian. Choć aktualnie nie ma opcji zaznaczania fragmentów obrazów, które chcemy zmodyfikować, taka funkcjonalność może zostać wprowadzona w przyszłości.

Model Imagen 3 jest zintegrowany z platformą Gemini, która na początku działa głównie w języku angielskim, ale prawdopodobnie z czasem pojawią się nowe języki. Google zdaje się mieć ambitne plany, aby uczynić Gemini domyślnym wyborem dla użytkowników, tak jak wiele osób korzysta z ich wyszukiwarki.

Dodatkowo, Google wprowadziło narzędzie SynthID, które służy do oznaczania obrazów stworzonych przez AI. SynthID wprowadza niewidoczne znaki wodne, które zapewniają transparentność i przeciwdziałają dezinformacji. Google stosuje także różnorodne zabezpieczenia, aby nie dopuścić do generowania kontrowersyjnych lub nieodpowiednich treści.

Imagen 3 to kolejny krok w kierunku szerszej integracji sztucznej inteligencji w procesie tworzenia treści, a Google wydaje się mieć przewagę nad konkurencją, ponieważ narzędzia takie jak Ideogram czy Midjourney działają jako aplikacje niezależne. Z kolei OpenAI wykorzystuje DALL-E jako istotny element ChatGPT, a X zintegrowało Flux z czatem AI Grok. W obliczu tych dynamicznych zmian, przyszłość generowania obrazów pozostaje niepewna, jednak jedno jest pewne – wyścig trwa.

Źródło: techradar.com

Idź do oryginalnego materiału