Dale-E2 vs MidJorney vs Stable Diffusion

miroslawmamczur.pl 1 rok temu

– Patrz tato, co narysowałam – krzyknęła zadowolona z siebie Jagódka.

– Piękne. Ja sam tak namalować obrazków nie umiem. Jesteś prawdziwą artystką.

– Dziękuję tatusiu. Mogę Cię nauczyć, jak chcesz.

– Nie trzeba. Dziś sztuczna inteligencja może narysować za nas to o czym myślimy. Musimy tylko przelać myśli na słowa.

– Ale jak to?

– Choć. Pokażę Ci, skarbie.

W ciągu ostatnich kilku lat dokonano wielu postępów w dziedzinie sztucznej inteligencji (AI), a jednym z nowych dodatków do sztucznej inteligencji jest AI Image Generator.

Są to narzędzia zdolne do przekształcenia instrukcji wejściowej w obraz (text-to-image). Modele zamiany tekstu na obraz łączą subdomeny przetwarzania obrazu komputerowego (computer vision) i przetwarzania języka naturalnego (NLP).

W tym artykule pokaże Wam 3 najbardziej znane modele: DALL-E2, Stable Diffusion i Midjourney. Pokażę jak możecie z nich korzystać i przy okazji porównamy je ze sobą.

Krótko o modelach

Generowanie tekstu na obraz (text-to-image) było dostępne już od dłuższego czasu. Początkowo rozpoczęto je wraz z rozwojem modeli generatywnych, takich jak Generative Adversarial Networks (GAN) i Variational Autoencoders (VAE).

Natomiast dopiero w tym roku wyniki tworzone przez dostępne modele zaczęły zabierać dech w piersiach. A wszystko dzięki poniższym 3 modelom.

a) Dale-E2

DALLE 2 to program AI stworzony przez OpenAI, który tworzy obrazy z opisów tekstowych. Warto mieć na uwadze, iż Dale E-2 to komercyjne rozwiązanie i jest płatne.

Na szczęście dostaje się 50 darmowych kredytów na początku po rejestracji, a następnie koszty generowania obrazów będą zależne od jakości generowanego zdjęcia.

Jak z lotu ptaka działa Dale-E2?

Bez wgłębiania się w szczegóły architektura wydaje się dość prosta.

  1. Najpierw tekst użytkownika jest wprowadzany do kodera tekstu, który jest przeszkolony do mapowania tekstu na reprezentację wektorową (text embeddings).
  2. Następnie model zwany prior odwzorowuje kodowanie tekstu na odpowiednie kodowanie obrazu, które przechwytuje informacje semantyczne podpowiedzi zawarte w kodowaniu tekstu.
  3. Na końcu dekoder generuje stochastycznie obraz, który jest wizualną interpretacją tekstu na obraz.

Warto jeszcze dodać, iż architektura modelu Dale E-2, czerpie wiele swojej funkcjonalności z architektury CLIP z OpenAI.

CLIP (Contrastive Language-Image Pre-training) to model sieci neuronowej, który zwraca najlepszy podpis dla danego obrazu.

Celem DALL E-2 jest odwróceniem tej inżynierii, aby uzyskać obrazy z napisów i dlatego jest również nazywany architekturą unCLIP. Wynik unCLIP jest danymi wejściowymi dla warstwy modelu prior.

źródło

Jak uzyskać dostęp?

Nie tak dawno jeszcze była potrzeba zarejestrowania się do projektu i oczekiwania na akceptacje. Aktualnie każdy może uzyskać dostęp do modelu od ręki.

https://openai.com/dall-e-2/

Po uzyskaniu dostępu można w bardzo prosty sposób wygenerować swoje zdjęcia:

b) MidJorney

Midjourney jest w tej chwili dostępny tylko za pośrednictwem bota Discord na ich oficjalnym Discordzie. Użytkownik generuje obraz dzięki polecenia „/imagine” i bot zwraca mu po pewnym czasie wynik zapytania.

Jak uzyskać dostęp?

Na chwilę obecną dostęp do modelu można uzyskać tylko poprzez używanie serwera Discord.

  1. Jeśli jeszcze nie używasz to zainstaluj Discord i utwórz konto. Rejestracja jest bezpłatna.
  2. Odwiedź stronę internetową MidJourney pod adresem: https://www.midjourney.com/ i kliknij „Dołącz do wersji beta”. Spowoduje to przejście do kanału Discord.
https://www.midjourney.com/

Podobnie jak Dale E-2 jest to rozwiązanie komercyjne. Dostaje się darmowe kredyty na 25 pierwszych zdjęć na publicznym kanale. Wystarczy wpisać komende /imagine i dać opis.

Generowanie obrazów trwa około 2 razy dłużej niż w przypadku DALL E-2. Jednak w przeciwieństwie do DALL E-2 możesz obserwować, jak sztuczna inteligencja stopniowo generuje Twoje obrazy, od początkowych rozmytych kolorów po miniatury w wysokiej rozdzielczości.

Możesz też zostać płatnym użytkownikiem (10$ lub 30$ miesięcznie) i będziesz mógł wysyłać bota w prywatnej rozmowie prośby o wygenerowanie zdjęcia.

c) Stable Diffusion

Stable Diffusion to model open-source głębokiego uczenia służący głównie do zamiany tekstu na obraz (chociaż można go również zastosować do innych zadań) wydany w 2022 roku.

Kod i waga modelu Stable Diffusion zostały opublikowane i model może działać na większości sprzętu konsumenckiego wyposażonego w skromną kartę graficzną z co najmniej 8 GB RAM!

Jak z lotu ptaka działa Stable Diffusion?

Stable Diffiusion wykorzystuje wariant modelu dyfuzji (DM), zwany utajonym modelem dyfuzji (LDM).

Modele dyfuzyjne (DM) to modele generatywne oparte na transformatorach, które pobierają fragment danych, na przykład obraz, i stopniowo dodają szum w czasie, aż stanie się on nierozpoznawalny. Od tego momentu próbują zrekonstruować obraz do jego pierwotnej postaci, a robiąc to, uczą się, jak generować obrazy lub inne dane.

https://en.wikipedia.org/wiki/Stable_Diffusion

LDM są niezawodne w generowaniu obrazów o wysokiej rozdzielczości z różnymi tłami z drobnymi szczegółami, zachowując jednocześnie semantyczną strukturę obrazów. Dlatego LDM są krokiem naprzód w szczególności w generowaniu obrazów i ogólnie w głębokim uczeniu się.

W związku z tym, iż Stable Diffiusion jest projektem open-source możesz zajrzeć choćby do kodu na github i zobaczyć jak został zaimplementowany!

Jak uzyskać dostęp do Stable Diffiusion?

Model dla przykładu można pobrać z HuggingFace. Również na tej stronie możesz wygenerować własne zdjęcie TUTAJ jeżeli akurat nie jest serwer zbyt mocno obciążony.

Możesz odpalić również model na środowisku u siebie, w chmurze, bądź skorzystać ze stron działających jako API.

Bardzo prosto możesz też znaleźć gotowe skrypty w Google Colab, na przykład TUTAJ.

Przykłady!

Skoro już wiadomo, jak uzyskać dostęp, to przygotujmy po kilka przykładów by móc porównać modele ze sobą. A następnie spróbuję podsumować wyniki.

king, lion white, sunset, power, black and white, blue eyes, art by: Tomasz Baginski
beautiful lake under the mountain with ray of sunlight from the ceiling
A 3D render of a rainbow colored hot air balloon flying above cyberpunk city
dragon eye, macro photography, Ultra HD nature photography
yellow transformer robot on alien planet in Pablo Picasso style
green forest, blue sky, fog, clouds, Ultra HD nature photography
a bowl of soup as a portal to the wonderful world of mathematics, full HD
Close-up of Viking King emerging from wet black mud
aerial view, ruined temple complex of marble, built in red rock canyon, arabic and gothic and star wars architecture
Full portrait of a young barbie doll with tattoos sitting lonely on time square
Shrek, in a business suit drinking beer, pixel art
Cute female elf in warm sweater uses laptop, by Elena Kukanova, modern interior on background, digital art

Podsumowanie

Po zabawie tymi trzema narzędziami naprawdę ciężko wybrać mi faworyta. DALL-E2 najbardziej odzwierciedla rzeczywiste obrazy. Midjourney ma bardzo bogate kolory i najbardziej przypomina artystę. A Stable Diffusion ma duże wsparcie społeczności ze względu na swój charakter open source i niczym nie odiega płatnym konkurentom.

Widząc, jakie mamy postępy w generowaniu obrazów i możliwości w tworzeniu sztuki cyfrowej nie mogę się doczekać co przyniesie nam przyszłość.

Pozdrawiam z całego serducha

Idź do oryginalnego materiału