Skuteczny Nano Banana Pro, czyli jak wycisnąć jak najwięcej z modelu graficznego Google

homodigital.pl 2 miesięcy temu

Nano Banana Pro przebojem wziął świat graficznych modeli AI – i słusznie, bo jego umiejętności zdecydowanie wyprzedzają większość konkurencji. Jego sukces jest tak duży, iż Google podobno został zmuszony do zmniejszenia limitu dziennego generowanych obrazków dla użytkowników planu darmowego ze skromnych trzech do jeszcze skromniejszych dwóch. Tym ważniejsze jest, by nasze prompty były skuteczne – po co marnować rzadki zasób na nieudane prompty? Jak więc pisać skuteczne prompty dla Nano Banana Pro? Podpowiadam.

W 2022 roku modele generujące grafikę wdarły się do świadomości szerszej publiki – pojawiły się Dall-E 2, Midjourney i Stable Diffusion i nagle okazało się, iż każdy, choćby jeżeli w ogóle nie ma talentów graficznych, może sobie stworzyć obraz czy grafikę.

Modele te gwałtownie też znalazły zastosowanie w biznesie, zwłaszcza iż pod koniec 2023 roku normą stało się, iż tworzone przez nie obrazy mogły być używane do celów komercyjnych.

Dyfuzja, czyli piękna grafika, sporo nieporozumień

Kto jednak trochę się pobawił tymi modelami, ten gwałtownie odkrył, iż choć często generują imponującą grafikę, to kontrola człowieka nad tym, co model wygeneruje była często ograniczona. jeżeli poprosiliśmy model o grafikę z czterema psami, to może nie dostawaliśmy z dziesięcioma, ale z pięcioma lub trzema – dość często (modele te generalnie miały problemy z liczeniem i dłonie z sześcioma palcami nie należały do rzadkości). To samo z prawą czy lewą stroną – modele niespecjalnie je odróżniały.

Generalnie miały one problem ze zrozumieniem naszych poleceń, choćby niespecjalnie skomplikowanych. Dość często, gdy prosiłem o nieumieszczanie jakiegoś elementu w grafice, model jak najbardziej go umieszczał. Złośliwość? Nie, raczej założenie, iż jak coś wspominam, to widocznie – tego chcę. Modele te były jak graficznie uzdolnione, ale niezbyt rozgarnięte dziecko.

Wynikało to w dużej mierze z tego, jak te modele były tworzone. Modele dyfuzyjne, bo to one przyniosły przełom w 2022 roku, są trenowane na milionach par obrazek-krótki opis i mają tylko ograniczone zrozumienie języka. Rozumieją słowa, a nie zawsze ich relacje. I na przykład, jeżeli chcemy nadać konkretne kolory konkretnym przedmiotom, to model może je pozamieniać.

Modele te traktują prompt trochę jak mieszaninę słów (bag of words). Stąd często prompty wyglądały podobnie – były bardziej listą hasłowo traktowanych elementów grafiki czy opisów je stylu (np. pies, plakat konstruktywistyczny, dominujący niebieski, 16:9) niż szczegółowym opisem, jaki dalibyśmy profesjonalnemu grafikowi. Bo szczegółowy opis zostałby prawdopodobnie źle zinterpretowany.

Nano Banana Pro, czyli myślący model graficzny

Nano Banana Pro jest zdecydowanie odmiennym modelem – został zbudowany na bazie Gemini 3 Pro, a więc modelu językowego i to na dodatek – rozumującego. A to oznacza, iż ma głębokie zrozumienie naszego prompta i czasem potrafi sobie dopisać odpowiedni kontekst (choć lepiej, jeżeli dostarczymy go sami – o tym poniżej).

I tak na przykład niedawno pisałem artykuł o aplikacjach do notatek i chciałem stworzyć ilustrację do niego. Więc poszedłem sobie do Gemini, zaznaczyłem Twórz obraz i wpisałem prompt: „Stwórz kolaż log aplikacji do notatek: Google Keep, Evernote, Microsoft OneNote, Obsidian i Notion. Proporcje 16:9”. Oto wynik – z modelu Google poprzedniej generacji.

Proporcje inne niż podane, loga będące tylko luźną wariacją na temat tych prawdziwych, w dodatku kompozycja nijaka. Nie dość, iż nie w punkt, to jeszcze dość brzydkie po prostu.

No to poprosiłem o to samo Nano Banana Pro (czyli wybrałem model rozumujący). Efekt? Dużo lepszy:

Proporcje jak trzeba, fajne boczne oświetlenie jakby od okna, loga aplikacji do notatek dobrze odwzorowane i na dodatek umieszczone na tablicy korkowej, czyli w miejscu, gdzie często umieszczamy… notatki. Model sam sobie zbudował odpowiedni kontekst. Łał, pomyślałem. I tak zakochałem się w Bananie.

Fajne więc jest to, iż możemy modelowi oddać twórczą inicjatywę, bo jego umiejętności językowe powodują, iż sam sobie niejedno dopowie. Jest to przydatne jeżeli ogarnie nas niemoc twórcza. Ale wróćmy do głównego tematu: jak sprawić, by Nano Banana Pro tworzył to, co chcemy – gdy mamy na to pomysł.

Podstawy, czyli kompozycja, styl, technika i ograniczenia

Podstawy budowania promptu dla modelu graficznego nie są w przypadku Nano Banana Pro różne od tego, czego używaliśmy w przypadku modeli dyfuzyjnych. To wciąż cztery podstawowe elementy:

1. Kompozycja i obiekt, a więc – co chcemy na grafice i jak ma być rozmieszczone.

2. Styl i estetyka, a więc rodzaj grafiki: na przykład fotorealistyczna, akwarela czy komiks.

3. Cechy techniczne, a więc na przykład oświetlenie, kąt czy głębia ostrości – te pojęcia z fotografii są dobrze znane modelom i poradnik o tym jak ich używać powstał dla Midjourney już ładnych parę lat temu.

4. Ograniczenia lub tekst – na przykład tekst w komiksie lub na zdjęciu, wykluczenia, czyli czego nie chcemy na zdjęciu (to nie zawsze w modelach dyfuzyjnych działało) czy spójność postaci jeżeli tworzymy serię grafik.

Oto jak może to wyglądać w przypadku infografiki do fotosyntezy: 1. Infografika wyjaśniająca 5 kluczowych etapów procesu fotosyntezy. 2. Jasny, czysty, korporacyjny styl. Kolory zielony i niebieski. 3. Od góry do dołu 4. Użyj ponumerowanych punktów, z tekstem w języku polskim. Nagłówek 'Fotosynteza Krok po Kroku’. A oto efekt:

Tym, co wyróżnia nowy model Google jest poziom szczegółowości, jaki możemy dostarczyć modelowi i który model jest w stanie zaimplementować – opisy kolorów, faktur materiałów, czy dokładne rozmieszczenie przestrzenne. Plus to, iż możemy – i powinniśmy – mówić do modelu pełnymi opisowymi zdaniami zamiast rzucać mu hasła.

Daj modelowi kontekst

Innym sposobem, w jaki możemy wykorzystać „rozumowanie” modelu Google jest dostarczenie mu kontekstu. jeżeli powiemy modelowi dla kogo jest dana grafika lub czemu ma służyć, to umożliwimy mu dostosowanie jej do naszych potrzeb.

Tak w pewnym sensie stało się, gdy dostarczyłem (minimalny) kontekst, prosząc o ilustrację do artykułu o aplikacjach do notatek, Nano Banana Pro wykorzystał go do stworzenia ilustracji tablicy korkowej do notatek. To akurat stało się poniekąd niechcący, ale jest to istotna wskazówka – kontekst może istotnie poprawić jakość, trafność a zwłaszcza użyteczność generowanej treści.

Wykorzystaj wiedzę Nano Banana Pro

Ponieważ nowy model Google jest zbudowany na podstawie Gemini 3 Pro, to nie tylko rozumie i „rozumuje”, ale również „wie”. Więc wielu rzeczy nie musimy mu sami dostarczać, co jest zwłaszcza istotne jeżeli chcemy stworzyć infografikę.

Widać to na zamieszczonej powyżej infografice o fotosyntezie – modelu nikt nie instruował jakie mają być te podstawowe etapy fotosyntezy. Model sam je określił na podstawie swojego zasobu wiedzy a następnie zaprezentował w postaci infografiki.

Model nie jest zresztą ograniczony do posiadanej przez siebie wiedzy, może on również (przynajmniej w AI Studio – o nim poniżej) wyszukać odpowiednią informację w internecie. Może się to przydać jeżeli chcemy stworzyć na przykład infografikę o niedawno ogłoszonym odkryciu naukowym.

Nie tylko wie, ale i widzi

Kolejną zaletą nowego modelu związaną z tym, iż jest bliskim krewnym Gemini 3 jest to, iż Nano Banana rozumie obrazy – Gemini 3 jest w tej chwili pod tym względem jednym z najlepszych modeli na świecie.

A to oznacza, iż może bez trudu zinterpretować nie tylko nasze słowne polecenia, ale i przykłady graficzne. jeżeli więc chcemy reklamę w jakimś formacie dla różnych produktów, to taki format szkicujemy na kartce papieru, robimy zdjęcie i wrzucamy modelowi. Narysowaliśmy wireframe i chcemy by na tej podstawie projekt strony webowej – bez problemu. Mamy pomysł na kompozycję grafiki i za małe umiejętności by samemu ją zrobić, ale naszkicować potrafimy – robimy szkic, wrzucamy modelowi i cieszymy się z efektów.

Umiejętności wizualne Nano Banana Pro nie ograniczają się zresztą do nadania odpowiedniej formy naszemu naszkicowanemu projektowi. Model potrafi też dokonać transformacji informacji, jakiej mu dostarczymy. jeżeli więc na przykład wgramy mu rzut poziomy mieszkania, to możemy go poprosić o stworzenie wizualizacji pomieszczeń wiernie oddającej rozkład pokoi.

Wykorzystaj spójność postaci…

Jak już pisałem w poprzednim artykule o tym modelu, jedną z głównych zalet Nano Banana Pro jest spójność postaci. W podstawowym znaczeniu oznacza to, iż nasza postać nie zostanie zmieniona podczas edycji grafiki lub tworzenia nowej grafiki na podstawie już istniejącej. W nieco szerszym znaczeniu oznacza to na przykład, iż możemy zmienić pozę postaci, kąt widzenia, czy wręcz wyraz twarzy danej osoby przy zachowaniu jej rysów.

Po pierwsze umożliwia to bardzo precyzyjną edycję już istniejącej grafiki, czy to stworzonej przez model, czy przez nas wgranej. Możemy więc z córki zrobić księżniczkę a z syna kowboja bez ryzyka, iż nie będą siebie przypominać.

Ta spójność postaci jest szczególnie ważna, jeżeli chcemy stworzyć serie grafik – na przykład grafiki promocyjne dla naszego sklepu internetowego, z tą samą osobą w różnych pozach ale w spójnej szacie graficznej. Na przykład jak tu – poprosiłem model o serię zdjęć blondynki promującej sprzęt kuchenny:

W podobny sposób, naciskając na utrzymanie spójności postaci możemy sobie stworzyć na przykład scenorys czy komiks.

Ta spójność postaci nie musi zresztą dotyczyć ludzi – jeżeli mamy na oku jakiś dom a chcemy sobie wyobrazić jakby wyglądał z ogrodem w stylu francuskim (bo obecny nam się nie podoba), to wrzucamy zdjęcie tego domu i prosimy o zrobienie odpowiedniej wizualizacji.

Spójność postaci to jedna z najważniejszych cech modelu Google. Pod tym względem wyprzedza on zdecydowanie inne modele, w tym chwalonego za swoje możliwości edycji grafiki wcześniejszego Nano Banana.

… i umiejętność pisania

Nano Banana Pro jest bodaj pierwszym wykorzystywanym przeze mnie modelem, który dobrze sobie radzi z tekstem. I to na dodatek w języku polskim.

Widać to bardzo dobrze w infografice powyżej – tekst jest po polsku, bez błędów i bez zniekształconych liter (no, jak przyjrzymy się jednemu z obrazków towarzyszących to tam jest napis „suger” zamiast cukru, a więc nie tylko nie po polsku, ale i z błędem w słowie angielskim…). To oznacza, iż przy pomocy modelu możemy sobie stworzyć właśnie infografikę, folder promocyjny, menu restauracji itp. Bez konieczności dalszej edycji.

Pamiętajcie jednak, by zaznaczyć wyraźnie, w jakim języku ma być napis – ostatnio prosiłem Nano Banana Pro o infografikę do tematu, nad którym pracowałem. Mimo iż wydałem polecenie po polsku, to infografika zawierała napisy po angielsku. Dopiero po prośbie o korektę uzyskałem polską wersję.

Wciąż potrzebujecie inspiracji? Sprawdźcie spory zestaw przykładowych promptów od Saby Sohail.

Nano Banana Pro. Gdzie korzystać

Jeśli jesteśmy tylko okazjonalnymi użytkownikami Nano Banana Pro, to niewykluczone, iż te 2-3 grafiki dziennie być może nam wystarczą. Ale być może nie – zwłaszcza, iż model ten daje dużo euforii przy używaniu.

Jakie więc mamy opcje? Przede wszystkim możemy sobie wykupić subskrypcję Plus. Za 35 zł miesięcznie (a mniej przez pierwsze 2 miesiące) powinniśmy być w stanie wygenerować sobie prawdopodobnie jakieś 10-15 obrazów dziennie, czyli, przy równomiernym wykorzystywaniu w ciągu miesiąca, choćby setki miesięcznie.

Oczywiście pojawia się pytanie, czy opłaca nam się płacić takie pieniądze, jeżeli stworzymy sobie kilkanaście obrazów – bo większość z nas prawdopodobnie codziennie przy Nano Banana Pro siedzieć nie będzie. Odpowiedź prawdopodobnie zależy od tego, czy korzystamy również z innych funkcji dostępnych w planie Plus (o których niedawno wspominałem). jeżeli tak, to dostęp do nowego Banana na pewno jest miłym dodatkiem.

Inną opcją jest Google AI Studio. Tutaj co prawda musimy sobie stworzyć płatny klucz API, ale możemy sobie dowolnie kształtować to, jak z modelu graficznego korzystamy. Ile to nas kosztuje? Według cennika Google jest to około 50 groszy za obrazek. Więc jeżeli będziemy tworzyć przeszło 70 obrazków miesięcznie, to bardziej nam się opłaca subskrypcja Plus. jeżeli jednak modelu używamy sporadycznie, ale jak już używamy to więcej niż te 2-3 w planie darmowym, to prawdopodobnie bardziej nam się opłaca korzystać z AI Studio. Tu płacimy tylko za to, co wykorzystamy.

Źródło grafiki: Sztuczna inteligencja, Nano Banana Pro

Idź do oryginalnego materiału