Nano Banana Pro – jak korzystać z topowego AI do grafiki

homodigital.pl 1 godzina temu

Nano Banana Pro wyprzedza wszystkich – jeżeli wierzyć rankingom LMAreny dla generowania obrazów i ich edycji, nowy model AI od Google praktycznie nie ma konkurencji. Konkretnie, jego najgroźniejszą konkurencją jest… poprzedni Nano Banana. Jakie są możliwości nowego modelu i jak z nich korzystać? Sprawdzamy.

W 2022 roku, jeszcze zanim debiut ChatGPT zwrócił uwagę na rosnące możliwości dużych modeli językowych, miała miejsce jeszcze inna premiera. W sierpniu tego roku zadebiutował model Stable Diffusion, otwarty model AI do generowania grafiki. Nagle okazało się, iż każdy – dosłownie każdy – przy pomocy kilku zdań promptu może stworzyć grafikę, do której stworzenia wcześniej potrzebny byłby… no cóż, grafik. I może to zrobić za darmo.

Jednak modele te były chimeryczne. Z tego samego promptu mogliśmy uzyskać grafiki o fundamentalnie różnej jakości, były one kiepskie w pisaniu tekstu, zwykle (choć ostatnio to się zmieniało) nie umiały edytować obrazków i często byliśmy ograniczani do wąskiego zakresu formatów i rozdzielczości.

Ale teraz, dzięki Nano Banana Pro, istotna część tych wad po prostu znika.

Nano Banana Pro rozumie świat…

Jedną z podstawowych zalet Nano Banany Pro jest to, iż rozumie świat. W odróżnieniu od wielu innych systemów generujących obrazy, które wykorzystują model dyfuzyjny, Nano Banana Pro jest oparta na Gemini-3 Pro i wykorzystuje umiejętności rozumowania i wiedzę swojego modelu bazowego.

Dodatkowo, dzięki temu, iż można ją podłączyć pod wyszukiwanie internetowe, model ten może wykorzystywać bieżące dane – na przykład stworzyć ikonografikę aktualnej pogody dla konkretnej miejscowości.

To rozumienie świata idzie jednak o wiele dalej – kiedy serwis TAAFT testował nowy model i poprosił o reklamę uzbeckiej restauracji z koniną, to uzyskał nie tylko prawidłowo wykonany afisz po uzbecku, ale również w tle mamy ulicę z architekturą dość charakterystyczną dla obszaru postsowieckiego i z ludźmi o środkowoazjatyckich rysach twarzy.

Jak już wspominamy o językach, to i tu mamy olbrzymią poprawę. Dotychczas, jeżeli chcieliście by w obrazku był jakiś napis powiedzmy po polsku i zapisaliście to w prompcie, to często okazywało się, iż wygenerowany obraz zawierał napis… po angielsku. Najwyraźniej cienka warstwa AI tłumacząca prompty na angielski (język w którym trenowany był model) tłumaczyła również treść napisów, dając efekt daleki od pożądanego. Nano Banana Pro jest oparta na modelu językowym operującym wieloma językami, więc takich problemów nie ma.

… nie deformuje postaci…

Być może zdarzyło Wam się już korzystać z możliwości edytowania grafiki, w szczególności zdjęć, przez AI. Na przykład, by z córki zrobić księżniczkę albo z syna kowboja (czy też raczej gwiazdę K-pop lub postać z Fortnite…). Ja spróbowałem – sukienka bardzo książęca, za to rysy mojej córki takie jakieś nie do końca jej… Plus tło też zdecydowanie zmodyfikowane.

Problemem było to, iż dotychczasowe modele nie do końca potrafiły zachować wierność oryginałowi i po kilkukrotnej edycji zdjęcia, wygenerowana postać przypominała raczej jakiegoś dalekiego krewnego.

Z Nano Banana Pro jest inaczej – model jest w stanie zachować spójność postaci (character consistency) przy każdej kolejnej modyfikacji i jest w stanie to zrobić choćby dla pięciu osób obecnych na danym zdjęciu/grafice. Jest też szczególnie dobry w nanoszeniu zmian tylko w tych obszarach, o których zmodyfikowanie poprosimy.

Dzięki temu możemy używać modelu na przykład jako wirtualnej przymierzalni – wrzucamy swoje zdjęcie a potem fotki produktów, których kupno rozważamy, patrzymy jak to wygląda i to bez obawy, iż przy kolejnym przymierzaniu będziemy bardziej przypominać własną ciotkę czy wujka a nie samych siebie…

… pisze sensownie…

Jeśli kiedyś próbowaliście z pomocą AI stworzyć obrazek zawierający napisy – powiedzmy prototyp dla komiksu – to prawdopodobnie zauważyliście, iż modele graficzne są dość fatalne jeżeli chodzi o tekst. Wpiszesz modelowi tekst do wyświetlenia? To masz spore szanse na zamienione lub brakujące litery, (niepotrzebnie) powtarzające się litery czy wręcz nieistniejące. Ot tak jak tu (przykład z historii moich kontaktów z Dall-E 3):

Na szczęście nowy produkt Google radzi sobie z tekstem o wiele lepiej. Może używać różnego rodzaju czcionek, tekstur, czy choćby kaligrafii. A nawet… wyrzeźbić nam odpowiedni napis:

… i choćby zrobi nam diagram czy infografikę

Generowanie lub modyfikacja zdjęć czy grafiki to niejedyne zastosowania nowego modelu. Jest on również w stanie stworzyć diagramy z naszych odręcznych notatek. Z tego też względu model został zaprzęgnięty do jednego z najlepszych narzędzi AI, jakim jest NotebookLM. Możemy się więc spodziewać, iż podsumowania wideo generowane przez NotebookLM będą jeszcze lepsze.

Oprócz diagramów możemy tworzyć infografiki – i to do tego wykorzystując wiedzę modelu o świecie. Google podaje przykład infografiki o roślinie doniczkowej stworzonej wyłącznie w oparciu o jej zdjęcie, z informacjami zebranymi przez sam model (jestem bardzo ciekaw, czy będzie to równie dobrze działać na przykład w przypadku polskich grzybów; obawiam się, iż niestety nie).

W dodatku daje sporą kontrolę

Podstawową zaletą Nano Banana Pro jest to, jak dużą nam daje kontrolę nad grafiką, którą chcemy stworzyć czy zdjęciem, które chcemy zmodyfikować. Możemy ustawić proporcje obrazu, ustawiać głębię ostrości czy charakter oświetlenia.

Kolejną zaletą jest to, iż obrazy możemy generować choćby w rozdzielczości 4K, co redukuje problem rozpikselowanych grafik w przypadku powiększenia.

Dla tych, którzy chcieliby uzyskać wskazówki co do tego, jak najlepiej korzystać z nowego modelu, Google przygotowało krótki poradnik na ten temat. A jeżeli chcecie gwałtownie obejrzeć przegląd możliwości modelu, to zajrzyjcie na to wideo od TAAFT.

Nano Banana Pro. Dla kogo?

Dla kogo jest Nano Banana Pro? W swoim potencjale zabawowo-rozrywkowym – oczywiście dla wszystkich. Zabawne zmodyfikowane zdjęcia na imprezę, kolorowanka dla dziecka czy komiks z dzieckiem w roli głównej (wystarczy wgrać zdjęcie pociechy) – proszę bardzo. No i „upiększymy” sobie bez trudu zdjęcia do wrzucania na mediach społecznościowych.

Ale oczywiście Nano Banana przyda się i w życiu zawodowym. Z tego typu narzędzi już od dłuższego czasu korzystają zespoły marketingowe – i teraz będą miały jeszcze łatwiej. Właściciele sklepów internetowych docenią możliwość stworzenia odpowiednich grafik dla wystawianych produktów – zwłaszcza jeżeli producenci nie stanęli na wysokości zadania.

Nauczyciele być może docenią możliwość tworzenia infografik, a projektanci wnętrz docenią szybkie wizualizacje,

Bardzie złożone jest to w przypadku grafików – Nano Banana może im pomóc na przykład w prototypowaniu, ale pod warunkiem, iż nie odbierze im pracy…

Gdzie skorzystać?

Gdzie możemy skorzystać z nowej Nano Banana? Przede wszystkim w Gemini, i to w dodatku również tym darmowym, choć w tym wypadku raczej nie zaszalejecie – prawdopodobnie gwałtownie nadziejecie się na limit i zostaniecie „zdegradowani” do poprzedniej wersji Nano Banana. Oczywiście płacący klienci planów Plus, Pro i Ultra mają coraz wyższe limity.

Żeby skorzystać z Nano Banana Pro, po prawej stronie okna promptu wybieramy model Myślący, a z menu Narzędzia wybieramy Twórz obrazy.

Mamy jeszcze jeden sposób na skorzystanie z nowego modelu Google – to AI Studio. W tym narzędziu skierowanym przede wszystkim dla deweloperów możemy skorzystać z wielu modeli AI od Google, niektórych choćby za darmo. Niestety wśród tych darmowych nie ma najnowszej wersji Nano Banana.

Podstawową zaletą AI Studio jest to, iż płacimy tylko za to, z czego korzystamy – nie ma tu żadnych abonamentów, płacimy tylko za faktyczne wykorzystanie modeli AI. Podstawową wadą jest to, iż koszty są nieograniczone, więc jeżeli zdarzy nam się zaszaleć – na przykład właśnie z Nano Bananą – to kolejna płatność dla giganta z Mountain View może być bolesna. Możemy co prawda ustawić „budżet”, ale w przypadku Google „budżet” nie oznacza, iż jesteśmy odcinani od modelu, bo przekroczyliśmy założenia. Google po prostu wyśle nam (i to z lekkim opóźnieniem) ostrzeżenie. Na szczęście możemy ustawić progi takich ostrzeżeń – i ustawiajmy je ostrożnie.

Ile nas będzie kosztował jeden obraz? Trochę ponad 13 centów za obraz do 2K (2048×2048), a więc w tej chwili około 50 groszy. Obrazy 4K są prawie dwukrotnie droższe. Nie są to więc jednostkowo olbrzymie koszty – ale mogą się gwałtownie dodać, jeżeli możliwości Nano Banany was zachwycą.

Więc bawcie się dobrze, ale bądźcie ostrożni.

Źródło grafiki: Sztuczna inteligencja, Nano Banana Pro

Idź do oryginalnego materiału