Sztuczna inteligencja coraz lepiej radzi sobie z generowaniem obrazów na podstawie opisu tekstowego, ale jej kreatywność wciąż pozostaje ograniczona. Kiedy modele takie jak Stable Diffusion dostają polecenie „stwórz coś kreatywnego”, efekty często nie odbiegają od utartych schematów. Przełom w tym zakresie ogłosili właśnie naukowcy z KAIST – Koreańskiego Instytutu Zaawansowanej Nauki i Technologii.
Zespół badawczy kierowany przez prof. Jaesika Choia, we współpracy z NAVER AI Lab, opracował metodę, która zwiększa kreatywność generowanych obrazów bez potrzeby dodatkowego trenowania modelu. Nowe podejście wykorzystuje manipulację wewnętrznych „map cech” modeli generatywnych, co pozwala uwolnić ich ukryty potencjał twórczy.
Jak działa kreatywna AI bez treningu?
Naukowcy odkryli, iż najważniejsze dla kreatywności są tzw. „płytkie bloki” sieci neuronowej – czyli te, które przetwarzają informacje na wczesnym etapie generowania obrazu. Poprzez transformację map cech do dziedziny częstotliwości, zespół zaobserwował, iż wzmacnianie niskoczęstotliwościowych sygnałów (czyli bardziej ogólnych struktur) sprzyja kreatywności, w przeciwieństwie do wzmacniania sygnałów wysokoczęstotliwościowych, które powodowały zakłócenia i artefakty.

Na tej podstawie opracowano algorytm automatycznie dobierający optymalną wartość wzmocnienia dla wszystkich bloku, uwzględniający dwa najważniejsze elementy kreatywności: oryginalność i użyteczność. Efekt? Model Stable Diffusion generuje obrazy bardziej nowatorskie, nie tracąc przy tym na funkcjonalności ani jakości.
Wnioski potwierdzone badaniami i testami z użytkownikami
Zespół przeprowadził badania z użyciem różnych wskaźników ilościowych, wykazując wzrost różnorodności obrazów i ograniczenie problemu „zawężenia trybów” (ang. mode collapse), który często pojawia się w modelach takich jak SDXL-Turbo.

Również w badaniach z udziałem użytkowników nowa metoda wypadła lepiej pod względem nowości i kreatywności w porównaniu z tradycyjnymi metodami generowania obrazów.
– To pierwsza technologia, która pozwala zwiększyć kreatywność modeli generatywnych bez konieczności ich ponownego trenowania czy dostrajania – powiedziały autorki publikacji.
Praktyczne zastosowania – od designu po inspirację
Metoda ma szansę znaleźć zastosowanie w projektowaniu produktów, koncepcjach artystycznych czy modzie, gdzie potrzebna jest oryginalność przy zachowaniu użyteczności. Dzięki niej możliwe będzie tworzenie np. kreatywnych projektów mebli, które do tej pory wymagały manualnego nadzoru lub intensywnego dostrajania modeli AI.
- Przeczytaj również: Adobe wprowadza nowe funkcje AI. Zaskakują?
– Nasze badania pokazują, iż sztuczna inteligencja posiada ukrytą kreatywność, którą można wydobyć, modyfikując jej wewnętrzne struktury przetwarzania – dodały badaczki.
Opracowana technika została zaprezentowana 16 czerwca podczas prestiżowej Konferencji CVPR (Computer Vision and Pattern Recognition) i udostępniona w formie otwartego kodu na platformie GitHub. To krok w kierunku bardziej „artystycznej” sztucznej inteligencji, która może wspierać nie tylko programistów, ale też projektantów, architektów i twórców kreatywnych treści.