Wyobraźmy sobie artystę, który po latach doskonalenia swojej techniki, chce przenieść swój niepowtarzalny styl malarski, rzeźbiarski czy graficzny do świata cyfrowego. Dzięki LORA, może on stworzyć model sztucznej inteligencji, który naśladuje jego artystyczną technikę, uchwyci subtelną grę światła, cienia, faktur, a choćby emocji zamkniętych w dziele. Trening modelu na podstawie jego własnych dzieł pozwala na wyrafinowane odwzorowanie stylu, które jest autentyczne i nie do odróżnienia od tradycyjnie stworzonych przez niego prac.
Praca lokalna (nie wymaga połączenia sieciowego) z modelem LORA daje artystom pełną kontrolę nad procesem. Nie muszą obawiać się, iż ich dane szkoleniowe lub style artystyczne zostaną niewłaściwie wykorzystane lub ujawnione w sieci. Kontrola lokalna zapewnia, iż cały proces, od szkolenia po generowanie dzieł, odbywa się w bezpiecznym, prywatnym środowisku. Artysta może eksperymentować, modyfikować i generować nowe prace, mając pewność, iż jego unikalny styl pozostaje chroniony i wyłącznie pod jego kontrolą.
Oprócz ochrony, LORA umożliwia artystom dystrybucję ich cyfrowych dzieł w sposób, który odzwierciedla ich intencje i wartości. Mogą oni decydować, kiedy i jak ich cyfrowe prace są udostępniane publiczności, czy to poprzez wybrane galerie cyfrowe, wystawy online, czy w ramach ograniczonych edycji, zapewniając tym samym, iż ich twórczość jest ceniona i szanowana.
W rezultacie, LORA nie tylko umożliwia artystom przeniesienie ich stylu do sfery cyfrowej, ale także zapewnia narzędzia do ochrony ich intelektualnego dziedzictwa. To nowa era w świecie sztuki cyfrowej, gdzie możliwości twórcze łączą się z ochroną i kontrolą, dając artystom przestrzeń do wyrażania się bez ograniczeń i obaw.
Na filmie dowiesz się, jak na przykładzie avatara – robota z Azerbejdżanu, można nauczyć model Stable Diffusion generowania obrazów opartych na specyficznym koncepcie. Jakub przedstawia, jak dzięki oprogramowania, takiego jak Fooocus i Kohya, na lokalnym laptopie gamingowym można generować interesujące efekty bez potrzeby łączenia się z siecią.
Szkolenie modeli LORA otwiera nowe możliwości w zakresie personalizacji treści tworzonych przez generatory obrazów takie jak Stable Diffusion. To idealne rozwiązanie dla użytkowników potrzebujących unikatowych dla siebie obrazów i szukających innowacyjnych narzędzi wspierających ich kreatywność i efektywność pracy.
LOcal Representations Augmentation może być niezwykle przydatne w kontekście rozwoju sztucznej inteligencji i generowania obrazów.
Te unikatowe modele pozwalają na specyficzne dostosowanie i usprawnienie generowania treści, co ma szereg zastosowań zarówno w pracy zdalnej, jak i w wielu innych dziedzinach.
Dlaczego szkolenie modeli Lora jest przydatne?
Model Lora pozwala na rozszerzenie istniejących możliwości modeli generatywnych, takich jak Stable Diffusion, umożliwiając im naukę i generowanie obrazów opartych na bardzo szczegółowych, niestandardowych konceptach (nowy produkt, osoba, styl graficzny itp). Możliwość dostosowania modelu do konkretnych potrzeb użytkownika umożliwia tworzenie unikatowych i spersonalizowanych treści.
Stworzenie unikatowego modelu LORA daje możliwość generowania wysokiej jakości grafik, które są dostosowane do konkretnych potrzeb projektowych lub marketingowych.
Wprowadzenie na przykład zdjęć nowego produktu jako uzupełnienia modelu AI przyspiesza tworzenie koncepcji i prototypów, co pozwala na błyskawiczną wizualizację pomysłów i zmian w projektach.
Posiadanie własnego modelu LORA opartego na specyficznym koncepcie gwarantuje unikalność generowanych treści i pozwala na większą kontrolę podczas tworzenia.
Modele LORA umożliwiają precyzyjne dopasowanie generowanych obrazów do konkretnych wymagań i standardów, co jest nieosiągalne dla ogólniejszych modeli AI.
Użytkownik ma pełną kontrolę nad procesem generowania treści, co pozwala na ciągłe doskonalenie i optymalizację wyników.
Aby rozpocząć, konieczne jest zainstalowanie kilku narzędzi:
Python 3.10.11
Aby zainstalować Pythona, należy wejść na oficjalną stronę python.org, pobrać najnowszą wersję i uruchomić instalator. Ważne, aby podczas instalacji zaznaczyć opcję dodania Pythona do zmiennej środowiskowej PATH.
CUDA 11.8 toolkit
Narzędzie niezbędne do wykorzystania mocy obliczeniowej GPU. Można je pobrać ze strony NVIDIA, wybierając wersję kompatybilną z posiadaną kartą graficzną. Podczas ściągania pliku należy wybrać odpowiednią wersję systemu Windows oraz wersję (exe)Local
Git
Terminal służący do pobierania kodu źródłowego z repozytoriów. Instalator git można znaleźć na stronie git-scm.com. Instalator należy przeklikać z ustawieniami domyślnymi.
Visual Studio 2015, 2017, 2019, and 2022 redistributable
Środowisko niezbędne dla narzędzi deweloperskich, zwłaszcza gdy korzysta się z CUDA. Można je pobrać ze strony visualstudio.microsoft.com.
Przygotowanie obrazów do nauki
Należy przygotować odpowiednią bazę danych zdjęć, która będzie wykorzystywana do trenowania modelu. Zdjęcia muszą być wysokiej jakości i powinny być przynajmniej w rozdzielczości 1024×1024. Zaleca się przygotowanie od 25 do 75 zdjęć, aby model mógł skutecznie się nauczyć rozpoznawać i generować pożądany obiekt.
Pobieranie i instalacja systemu Kohya
Pobieranie Kohya: Aby pobrać Kohya, trzeba odwiedzić GitHub – projektu. Pobranie projektu odbywa się poprzez sklonowanie repozytorium dzięki polecenia git clone. Instalacja Kohya pod Windowsem – na filmie od 6:14
Aby skonfigurować projekt, wykonaj następujące kroki:
- Otwórz terminal i przejdź do wybranego katalogu instalacyjnego.
- Sklonuj repozytorium, wykonując następujące polecenie:
git clone https://github.com/bmaltais/kohya_ss.git - Przejdź do katalogu kohya_ss:
cd kohya_ss - Uruchom skrypt instalacyjny, wykonując następujące polecenie:
.\setup.bat
Podczas kroku konfiguracji accelerate, użyj domyślnych wartości proponowanych podczas konfiguracji, chyba iż wiesz, iż twoje sprzęt wymaga inaczej. Ilość VRAM na twojej karcie GPU nie wpływa na używane wartości.
Opcjonalnie: CUDNN 8.9.6.50
Następujące kroki są opcjonalne, ale poprawią prędkość uczenia dla posiadaczy kart NVIDIA 30X0/40X0. Te kroki umożliwiają większe rozmiary partii treningowych i szybsze prędkości uczenia.
Uruchom .\setup.bat i wybierz 2. (Opcjonalnie) Zainstaluj pliki cudnn (jeśli chcesz użyć najnowszej obsługiwanej wersji cudnn).
Konfiguracja Kohya i dodanie modelu Lora
Po zainstalowaniu Kohya lądujemy w przeglądarce i webowym GUI – następnym krokiem jest wybranie modelu bazowego, przygotowanie folderów do szkolenia oraz wskazanie bazy danych z wcześniej przygotowanymi zdjęciami – na filmie od 10min.
Wymaga to ustawienia odpowiednich parametrów konfiguracyjnych i wskaźników, tak aby model LORA mógł być skutecznie trenowany na laptopie z 8GB Vram takim jak Dell G16.
Trening modelu
Trening nowego modelu w Kohya przy ustawieniach z nagrania trwa ponad 9 godzin, w tym czasie komputer w pełni wykorzystuje procesor karty graficznej setki razy oglądając i analizując każdy z obrazów. Najlepiej odłożyć laptop na podkładce chłodzącej aby zapewnić dobry przepływ powietrza przez komponenty.
Weryfikacja i testy
Po zakończeniu treningu należy przetestować model, aby sprawdzić, czy generuje obrazy zgodnie z oczekiwaniami. To wiąże się z uruchomieniem procesu generowania obrazów, gdzie można eksperymentować z różnymi promptami, aby zobaczyć, jak model reaguje na zapytania. Na filmie wykorzystane zostało oprogramowanie Fooocus z poprzedniego filmu – na filmie od 23:25.