„Sztuczna Inteligencja” – OpenAI i tworzenie realistycznych obrazów oraz sztuki, czyli model DALL-E w praktyce
W ostatnim czasie tematowi OpenAI poświęciłem aż dwa artykuły. Pierwszy odnoszący się do automatycznego tworzenia tekstów – w którym sprawdził się idealnie – oraz drugi, skupiający się na programowaniu aplikacji przez tzw. „AI” – gdzie radził sobie raczej z prostymi zadaniami. Czas na kolejny obszar, w którym OpenAI próbuje podbić rynek, czyli generowanie realistycznych obrazów oraz sztuki na podstawie opisu napisanego w języku naturalnym.
Wcześniej pokazywałem już kilku konkurentów wykorzystujących tzw. „AI” do generowania grafiki, m.in. Midjourney – który do tej pory wypadł najlepiej – oraz model Stable Diffusion – radzący sobie nieco gorzej, ale nadal mogący konkurować z czołówką. Zobaczymy więc, jak w tym wypadku poradzi sobie sławne OpenAI oraz co najważniejsze, jak wypadnie na tle innych.
Zaledwie dwa miesiące temu DALL-E zostało uwolnione z tzw. „listy oczekujących”, gdzie na próbę wygenerowania własnej grafiki trzeba było czekać w kolejce. Z tego też powodu postanowiłem opisać, jak obecnie za darmo i bez konieczności oczekiwania, można skorzystać z tego narzędzia. Przedstawię tutaj pełną instrukcję jego wykorzystania wraz z kilkoma prostymi wskazówkami, opiszę swoje odczucia oraz co najważniejsze, postaram się podsumować zarówno jego plusy, jak i minusy.
Darmowe tworzenie grafik przy pomocy DALL-E:
DALL-E to jeden z bardziej rozwiniętych systemów tzw. „sztucznej inteligencji” wypuszczony przez OpenAI – organizację utworzoną m.in. przez Elona Muska oraz Sama Altmana w 2015 roku. Główną zaletą aplikacji jest to, że przede wszystkim jest darmowa – mimo posiadanych całkiem pokaźnych możliwości i jeszcze większych perspektyw. Niestety przed skorzystaniem wymagana jest rejestracja oraz potwierdzenie konta przy pomocy telefonu. W zamian jednak otrzymamy całkiem funkcjonalne narzędzie, w którym jedyne co nas ogranicza, to fantazja, poziom wyszkolenia tzw. „AI” (na co niestety nie mamy wpływu) oraz ograniczenie tzw. 50 darmowych creditsów na start i 15 creditsów każdego następnego miesiąca. Jeden credit odpowiada dokładnie jednemu zapytaniu. W przeciwieństwie do konkurencyjnego Midjourney, tutaj wygenerowanie finalnej grafiki (a właściwie czterech), stanowi tylko jedno zapytanie, gdyż skrypt nie daje nam propozycji, z których kolejnym zapytaniem byśmy musieli je wygenerować, a po prostu generuje nam cztery już gotowe grafiki, które od razu możemy zapisać. Innymi słowy, dzięki 50 creditsom jesteśmy w stanie wygenerować nawet 200 grafik za darmo. Czy jest to dużo, czy mało, zależy tylko od skali działania. Myślę jednak, że do testów w zupełności nam wystarczy.
Proces generowania:
Proces tworzenia grafik tutaj jest bardzo prosty i wymaga od nas najmniej pracy, ze wszystkich wcześniej wspomnianych rozwiązań. By wygenerować gotową grafikę, przejść musimy trzy następujące kroki:
- Wejdź i zaloguj się na stronie https://labs.openai.com/.
- W pasku opisu wpisz interesujące Cię zapytanie. Jak najszczegółowiej opisz, co się ma znajdować na naszej grafice (np. „a black red, beautiful dark magician girl in castle from galaxy looking at stars, beautiful anime face, full body, dark angel, ultra detailed, fantasy”), kliknij „Generate” i odczekaj chwilę, a strona wygeneruje dla Ciebie 4 propozycje gotowych grafik odpowiadających Twojemu zapytaniu. Gdy grafiki zostaną wygenerowane, możesz je pobrać, edytować, a z wybranego obrazka wygenerować kilka podobnych wariantów lub zmienić swoje zapytanie i ponownie klikając „Generate”. Tworząc grafiki zadbajmy o to, by zapytania były jak najbardziej szczegółowe – wskazujące zarówno na kolorystykę, formę, styl, główny obiekt na obrazie, otoczenie, czynności jakie chcemy ująć, czy poziom detalu. Im szczegółowiej, a jednocześnie najoptymalniej opiszemy zagadnienie, tym trafniej tzw. „AI” odpowie naszemu wyobrażeniu.
- By edytować jedną z wygenerowanych grafik, musimy najechać na nią kursorem myszki, następnie w prawym górnym rogu wybrać trzy kropki oraz opcję „Edit image”. Obecnie niestety edytor nie posiada zbyt wielu opcji, jednak może być pomocny przy uszczegółowieniu obrazka. Po zaznaczeniu fragmentu do wycięcia, który ma zostać podmieniony, możemy przeprowadzić ponowne generowanie na tym samym projekcie lub zmodyfikować jego zapytanie, wtedy skrypt podmieni zaznaczone elementy na inne.
- By uzyskać więcej propozycji przypominających jedną z czterech wygenerowanych grafik, musimy na nią najechać myszką, a następnie w prawym górnym rogu wybrać trzy kropki i opcję „Generate variations”. Generator stworzy wtedy dla nas kolejne 4 propozycje, które będą podobne do wskazanej grafiki.
- W celu pobrania gotowej grafiki, należy najechać na nią kursorem, kliknąć w prawym górnym rogu na trzy kropki, a następnie wybrać opcję „Download”. Alternatywnie można także powiększyć obraz i w prawym górnym rogu powiększenia wybrać strzałeczkę oznaczającą „Download”.
Niestety, jak każde rozwiązanie oparte o tzw. „AI”, tak i to ma swoje wady i zalety. Niektóre z nich wynikają z nie do końca jeszcze wyuczonego modelu czy budowy samego skryptu, inne znów bezpośrednio z ograniczeń narzuconych przez autorów. Podobnie, jak inne modele tego typu, tak i ten miewa problemy ze składaniem części ludzkiego ciała – w szczególności dłoni i twarzy, jednak przy większej liczbie prób oraz odpowiedniemu zapytaniu, można przy jego pomocy wygenerować dobrze wyglądające postacie. Kolejnym dużym minusem jest brak detalu nawet, gdy zapytanie lub wybrany styl do tego nawiązuje. Kiedy nie generujemy zdjęcia, szkicu czy czegoś bardziej realistycznego, to grafiki często obarczone są małą liczbą detali. Ostatnia z bolączek wynika natomiast już z samej intencji autorów, a dokładniej z tzw. „cenzury”, która została wprowadzona na zapytania i dotyczy nie tylko nagości, kwestii politycznych, przemocy samej w sobie, ale także rzeczy mocno pochodnych, gdzie np. każde zapytanie o karabin, czy broń palną, generuje dla przykładu miecz lub nóż (podobnie jak w przypadku amerykańskiej cenzury anime). Wielu rzeczy więc możemy nie wygenerować przy pomocy tego skryptu.
Mimo to program jest dosyć elastyczny i pozwala pracować na bardzo wielu rodzajach stylów graficznych. W przypadku detali, moim zdaniem efekty lepiej prezentują się w Midjourney, jednak mimo wszystko łatwiej tu o uzyskanie interesującego nas obrazka, gdyż OpenAI lepiej zdaje się interpretować zapytania, a grafiki (przynajmniej w moim przypadku) bardziej odpowiadają temu, co było mu zadane. Pomijając oczywiście rzeczy wynikające z cenzury, które zmieniane są celowo. Pamiętać należy również, iż zgodnie z tym co jest napisane na stronie, skrypt zabezpieczony jest przed tzw. „nadużyciami” i o ile ja sam nie doświadczyłem czegoś takiego, bo takich nadużyć nie generowałem, o tyle niektóre osoby raportują, że zostały zablokowane przez stronę. Nie wiem ile w tym prawdy, a ile nie, jednak lepiej uważać, co się przy jej pomocy próbuje generować omijając jej zabezpieczenia.
Wyniki wygenerowane przy pomocy OpenAI sami możecie porównać m.in. z wspomnianym wcześniej Midjourney, opisanym w artykule: „Sztuczna Inteligencja”, która wygrała konkurs sztuki – czyli Midjourney w praktyce lub Stable Diffusion 2, dostępnym za darmo zarówno w postaci dema jak i pełnej instalacji, które opisałem w poniższym materiale: „Sztuczna Inteligencja” i generowanie obrazów – czyli jak prosto, automatycznie oraz za darmo zmienić tekst w gotową grafikę.
Przykłady wygenerowanych grafik:
(anime robot girl with beautiful face, ultra detailed, digital art)
(anime robot girl with beautiful face, ultra detailed, digital art)
(archangels of war in galaxy, ultra detailed, digital art)
(a black red, beautiful dark magician girl in castle from galaxy looking at stars, beautiful anime face, full body, dark angel, ultra detailed, fantasy)
(a black red, beautiful dark magician girl in castle from galaxy looking at stars, beautiful anime face, full body, dark angel, ultra detailed, fantasy)
(archangels of war in galaxy, ultra detailed, digital art)
(synthwave anime robot girl with beautiful face, ultra detailed, digital art)
(sketch of German girl with short hair style who is an Arabian mercenary with machine gun in hand)
Autor: Daniel 'zoNE’ Gabryś