Jak AI tworzy królewskie portrety psów – technologia za PSI WŁADCY

Kiedy patrzymy na XVIII-wieczny portret olejny, widzimy miesiące pracy artysty: warstwy podmalowania, precyzyjne pociągnięcia pędzla, starannie dobrane pigmenty. Kiedy patrzymy na portret psa wygenerowany przez sztuczną inteligencję, widzimy efekt kilkudziesięciu sekund obliczeń. A mimo to rezultat potrafi być zaskakująco przekonujący. Jak to możliwe? W tym artykule wyjaśniam, co tak naprawdę dzieje się "pod maską" technologii, którą wykorzystuje PSI WŁADCY, i dlaczego wynik wygląda jak obraz namalowany ręcznie.

Czym są modele wizyjne AI i jak "widzą" obrazy

Współczesne modele sztucznej inteligencji do przetwarzania obrazów bazują na architekturze zwanej transformerem. To ta sama rodzina algorytmów, która stoi za modelami językowymi (takimi jak ChatGPT), ale rozszerzona o zdolność analizy danych wizualnych. Model wizyjny nie "widzi" zdjęcia tak jak człowiek. Zamiast tego rozkłada obraz na tysiące małych fragmentów (tzw. patch'y), a następnie analizuje relacje między nimi, budując wewnętrzną reprezentację tego, co przedstawia zdjęcie.

W praktyce oznacza to, że model potrafi rozpoznać nie tylko to, że na zdjęciu jest pies, ale też jakiej jest rasy, jak jest ustawiony, jakie ma proporcje ciała, w jakim jest oświetleniu, a nawet jaki "wyraz" ma jego pysk. Te informacje stają się fundamentem dla dalszego procesu generowania portretu.

Google Gemini, czyli multimodalny mózg operacji

PSI WŁADCY korzysta z modelu Google Gemini, który jest tak zwanym modelem multimodalnym. "Multimodalny" oznacza tutaj, że potrafi jednocześnie przetwarzać tekst i obraz, a co kluczowe, potrafi też generować nowe obrazy na podstawie połączenia jednego i drugiego. To istotna różnica w porównaniu z wcześniejszymi modelami generatywnymi, które albo przetwarzały sam tekst, albo sam obraz, ale nie potrafiły skutecznie łączyć obu modalności w jednym kroku.

Gemini pozwala więc na coś, co jeszcze kilka lat temu wymagałoby skomplikowanego łańcucha narzędzi: model jednocześnie analizuje przesłane zdjęcie psa (rozumiejąc jego kształt, pozę, kolorystykę sierści) i interpretuje tekstową instrukcję opisującą pożądany styl portretu. Rezultatem jest nowy obraz, który łączy cechy fizyczne konkretnego psa z estetyką XVIII-wiecznego malarstwa.

Prompt, czyli instrukcja dla artysty

Kluczowym elementem całego procesu jest tzw. prompt, czyli instrukcja tekstowa, którą otrzymuje model. W przypadku PSI WŁADCY prompt jest starannie skonstruowanym opisem, który precyzyjnie definiuje, jaki efekt końcowy chcemy uzyskać. To nie jest proste "narysuj psa w koronie". Dobrze napisany prompt dla modelu wizyjnego to wielowarstwowa instrukcja, która obejmuje:

  • Styl artystyczny – odwołanie do konkretnej epoki, techniki malarskiej i estetyki (w naszym przypadku: malarstwo olejne, portret dworski XVIII wieku, ciemne tło w stylu Rembrandta)
  • Elementy kompozycji – opis stroju, rekwizytów, pozy i oświetlenia, które mają nadać portretowi arystokratyczny charakter
  • Wierność źródłu – instrukcja nakazująca zachowanie charakterystycznych cech danego psa: kształtu pyska, ustawienia uszu, koloru i faktury sierści
  • Parametry techniczne – wskazówki dotyczące rozdzielczości, palety kolorów i szczegółowości detali

Tworzenie promptów to w gruncie rzeczy osobna dyscyplina. Drobna zmiana w sformułowaniu potrafi całkowicie zmienić wynik, dlatego wypracowanie optymalnej instrukcji wymaga dziesiątek, a niekiedy setek prób i iteracji. To właśnie ta praca sprawia, że portrety z PSI WŁADCY wyróżniają się spójnością stylistyczną i jakością.

Od zdjęcia do portretu krok po kroku

Cały proces transformacji zdjęcia w królewki portret przebiega w kilku etapach. Oto jak to wygląda od strony technicznej:

  1. Przesłanie zdjęcia – użytkownik wgrywa fotografię swojego psa. System akceptuje pliki JPEG, PNG i WebP o rozmiarze do 10 MB. Zdjęcie trafia do bezpiecznego magazynu w chmurze (AWS S3).
  2. Walidacja – zanim zdjęcie trafi do modelu AI, jest sprawdzane pod kątem formatu, rozmiaru i podstawowych parametrów jakości. To gwarantuje, że model otrzyma dane, z którymi będzie w stanie dobrze pracować.
  3. Kolejkowanie – zlecenie generowania portretu trafia do kolejki zadań. Dzięki temu system może obsługiwać wielu użytkowników jednocześnie bez przeciążenia.
  4. Generowanie – worker pobiera zdjęcie, przygotowuje prompt i wysyła żądanie do Google Gemini. Model analizuje zdjęcie psa i tworzy nowy obraz w zadanym stylu.
  5. Zapis i powiadomienie – gotowy portret jest zapisywany w chmurze, a użytkownik otrzymuje powiadomienie e-mail z linkiem do odbioru.

Cały proces od momentu przesłania zdjęcia do otrzymania gotowego portretu trwa zwykle od kilkudziesięciu sekund do kilku minut, w zależności od obciążenia systemu.

Dlaczego portret wygląda jak obraz olejny

Model generatywny nie "maluje" w dosłownym sensie. Nie nakłada wirtualnych warstw farby ani nie symuluje fizyki pędzla. Zamiast tego podczas treningu model przeanalizował miliony obrazów, w tym tysiące reprodukcji klasycznych obrazów olejnych. Nauczył się w ten sposób rozpoznawać i odtwarzać cechy charakterystyczne dla tego medium:

  • Charakterystyczną fakturę, która imituje widoczne pociągnięcia pędzla
  • Głębokie, ciepłe tony kolorystyczne typowe dla olejnych portretów
  • Dramatyczne światłocienie (tzw. chiaroscuro), które nadają portretowi głębię i monumentalność
  • Ciemne, neutralne tło kontrastujące z jasno oświetloną główną postacią
  • Specyficzny sposób oddawania tkanin, zdobień i detali stroju, który przywodzi na myśl technikę starych mistrzów

Prompt dodatkowo ukierunkowuje model na te konkretne cechy estetyczne, dzięki czemu wynik konsekwentnie przypomina dzieło XVIII-wiecznego portrecisty, a nie, powiedzmy, impresjonisty czy współczesnego ilustratora.

Rola jakości zdjęcia źródłowego

Nawet najlepszy model AI nie wyczaruje świetnego portretu z kiepskiego materiału wejściowego. Zasada "garbage in, garbage out" obowiązuje tutaj w pełni. Zdjęcie powinno być ostre, dobrze oświetlone i pokazywać psa wyraźnie, najlepiej od frontu lub lekko z profilu. Rozmyte zdjęcia, fotografie zrobione pod silne światło czy kadry, na których pies zajmuje mały fragment obrazu, znacząco obniżają jakość końcowego portretu.

Jeśli chcesz dowiedzieć się więcej o tym, jak przygotować idealne zdjęcie, przeczytaj nasz poradnik o przygotowaniu zdjęcia psa do portretu. Znajdziesz tam konkretne wskazówki dotyczące oświetlenia, kadru i pozycji, które realnie przekładają się na jakość wyniku.

Kontrola jakości i spójność stylu

Jednym z największych wyzwań w pracy z modelami generatywnymi jest powtarzalność wyników. Modele AI mają z natury element losowości, co oznacza, że ten sam prompt może za każdym razem dać nieco inny rezultat. W kontekście PSI WŁADCY to zarówno zaleta (każdy portret jest unikalny), jak i wyzwanie (trzeba zapewnić, by wszystkie portrety trzymały spójny poziom jakości i estetyki).

Rozwiązujemy to na kilka sposobów. Po pierwsze, prompt jest bardzo precyzyjnie skalibrowany, co zawęża przestrzeń możliwych wyników. Po drugie, parametry generowania (takie jak temperatura, która kontroluje "kreatywność" modelu) są dobrane tak, by zachować równowagę między zaskoczeniem a przewidywalnością. Po trzecie, system jest zaprojektowany tak, by w razie problemów (np. gdy model nie zwróci poprawnego obrazu) automatycznie ponawiać próbę.

Jak PSI WŁADCY wykorzystuje tę technologię

Naszym celem od początku było stworzenie usługi, która będzie jednocześnie łatwa w użyciu i dająca rezultaty, z których ludzie będą naprawdę zadowoleni. Dlatego zamiast dawać użytkownikom surowy dostęp do modelu AI (co wymagałoby od nich pisania własnych promptów i eksperymentowania z parametrami), zbudowaliśmy kompletny system, który robi to za nich.

Użytkownik wgrywa zdjęcie psa, dokonuje płatności i po chwili otrzymuje gotowy portret. Za tą prostotą kryje się cała opisana wyżej infrastruktura: walidacja danych, kolejkowanie zadań, optymalizacja promptów, integracja z Gemini i automatyczna dystrybucja wyników. Użytkownik nie musi wiedzieć, co to transformer ani czym jest temperatura modelu. Dostaje po prostu portret, który wygląda tak, jakby jego pies pozował malarzowi na dworze Ludwika XVI.

Ograniczenia i uczciwe oczekiwania

Warto mieć świadomość, że AI nie jest doskonała. Zdarzają się sytuacje, w których model nieco zmieni proporcje pyska, doda nieprawidłową liczbę palców u łap albo wygeneruje tło, które nie do końca pasuje do reszty kompozycji. Technologia generowania obrazów rozwija się niezwykle szybko i z każdym kolejnym modelem takich artefaktów jest mniej, ale nie da się ich całkowicie wyeliminować.

Dlatego warto traktować portrety z PSI WŁADCY jako artystyczną interpretację, a nie fotorealistyczną kopię. To właśnie ten element interpretacji, pewna swoboda i niedoskonałość, paradoksalnie przybliża wynik do prawdziwego malarstwa. Żaden XVIII-wieczny portrecista nie malował też ze stuprocentową wiernością. Każdy dodawał coś od siebie.

Co przyniesie przyszłość

Technologia modeli multimodalnych rozwija się w tempie, które jeszcze kilka lat temu wydawało się nierealne. Każda nowa generacja modeli przynosi lepszą rozdzielczość, dokładniejsze odwzorowanie detali i bardziej naturalny wygląd generowanych obrazów. Dla usług takich jak PSI WŁADCY oznacza to, że portrety będą z czasem coraz bardziej dopracowane.

Jednocześnie rozwijają się techniki personalizacji, które pozwalają modelom jeszcze lepiej "rozumieć" cechy konkretnego zwierzęcia. Można sobie wyobrazić, że w niedalekiej przyszłości model będzie potrafił oddać nie tylko wygląd, ale i "charakter" psa, na podstawie kilku zdjęć uchwyconych w różnych sytuacjach.

Na razie jednak technologia, którą mamy do dyspozycji, jest już wystarczająco dobra, by tworzyć portrety, które wywołują uśmiech, zaskoczenie i autentyczną radość. A o to ostatecznie w tym wszystkim chodzi.

Podsumowanie

Proces tworzenia królewskiego portretu psa za pomocą AI to połączenie kilku warstw technologii: modelu wizyjnego zdolnego do analizy i generowania obrazów (Google Gemini), starannie przygotowanego promptu definiującego styl XVIII-wiecznego malarstwa olejnego, infrastruktury przetwarzającej zlecenia w tle oraz systemu kontroli jakości. Każdy z tych elementów odgrywa istotną rolę, ale dla użytkownika cały proces sprowadza się do jednego prostego kroku: wgraj zdjęcie psa i poczekaj na swój królewski portret.