Nie warto się obrażać na AI

19 minut czytania

/ Media

Nie warto się obrażać na AI

Rozmowa z Davidem Sypniewskim

Zamiast toczyć jałowe spory, powinniśmy oswoić się z myślą, że generatywna sztuczna inteligencja nie zniknie. W przyszłości nadal będą potrzebni ilustratorzy, graficy i projektanci, tyle że właśnie dostali do rąk zupełnie nowe narzędzia

Jeszcze 5 minut czytania

MATEUSZ WITCZAK: Generatywna sztuczna inteligencja zdominowała tegoroczne Digital Cultures, na festiwalu poświęcono jej aż cztery wystąpienia. Nawet gdy nie była tematem wiodącym, to wspominał o niej Kuba Górnicki z „Outriders” w swoim wykładzie o „artystycznym dziennikarstwie”, a ekspertki SEXed-u przestrzegły przed deepfake’ami na panelu o „cyfrowej intymności”. Słusznie kładziemy tak wielki nacisk na debatę o AI?
DAVID SYPNIEWSKI: Musimy oswoić nasze lęki, a AI boimy się wszyscy. Jako pracownicy niepokoimy się o nasze miejsca pracy. Jako rodzice o to, jak technologia wpłynie na rozwój naszych dzieci. Jako obywatele: czy nie zostanie ona wykorzystana do szerzenia propagandy.

Artyści boją się z kolei „kradzieży swojej twórczości”.
Możemy na AI skorzystać, ale nie dziwi mnie, że nowe narzędzia budzą nieufność. Na trenowanie LLM-ów, dużych modeli językowych w rodzaju ChataGPT, stać dziś albo największe korporacje, albo państwa, które, póki co, nie korzystają z tej możliwości. W efekcie technologia jest już u swego zarania silnie scentralizowana, nadal też pozostaje poza polityczną i społeczną kontrolą. Generatywna sztuczna inteligencja zmieniła zasady gry, ale korporacje nadal działają według starych reguł, a ustawodawcy dopiero zastanawiają się nad kształtem nowych. Wszyscy bierzemy udział w wielkim eksperymencie, który już teraz dotyka niektórych twórców.

Głośno zrobiło się swego czasu o specjalizującym się w grafikach fantasy Gregu Rutkowskim, którego ilustracje mogliśmy podziwiać w grze „Horizon: Forbidden West”, podręcznikach do systemu RPG „Dungeons & Dragons” czy na kartach „Magic the Gathering”. Gdy odkrył, że jego nazwisko pojawia się w promptach generatora Stable Diffusion częściej od Picassa czy van Gogha, publicznie oskarżył w mediach Stability AI o plagiat, kopiowanie swoich obrazów i „rozmywanie” marki. Bo przecież nagle w sieci pojawiło się mnóstwo grafik „w stylu Rutkowskiego”, które nie zawsze prezentowały wysoką jakość.

Obraz w stylu Grega RutkowskiegoObraz Grega Rutkowskiego

Postulował, by ponownie wytrenować model, wykluczając ze zbioru danych prace żyjących autorów. To jednak problematyczne z kilku przynajmniej przyczyn. Przede wszystkim lwia część tego, czym karmione są algorytmy, to dzieła ogólnodostępne. Druga sprawa: przecież artyści też bazują na dziełach innych artystów (a jakoś nie widziałem, by oznaczali swoje inspiracje). Nie ukrywajmy również, że byłoby to rozwiązanie kosztowne. Właśnie dlatego, gdy w pewnym momencie OpenAI dostrzegło, że sztuczna inteligencja przeklina, mówi rzeczy głupie, niebezpieczne i niepoprawne politycznie, nie zaczęło uczyć modelu od nowa. Zamiast tego stworzyło drugi, który cenzuruje ten pierwszy, by następnie podsunąć nam przefiltrowane treści.

Dlaczego więc Stability AI nie stworzy modelu, który odsiewałby ze zbioru twórczość Rutkowskiego i reszty artystów, którzy zgłoszą takie zapotrzebowanie?
Musimy uzmysłowić sobie, jak działają modele sztucznej inteligencji. Ich bazy danych składają się z miliardów obrazów oraz opisów do nich, dzięki którym algorytm tworzy wzorzec „komiksu Girauda”, „malarstwa Beksińskiego” albo „mody Club Kidsów”. Gdy użytkownik wpisze w promptcie, że chce uzyskać obraz „w stylu Beksińskiego”, AI nie sięga po prace samego artysty, ale po ten właśnie wzorzec: zbiór zasad, jakie da się odnieść do jego twórczości. AI nie rozumie sztuki, ale potrafi statystycznie przeanalizować kolory, kształty, tekstury, motywy tematyczne i kompozycje.

Relatywnie proste byłoby polecenie Stable Diffusion, DALL-E albo Midjourney, by nie czerpały już z obrazów Beksińskiego… Ale jako że Beksiński miał wielu naśladowców (i nie tworzył w izolacji), algorytm zapewne i tak poradziłby sobie z namalowaniem grafiki „w stylu Beksińskiego”. Kolejnym problemem jest „rozmycie” danych. Model nie przechowuje kopii płócien, na których się uczył, lecz tworzy na ich podstawie wspomniane już wzorce. Nie ma prostego sposobu na wyizolowanie konkretnych dzieł.

David Sypniewski

Prowadzi na Uniwersytecie SWPS zajęcia z robotyki społecznej, kreatywnego kodowania i sztucznej inteligencji w sztuce i działaniach twórczych, jest pomysłodawcą i kierownikiem Otwartej Pracowni Sztucznej Inteligencji. Członek Centrum HumanTech, współorganizator konferencji HumanTech Summit oraz towarzyszącego jej hackathonu. Zajmuje się też projektowaniem doświadczeń interaktywnych i wizualizacji oraz prowadzi warsztaty antydyskryminacyjne. Pracował w studiu kreatywnym Rzeczyobrazkowe, gdzie był koordynatorem działu internet + animacja, a także prowadził warsztaty strategiczne. Współprowadził Stowarzyszenie Praktyków Kultury, w którym – wraz z przyjaciółmi – pracował z filmem, fotografią i teatrem z grupami zagrożonymi wykluczeniem społecznym (uchodźcy, wychowanki zakładu poprawczego, młodzież z małych miejscowości). Obecnie pracuje nad doktoratem dotyczącym automatyzacji projektowania wayfindingu w ośrodkach dla uchodźców.

Przed nami ciekawe czasy. Dr Stephen Thaler, twórca modelu językowego DABUS, próbował uzyskać patent, jako jedynego wynalazcę wskazując właśnie DABUS-a. Grupa programistów wytoczyła pozew OpenAI i Microsoftowi, starając się dowieść, że firmy nielegalnie wykorzystały kod zaczerpnięty z publicznie dostępnych repozytoriów. Grupa autorów – na czele z George’em R.R. Martinem – oskarżyła korporacje o karmienie sztucznej inteligencji „pirackimi” wersjami ich książek.
Sądy głowią się także nad tym, czy prace sztucznej inteligencji stanowią twórczość i czy w związku z tym powinny podlegać prawu autorskiemu. Kluczowe pytanie brzmi: czy maszyna stwarza na podstawie ludzkich dzieł coś nowego, czy może jest derywatywna, potrafi jedynie nadbudowywać?

Jak na nie odpowiesz?
Sztuczna inteligencja nie została zaprojektowana, by być kreatywna. Dobrze radzi sobie w znajdowaniu wzorców, ale znacznie więcej zależy od człowieka, który wydaje jej polecenia. Postuluję, byśmy zamiast walczyć z GenAI, potraktowali ją jako narzędzie: dłuto, z którego korzysta rzeźbiarz, albo malarski pędzel.

Czym w ogóle jest kreatywność?
Osoby, które ją badają, wcale nie są co do tego zgodne; niezależnie jednak od ujęcia teoretycznego nigdy wcześniej nie była ona definiowana w oderwaniu od człowieka. Antropomorfizm wydaje nam się wpisany w sztukę, często skupiamy się przecież na tym, jak cechy charakteru czy osobiste doświadczenia artysty wpływają na jego dzieła.

Algorytmy zmuszają nas do zmiany sposobu myślenia o sztuce. Sam często korzystam z ujęcia Margaret Boden, która definiuje kreatywność w sposób funkcjonalny: jako proces dochodzenia od punktu A do punktu B. Czerpiemy z rzeczywistości zastanej – gatunków, trendów, innych dzieł – by w wyniku procesu kreatywnego stworzyć na ich bazie coś nowego.

Boden pisała, że kreatywność może być eksploracyjna, wówczas autor porusza się w gatunku, wykorzystując jego zasady. Przykładowo Stephen King wyspecjalizował się w horrorach, czerpiąc z twórczości Lovecrafta, Poego, Hitchcocka, Mathesona i Bradbury’ego. Kreatywność może być także kombinacyjna: łączyć i remiksować kilka różnych konwencji – vide Warhol, który pożenił klasyczne malarstwo z popkulturą. W kategoriach technicznych nie był bynajmniej mistrzem, ale potrafił odnajdywać nieoczywiste połączenia, generując w ten sposób nowe sensy.

Najtrudniejsza do uchwycenia jest kreatywność transformacyjna. W sztuce istnieją pewne wypowiedziane zasady, ale również zasady „ukryte”, którymi się posługujemy, nawet o tym nie myśląc. Ten rodzaj kreatywności ma je ujawnić i zdekonstruować, wprowadzając w efekcie nowe sposoby myślenia. Gdy Duchamp ustawił w galerii pisuar i nadał mu tytuł „Fontanna”, zakwestionował w ten sposób te właśnie „ukryte” reguły, zgodnie z którymi dzieło musi spełniać określone standardy, a twórca powinien wykonać je własnoręcznie. Działaniem artystycznym – twierdził – jest tworzenie nowego sensu poprzez nadanie przedmiotowi kontekstu.

Z którą kreatywnością GenAI radzi sobie najlepiej?
Eksploracyjną, zwłaszcza jeśli zasady, z których czerpie, są dobrze opisane i czytelne. Dowodem jej sukcesy w grach. Kilka lat temu media prześcigały się przecież w donoszeniu, jak to AI pokonuje mistrzów szachów i go, a później e-sportowców „Starcrafta 2” i „Counter-Strike’a”.

To był wstrząs, bo te ostatnie gry wymagają nie tylko myślenia strategicznego i taktycznego, ale też szybkiego podejmowania decyzji i stałej adaptacji do zmiennych warunków. Chyba największe zdziwienie wywołał jednak fakt, że sztuczna inteligencja zaczęła stosować bardzo pomysłowe zagrywki, na które człowiek wcześniej nie wpadł.
Wciąż jednak mówimy o grach, które funkcjonują w ramach jasno określonych zasad i w oparciu o skończoną liczbę parametrów. AI po prostu je uśredniło i odszukało wzorce – nawet takie, których my wcześniej nie dostrzegliśmy.

Modele językowe mają trudności z długoterminowym planowaniem, uczeniem się na własnych błędach, myśleniem przestrzennym i tzw. ugruntowaniem, a więc przekładaniem przyswojonych wcześniej informacji na kontekst konkretnej rozgrywki. Całkiem więc głupieją, gdy trafiają do losowo generowanych światów „Nethacka” czy „Minecrafta”.
Na ogół model językowy analizuje każdą klatkę obrazu, a następnie podejmuje decyzje w oparciu o widoczne na niej sygnały. W ramach projektu Voyager badacze Nvidii zaproponowali jednak, by zamiast tego ChatGPT zajął się pisaniem skryptów dla autonomicznego bota. Taki bot jest wpuszczany do świata „Minecrafta” samopas. Popełnia w nim błędy, ale algorytm stale wyciąga wnioski z zakończonych rozgrywek.

Powinniśmy sobie jednak zadać inne pytanie: jak się „wygrywa” takie gry? W szachach sprawa jest jasna: musimy osiągnąć ustawienie, w którym przeciwnik nie może obronić swojego króla przed zbiciem. „Minecraft” to generator w zasadzie nieskończonej liczby wirtualnych światów, a „zakończenie” nie jest w nim nijak sprecyzowane. Ktoś siądzie do gry, bo chce pokonać ender dragona, ktoś inny skupi się na składaniu jak najlepszych konstrukcji. Część odbiorców szczególnie ceni sobie spotkania i relacje międzyludzkie, część chce zbudować na grze swoją popularność, bo w końcu najpopularniejsze serwery obserwują miliony widzów. Sam zresztą obejrzałem musical napisany na podstawie dramy, która przydarzyła się w jednej ze społeczności. To my, ludzie, definiujemy, czym jest zwycięstwo w „Minecrafcie” .

Z tej zresztą przyczyny uważam, że sztuczna inteligencja słabiej radzi sobie z kreatywnością kombinacyjną. Oczywiście upowszechnienie LLM-ów zaowocowało mnóstwem internetowych przeróbek, w rodzaju: „Harry Potter, ale kręcony przez Wesa Andersona”, „Darth Vader w Portugalii” albo „Cyberpunkowy PRL”... ale przecież odpowiadali za nie ludzie. To oni dostrzegli w nowym narzędziu potencjał memiczny, zadecydowali, które estetyki połączyć, a finalnie ocenili, czy takie połączenia są śmieszne.

Sam wykorzystałeś generatywne AI podczas prac nad wystawą „Koniec wojny”. Wraz z Agnieszką Rayss poleciliście algorytmowi „rozszerzenie” fotografii o elementy niewidoczne w kadrze.
Początkowo bazowaliśmy na współczesnych zdjęciach, ale efekty nie były zadowalające. Wtedy Agnieszka, której twórczość obraca się wokół konfliktów zbrojnych, wyszukała w archiwach stare zdjęcia wojenne.

Stare zdjęcia mają w sobie mniej informacji: są czarno-białe albo w sepii, kolory bardziej kontrastują, rozdzielczość jest niska, widoczność zaburzają artefakty i ziarno. Sztuczna inteligencja radzi sobie z nimi gorzej, dane są bowiem tak niedokładne, że często nie potrafi „przewidzieć”, co powinno znajdować się poza kadrem. Zaczyna więc „halucynować”: generować obrazy niedokładne lub błędne.

Efekt jej pracy nie był prostym przedłużeniem fotografii, ale jej rozwinięciem: nagle na zdjęciu pojawiały się kształty przypominające ni to ludzi, ni to zwierzęta, często obraz rozmywał się lub wręcz rozpadał. Dostrzegliśmy w takich przeróbkach pewien ciężar gatunkowy i prawdę. Bo przecież wojna ma w sobie ogromny ładunek entropii; sprawia, że nasz świat się rozpada, a szczegóły tracą na znaczeniu. Do tego doszły ciekawe błędy w perspektywie lub interpretacji, dzięki którym archiwalne fotografie nabywały onirycznego bądź surrealnego charakteru.

Na jednym ze zdjęć mieliśmy kolejkę żołnierzy wracających z Sybiru. Poszerzaliśmy je bez promptu, chcąc, by AI sama zinterpretowała tę scenę i zaproponowała, co powinno znaleźć się poza kadrem. Następnie poszerzaliśmy jeszcze bardziej – wtedy interpretowała już nie tylko oryginalną fotografię, ale też to, co sama wcześniej wygenerowała. Osiągnęliśmy efekt „fotokopii z fotokopii”; a każda kolejna warstwa rozpadała się coraz bardziej. O ile początek kolejki składał się z jednostek, dalej zlewały się one między sobą w masę, tracąc podmiotowość.

Jedną z najmocniejszych prac wystawy jest dla mnie zdjęcie dwóch esesmanów pozujących przy człowieku, którego przed chwilą powiesili na progu jego własnego domu. Przy poszerzaniu obrazu AI dorobiła dalszy ciąg budynku, w tym jakiś zupełnie niepasujący do niego daszek, oraz nadała fotografii osobliwą perspektywę. Zwiedzający od razu podskórnie czuli, że coś jest z nią nie tak, co potęgowało jej grozę… ale z początku nie wiedzieli co. Zwłaszcza że skupiali się na dramatyzmie samej sceny. Nasz mózg chce interpretować fotografie jako coś spójnego, ale sztuczna inteligencja rzuca mu wyzwanie.

Takich mariaży ludzkiej kreatywności z narzędziami generatywnymi widzieliśmy w ostatnich latach znacznie więcej. Dwa lata temu na Biennale w Wenecji zaprezentowano malarstwo robota Ai-Da, dzięki sztucznej inteligencji wysłuchaliśmy w zeszłym roku ostatniej piosenki Beatlesów, a profesor Andrzej Dragan stworzył dzięki niej teledysk do nowego utworu Quebonafide.
Jednym z głośniejszych katalizatorów debaty był kazus „Dziewczyny z perłą” Johannesa Vermeera. Oryginał znajduje się w zbiorach haskiego Muzeum Mauritshuis, które dwa lata temu wypożyczyło go placówce w Amsterdamie, gdzie odbywała się wystawa prac Vermeera. Rozpisano wówczas konkurs, prosząc artystów o przesyłanie obrazów inspirowanych „Dziewczyną z perłą”, dając im zarazem pełną dowolność w kwestii techniki, stylu i narzędzi.

Zgłosiło się 3,5 tys. twórców, a efekty były rozmaite – pojawiła się np. „Makatka z perłą”, autoportret wykonany z użyciem ręcznika kąpielowego albo rekonstrukcja dzieła z użyciem klocków Lego… Jednak w gronie pięciorga ścisłych finalistów znalazł się także niemiecki artysta Julian van Dieken, który specjalizuje się w wykorzystywaniu w swoich pracach AI. Wywołało to lawinę skarg i pogróżek.

Julian van Dieken, „Dziewczyna z perłą” z wykorzystaniem MidJourneyJulian van Dieken, „Dziewczyna z perłą” z wykorzystaniem MidJourney

Narodowe Centrum Kultury, partner działu Media w „Dwutygodniku”, jest operatorem programu Konwersja Cyfrowa Domów Kultury. Rozwija kompetencje cyfrowe kadr kultury, a także bada, analizuje i opisuje kondycję i potencjał branż sektora kreatywnego oraz trendy i wykorzystanie technologii cyfrowych w kulturze, m. in. prowadzi projekt badawczy typu foresight, dotyczący transformacji cyfrowej w obszarze kultury i wpływu wschodzących technologii na sztukę.

W podobnym momencie jeden z lokalnych konkursów graficznych wygrał w Stanach obraz „Théâtre D’opéra Spatial”, stworzony przez projektanta gier wideo Jasona Allena. Wykorzystał on MidJourney (choć, jak podkreślił, i tak spędził przy obróbce 80 godzin), co skończyło się nawoływaniami o dyskwalifikację. Czemu GenAI wywołuje wrogość i publiki, i artystów?
Część ludzi oburza się, że sztuczna inteligencja „kradnie” twórczość artystów, a praca z jej wykorzystaniem nie spełnia kryteriów „sztuki”... Wyobraźmy sobie jednak, że klient przychodzi do grafika z prośbą o zaprojektowanie określonego logotypu. Czy w tym momencie artystą jest klient czy grafik, który w oparciu o wytyczne wykona taki projekt? Przecież samo rysowanie przed komputerem to tylko cząstka jego pracy, przez całe życie musi on gromadzić wiedzę, zdobywać doświadczenie, wyrabiać w sobie wrażliwość. Akt twórczy to coś znacznie większego niż połączenie kilku wzorców, by na ich podstawie przygotować ilustrację.

Już teraz pojawiają się artyści AI, którzy specjalizują się w dobrej komunikacji z modelami językowymi, znają ograniczenia technologii i potrafią ręcznie poprawiać jej błędy. Odmawianie ich pracy wartości przypomina mi argumentacje stosowaną tuż po wynalezieniu fotografii, gdy część krytyków obawiała się, że zakończy ona rozwój malarstwa. Zamiast toczyć jałowe spory, powinniśmy oswoić się z myślą, że generatywna sztuczna inteligencja nie zniknie. W przyszłości nadal będą potrzebni ilustratorzy, graficy i projektanci, tyle że właśnie dostali oni do rąk zupełnie nowe narzędzia.

We wrześniu Mario Draghi, były premier Włoch i szef Europejskiego Banku Centralnego, opublikował raport o stanie unijnej gospodarki. Jak twierdzi: na tle Chin i Stanów znajduje się ona w „egzystencjalnym kryzysie”, a szczególne zapóźnienia mamy na polu innowacji, aż 61% globalnych środków na rozwój AI trafia do firm amerykańskich, 17% do chińskich, a do europejskich – raptem 6%. Tymczasem w życie wchodzi właśnie unijne rozporządzenie AI Act, które ma kompleksowo regulować rozwój, wdrażanie i użytkowanie sztucznej inteligencji. Apple już ogłosiło, że w związku z „niepewnością prawną” Apple Intelligence pojawi się na Starym Kontynencie później. Czy aby nasze zapędy regulacyjne nie sprawią, że sami stawiamy się na oucie rewolucji?
W mojej opinii – nie. Przecież nie tylko Europa pracuje nad regulacjami. Chińskie modele sztucznej inteligencji muszą wyznawać wartości komunistyczne, rząd ściśle kontroluje rozwój technologii i kładzie silny nacisk na cenzurę. Z kolei USA wprowadzają ustawy na poziomie stanowym, bardzo zresztą podobne do rozwiązań europejskich. Mało tego, Sam Altman, dyrektor generalny OpenAI, nawiązał współpracę z Narodowym Instytutem Standaryzacji i Technologii, wspólnie z którym przeprowadza testy bezpieczeństwa kolejnych wersji swojego modelu.

Trwa teraz próba sił: Apple opóźnia u nas debiut swojej sztucznej inteligencji, a Lama, multimodalny model Mety, podobno w ogóle nie będzie w Unii dostępna. Korporacje wymawiają się „niepewnością otoczenia regulacyjnego”, ale choć nie jesteśmy największym kawałkiem tortu, to i tak opłaca się być obecnym w naszym regionie. Jestem przekonany, że i z Lamy skorzystamy.

Efekt jest jednak taki, że europejski twórca nie ma dostępu do tych nowych narzędzi, w przeciwieństwie do na przykład twórcy amerykańskiego.
I to jest realny instrument nacisku. Przecież artyści będą musieli nabyć nowe umiejętności i poznać kolejne obszary działania, bo – czy tego chcemy czy nie – sztuczna inteligencja zmienia właśnie sposób ich pracy. Nie warto się na nią obrażać.

Partnerem działu Media w „Dwutygodniku” jest Narodowe Centrum Kultury.
logotyp NCK