Page cover image

💻Generative KI

Bereits seit einigen Jahren beschäftige ich mich mit dem, was heute Generative AI genannt wird – insbesondere Text-to-Image-Generatoren aber auch Text-Generatoren. Diese Technologien basieren auf der Fähigkeit von künstlichen neuronalen Netzen, in vorhandenen Daten statistische Muster und Zusammenhänge zu erkennen und in einem Modell zu speichern. Basierend auf diesem kann ein System anschließend aus diesem Modell verschiedenste Inhalte generieren, die auf den Erlernten basieren. Beispielsweise Bilder, Texte oder sogar Videoinhalte.

Im Jahr 2022 kam es zu eine Revolution im Bereich der generativen KI. Ursache waren die sogenannten Transformer, eine Architektur von künstlichen neuronalen Netzen, die von Google Brain entwickelt wurde. Transformer sind auf die Verarbeitung von natürlicher Sprache spezialisiert. Sie können Texte als Gesamtheit betrachten und ihren Kontext erfassen, statt Worte wie an einem Fließband abzuarbeiten. Dabei ist Transformern möglich, wichtige Informationen in Texten mittels einer Art 'digitalen Aufmerksamkeit' zu gewichten.

Eine weiterer Durchbruch waren sogenannte Diffusionsmodell. Hierbei ist es einer Künstlichen Intelligenz möglich auf einen beschreibenden Befehl hin – den sogenannten Prompt – ein Bild zu generieren. Das geschieht jedoch nicht, in dem einfach die gewünschten Bestandteile zusammengefügt werden. Stattdessen generiert ein Diffusionsmodell ein Rauschen, dem über sogenannte Schritte weiteres Rauschen hinzugefügt wird. Das KI-System versucht hierbei das Rauschen auf Basis statistischer Methoden und aus dem Modell abgerufenen Mustern jeweils so zu verändern, das es sich den verlangten Motiven annähert. Je mehr Schritte eine KI dabei gehen kann, um so detaillierter und präziser wird das Motiv.

Ich habe mich im Zuge des Erfolgs von ChatGPT mit verschiedenen Sprachmodellen – LLMs, large language models – wie der GPT-Familie, Llama, Alpaca und anderen befasst, habe so manches über Prompting gelernt und vor allem sehr, sehr viel Zeit mit dem generieren von Bildern in Stable Diffusion, DALLE 2/3 und Midjourney verschwendet.

Bei einem Prompt handelt es sich im Grunde lediglich um einen Anweisung, die einem KI-System in Textform vermittelt, was es generieren und ausgeben soll. Also: Was der Nutzer haben will. Es kann sich dabei um einen oder mehrere Sätze, komplexe Befehle über mehrere Zeilen oder auch nur eine Ansammlung von Stichworten handeln. Das funktioniert, da Modelle wie das hinter ChatGPT stehende GPT-3 und die Bild-Modelle von Midjourney, DALL-E 2 oder Stable Diffusion über eine Art assoziatives Gedächtnis verfügen. Sie wurden mit immensen Mengen an Texten respektive Bildern und auch dazugehörigen Kontextinformationen – wie etwa Verschlagwortungen und Inhaltsangaben – trainiert. Von der Künstlichen Intelligenz erfasste Muster und statistische Beziehungen der Eingangsdaten wurden dabei im Datenmodell in Form in eines sogenannten latent space kodiert.

Ich habe nach dem Erfolg von Midjourney, Stable Diffusion und anderen Text-zu-Bild-Generatoren mit vielen Künstlern und Künstlerinnen gesprochen. Insbesondere darüber, wie diese neuen Technologien ihre Arbeit beeinflussen und sie diese in ihr Schaffen einbinden können.

Es ist nicht sicher, wer den Satz zuerst in die Welt brachte, aber er wird seit Jahren immer wieder als Text und als Meme in Bildform geteilt. Er sagt: „To replace artists with robots, clients will have to accurately describe what they want. We’re still safe.“ Also, wenn Roboter irgendwann Künstler ersetzen sollten, müssten Kunden genau beschreiben, was sie wollen. Daher wären die Jobs von Künstlern noch sicher. Doch da sind sich einige nicht mehr so sicher – und fürchten, dass sie etwa als Illustratoren in Zukunft einfach ersetzt werden könnten. „Du hast bereits diese ganzen billigen Fertiggrafiken auf diesen Websites. Aber wenn du etwas einzigartiges, ein ganz bestimmtes Motiv willst, kamst du um uns [Illustratoren] nicht rum“, sagt eine Künstlerin, die wir nur Jenny nennen sollen, zu 1E9. Sie hat Illustrationen für Magazine in Österreich und Deutschland gestaltet hat und auch an mehreren Videospielen mitgearbeitet. „Aber jetzt geht das mit einigen Worten, die du da einfach eintippst – und du kriegst so viele Bilder, wie du willst und bezahlen kannst.“

Vor allem rund um Stable Diffusion war (und bin ich) aktiv. Ich habe Modelle mit eigenen Inhalten und meiner Fotodatenbank nachtrainiert, um dem Modell bestimmte Stile beizubringen – insbesondere den einzigartigen Look von 80er-Jahre-Science-Fiction-Filmen.

Ebenso habe ich mit Stable Diffusion auf Anfrage hin für einen kleinen Videospielentwickler verschiedene Bilder generiert, die als Inspiration für ein Projekt dienen sollen, das eine surreale Post-Apokalpyse zeigt. Dazu bin ich immer wieder mit anderen Medienvertretern und Agenturen über diese neuen KI-basierten Tools im Austausch, um mit meinen Einschätzungen und Erfahrungen zu helfen. Oh, und manchmal sitze ich auch in Gesprächsrunden wie beispielsweise bei Webedia, wo ich meine Meinung vor kleinem Publikum teile.

Last updated