Genauso wie jedes fortschrittliche Werkzeug in der Vergangenheit, wird heute künstliche Intelligenz oder Maschinelles Lernen von vielen Akteuren, speziell in der Medienbranche, misstrauisch beäugt und entsprechend zurückhaltend kommentiert, teilweise sogar regelrecht verteufelt. KI ist sprichwörtlich der deus ex machina, der uns überrascht, bereichert, irritiert und manchmal verängstigt. Doch besteht keine Veranlassung zu Angst und Sorge, vielmehr sollten Kreative die Potenziale in der Entwurfserstellung und Möglichkeiten der Arbeitserleichterung erkennen und nutzen. Schließlich ist eine KI im Grunde nur eine von Menschen entwickelte Simulation von Intelligenz, basierend auf von Menschen generierten Datenbeständen.
KI ersetzt nicht den Menschen, sondern ist ein komplexes Werkzeug mit meist gar nicht so komplexen Schnittstellen, die höhere Produktivität und Effizienz bei geringerem manuellen Aufwand ermöglicht – KI substituiert also vielmehr manuelle Prozesse und schafft neue Möglichkeiten. Der Mensch bleibt schließlich Koordinator, Bewerter, Kommunikator und Aggregator der Ergebnisse und übernimmt andere Rollen im Entwicklungsprozess. Im einfachsten Fall nimmt uns die KI langwierige und lästige Arbeiten, wie beispielsweise Freistellungen oder Gesichtsretuschen ab. Und schließlich wurzelt menschlicher Fortschritt im Einsatz und der Entwicklung von Technologie, das differenziert uns letztendlich auch vom Tier.
Ist die Technologie komplex genug, wird sie intuitiv als Magie empfunden. Dabei braucht es eigentlich gar nicht viel, um intelligent wirkende Systeme zu entwickeln. Bereits 1966 zeigten sich Psychologen erstaunt über die Leistungsfähigkeit des Chatbots ELIZA, den viele Probanden als menschlichen Gesprächspartner eingeordnet hatten und der auch Therapieerfolge erzielte. Wahrscheinlich liegt der Schlüssel zur Akzeptanz im Verständnis der Funktion. Hätten die Probanden gewusst und verstanden, wie ELIZA zu seinen Textausgaben gekommen ist, wären diese auch anders beurteilt und wahrgenommen worden. Somit liegt die Herausforderung für KI-Entwickler im transparent-machen und nachvollziehbar-machen der Ergebnisse. Wenn Menschen etwas verstehen, verschwindet auch die Angst. Das Mittel gegen Aberglauben ist Wissen.
Ein schönes Beispiel für den kooperativen Prozess zwischen Mensch und Maschine ist Disco Diffusion von Google, mit dem es möglich ist, mittels einer Kombination des neuronalen Netzwerks CLIP mit einem Diffusion-Modell, Bilder auf Basis von Texteingaben zu erzeugen. Der Entwurfsprozess wird durch die KI um neue Inputs und kreative Möglichkeiten erweitert. Erste Schritte kann man auch mit Googles Teachable Machine machen, um zu verstehen, wie Maschinelles Lernen funktioniert. Ohne Programmierkenntnisse lernt man dabei das Sortieren, Klassifizieren und Training solcher Systeme, die auch für eigene Projekte exportiert werden können. Für kreative Entwurfsprozesse ist auch das bekannte GauGAN von Nvidia geeignet, mit dem Zeichnungen in Fotos umgewandelt werden können.
Für das Chaining, das Kombinieren mehrerer Methoden und Bibliotheken bietet sich Google Colab an, auf dessen Basis mit wenig Code im Browser ausführbare Anwendungen entstehen. Vortrainierte Modelle können weiterentwickelt (transfer learning) und angepasst werden.
OpenAI forscht an einem System, bei dem mit Texteingaben fotorealistische und abstrakte Bilder erstellt werden können, die vom KI-Modell CLIP auf Qualität hin überprüft und sortiert werden. Ergebnisse von DALL-E können bereits auf der Website eingesehen werden. OpenAI entwickelt dabei eine Architektur, die sich von den bisherigen GAN unterscheidet, nämlich Diffusion Models. Bei GAN-Anwendungen erzeugen Generatornetzwerke Bilder, die anschließend von einem Diskriminatornetzwerk mit Trainingsdaten abgeglichen werden. Der Generator lernt somit Bilder zu erzeugen, die der Diskriminator nicht mehr von der Originalvorlage unterscheiden kann. Bei Diffusion Models wird während des Trainings den Bildern Gaußsches Rauschen hinzugefügt. Dabei lernt die KI dann, diesen Prozess wieder zurückzurechnen. Ähnlich funktioniert auch Imagen von Google. Eine sehr gute Übersicht generativer KI-Modelle kann im Blog von Lilian Weng betrachtet werden.
Hugging Face ist eine Plattform, die KI-Modelle, Trainingsdaten und Transformatoren per API-Abruf zur Verfügung stellt. Dabei ist es Ziel der Plattform, Konkurrenz zu den KI-Monopolen von Google, IBM, Microsoft usw. zu sein. Zuletzt sei als praktische Anwendung noch der Videoeditor RunawayML erwähnt, der stark auf KI-Algorithmen setzt und die damit verbundene Zeitersparnis und kreativen Möglichkeiten erlebbar macht. 720p-Exporte der Videos sind dabei kostenlos nutzbar.
Abschließend sie noch erwähnt, dass alle gegenwärtig zur Verfügung stehenden KI-Modelle ausschließlich schwach intelligent sind. Eine sogenannte starke Ki, die menschliches Denken simuliert, ist außerhalb aktueller technischer Möglichkeiten, zumal auch die Funktionsweise des Gehirns, die Entstehung eines Bewusstseins, noch nicht wissenschaftlich geklärt sind. Es ist auch noch nicht absehbar, ob diese jemals möglich sein wird, oder überhaupt sinnvoll oder moralisch/ethisch vertretbar ist. Ich empfehle dazu den Artikel Warum die große Gehirn-Simulation zum Scheitern verurteilt sein könnte auf Heise.