Mittels einer modifizierten stable-diffusion-Version generiert Skybox von Blockade Labs Panoramen auf Basis des Benutzerinputs. Diese können vielseitig, beispielsweise für Header-Grafiken, VR, Hintergründe usw. verwendet werden. Dabei können unterschiedliche Stile auf die generierten Inhalte angewandt werden. Skybox ist ein nützliches Tool, welches gegenwärtig kostenlos ist und auch für kommerzielle Projekte genutzt werden kann.
Alles beginnt mit dem Prompt, beispielsweise: Medieval village, cherry blossom. Motorcycles in the streets. Mit der Option „Negative Text“ kann zusätzlich definiert werden, welche Inhalte nicht vorkommen sollen. Das Panorama kann nach der Generierung mit Pinseln ergänzt und redefiniert werden. Es ist auch möglich, Raster und Hilfslinien einzublenden (sphärisch, planar oder ein Würfel-Raster). Bei der perspektivischen Gestaltung und speziell dem Compositing mit anderen Inhalten in weiteren Arbeitsschritten kann dies sinnvoll sein.
Sehr nützlich kann die Depth Map sein, die als Option mit ausgegeben werden kann. Diese beinhaltet Informationen zur räumlichen Tiefe aus Sicht des Beobachterstandpunkts, wobei üblicherweise der Tonwert 0 für nahe und 255 für ferne Pixelbereiche steht.
Depth Maps sind auch unter dem Begriff Z-Buffer oder Tiefenmap bekannt. Im Fall von Sykbox wird eine Tiefenmap ausgegeben, welche die Luminanz der Pixel in Relation zur Brennebene setzt. Bereiche, die näher an der Brennebene sind, werden dunkler dargestellt. Im obigen Beispiel sind somit die dunkleren Bereiche weiter entfernt vom Betrachtungsstandpunkt. Somit können auch Tiefenschärfe oder -unschärfe in weiteren Bearbeitungsschritten, zB. in Photoshop simuliert werden. In der Stereoskopie wird die Tiefenmap zur Generierung eines dreidimensionalen Eindrucks verwendet.
Wählt man „remix this“, kann der Output in einen anderen Stil transformiert werden oder auch der Prompt angepasst werden, beispielsweise eine Änderung der Tageszeit.
Was nicht so gut funktioniert
- In Details sind deutliche Konsistenzfehler zu erkennen. Gestaltgesetze werden häufig verletzt, dies ist besonders beim Reinzoomen zu erkennen.
- Größe und Perspektive der Objekte sind oft verzerrt, Übergänge zwischen Objekten verschmelzen miteinander.
- Blätter, Blüten und organische Strukturen sind nicht an Pflanzen gebunden, sondern erstrecken sich über das ganze Bild, oft in sinnlosen Strukturen.
- Die stilistische Transformation zeigt starke Mängel, siehe Beispiel weiter unten: Die Stile unterscheiden sich kaum und nur anhand des Color Gradings – wobei die Ergebnisse hier stark schwanken.
- Menschen, Tiere, Fahrzeuge und ähnliche Objekte sollten im Prompt nicht angegeben werden, da diese stark verfremdet ausgegeben werden können.
- Die Bilder wirken canny, dh. man sieht ihnen die KI-Generierung an. Das muss aber nicht im negativen Kontext gesehen werden, sondern prägt gewissermaßen auch den Stil der KI und ist quasi Alleinstellungsmerkmal. Überhaupt sollte man KI-Werke nicht mit von Menschen geschaffenen Werken oder Fotos vergleichen, diese Diskussion ist unsinnig und führt nirgendwo hin. Das Eine wird vom Menschen geschaffen, das Andere von einer Maschine – wenn der Output nützlich ist, who cares. Und solange immer ein Mensch die Hand an der Maschine hat, ist alles in Ordnung ;).
Wie bei vielen KI-generierten Bilden ersichtlich, ergibt sich die Plausibilität aus dem Gesamteindruck und nicht aus den Details, diese sind selten schlüssig in komplexeren Szenen. Für Stimmungsbilder und Teile von Bildkompositionen ist der Output von Skybox jedoch sehr gut geeignet. Auf renderstuff.com kann beispielsweise das heruntergeladene Panorama verwendet werden, um ein Vr-Panorama zu erstellen. Three.js ist als javascript Framework dafür ebenfalls gut geeignet (und für noch viel mehr).
Exkurs: Im Spannungsfeld Mensch-Maschine drängt sich mir immer wieder Metropolis und Kraftwerks Album Mensch-Maschine auf. Beide Werke formen für mich die Stimmung und den emotionalen Kontext der Materie – bewusst retro-verklärt.