Donnerstag, 30.05.2024
KI-Bildgenerierung mit Stable Diffusion
Das Wichtigste in Kürze:
KI-Bildgeneratoren werden die klassische Fotografie nicht ablösen, bieten jedoch gerade in der kreativen Anfangsphase die Möglichkeit, schnell erste Bilder für eine visuelle Präsentation zu erhalten
Online-Tools bieten häufig Enterprise-Lösungen für Unternehmen mit dem Versprechen an, die eingegebenen Daten nicht weiterzuverwenden. Lokale Lösungen bieten jedoch fast immer mehr Datensicherheit
Stable Diffusion ist ein kostenfreier und lokal laufender Bildgenerator, der viel Freiraum bei der Erstellung von KI-generierten Bildern bietet
Durch Erweiterungen kann Stable Diffusion genau auf die Bedürfnisse eines Unternehmens zugeschnitten werden
Wie funktionieren Bildgeneratoren?
Schon seit Jahren gibt es verschiedene Techniken, um Bilder KI-gestützt durch einen Computer generieren zu lassen. Als Pionier auf diesem Gebiet veröffentlichte die Online-Plattform Artbreeder eine erste konsumentenfreundliche Version eines Bildgenerators, mit der verschiedene Landschaften, Gesichter und Charaktere generiert werden konnten. Die Limitation lag jedoch darin, dass die verwendeten Modelle nicht sehr gut darin waren, unterschiedliche, realistische und kohärente Bilder zu erstellen, sondern nur für spezifische, vortrainierte Fälle geeignet waren.
Erst die Entwicklung von Diffusionsmodellen schuf die Möglichkeit, generalistische Bildgeneratoren zu programmieren, die vielfältige Bilder erstellen können. Vereinfacht beschrieben werden diese Modelle in zwei Phasen trainiert: Zuerst wird dem Modell ein Bild gezeigt, das schrittweise immer weiter verrauscht wird, bis es nur noch ein komplett verrauschtes Bild ist. Anschließend wird das vollständig verrauschte Bild dem Modell präsentiert, und es soll aus den gelernten Daten das Originalbild wieder reproduzieren. Die daraus resultierenden Gewichtungen bilden abschließend das Modell, das aus einem verrauschten Grundbild in Zusammenarbeit mit einem Prompt ein völlig neues Bild erstellen kann.
Vereinfachte Abbildung eines Diffusionsmodells - Bildquelle: https://yang-song.net/blog/2021/score/
Heutzutage basieren die meisten KI-Bildgeneratoren auf Diffusionsmodellen in Kombination mit anderen Generationsmodellen, um eine möglichst spezifische Kontrolle über das Bild zu gewährleisten. Weitere Informationen zur Bildgenerierung findet man beispielsweise hier.
Welche KI-Bildgeneratoren gibt es?
Online findet man eine große Auswahl an Bildgeneratoren. Diese sind meist mit unterschiedlichen Preismodellen verbunden, und gerade für Unternehmen ist es wichtig, das richtige Produkt für ihre Anwendungsfälle zu finden. Oberflächlich betrachtet bieten diese Generatoren jedoch häufig denselben Funktionsumfang. Betrachtet man die Programme jedoch genauer, werden schnell die Unterschiede ersichtlich.
Stable Diffusion als Lokale Lösung
Zwar bieten die oben genannten Bildgeneratoren einen einfachen Zugang zu KI-generierten Bildern, jedoch sind diese auch alle an eine Internetverbindung und an die Serverstruktur eines (meist amerikanischen) Unternehmens gebunden. Dies hat zur Folge, dass gerade bei der Eingabe von unternehmensspezifischen Daten nie zu 100 Prozent sicher beantwortet werden kann, wie diese Daten am Ende weiterverwendet werden. Weiterhin gibt es neben möglichen Sicherheitsbedenken natürlich auch noch datenschutzrechtliche Aspekte, welche nicht vernachlässigt werden dürfen. Viel besser wäre stattdessen eine lokale Lösung, die nur unternehmensintern verwendet werden kann. Hier kann die lokale Version von Stable Diffusion (A1111) verwendet werden. Dieser Bildgenerator kann über einen Docker lokal auf einem Server im Unternehmensnetzwerk oder bei leistungsstarken Computern (mindestens 4 GB dedizierte Grafikkartenspeicher) auch lokal installiert werden. Zwar müssen hier die Parameter wie Modelle, Stilvorgaben oder Erweiterungen extra installiert werden, jedoch ermöglicht das Programm durch seine offene Gestaltung eine Vielzahl an Möglichkeiten, um es genau an die Bedürfnisse des Unternehmens anzupassen.
Im Folgenden werden einige Punkte genauer erläutert:
Modelle
Basismodelle für Stable Diffusion, welche die Grundlage für die generierten Bilder sind, können auf unterschiedlichen Plattformen im Netz bezogen werden. Huggingface bietet hier eine große Vielfalt an Modellen, welche für verschiedene Anwendungsfälle optimiert sind. Hier sollte man immer darauf achten nur Dateien mit der Endung .safetensor herunterzuladen.
Erweiterungen
Innerhalb von Stable Diffusion gibt es schon eine Datenbank mit verschiedenen Extensions. Über die Web Benutzer Oberfläche können diese ausgewählt und direkt installiert werden. Zu den wichtigsten Erweiterungen gehören:
- ControlNet um verschiedene Bildvorlagen als Zusatzinformation zum prompt zu verwenden
- Regional Prompter, um bestimmte Regionen eines Bildes bestimmte Prompts zuzuweisen
- Image Browser, zum einfachen durchsuchen und vergleichen von generierten Bildern
- Reactor, zum erstellen von Personenbezogenen KI Bildern
Zusatz-Modelle
Neben den Basismodellen gibt es bei Stable Diffusion auch noch die Möglichkeiten kleine Modelle wie beispielsweise LoRa’s oder Embeddings zu verwenden, welche dem erstellten Bild weitere Wichtige Informationen geben können. So kann man beispielsweise ein Basismodell für Realismus und ein Zusatzmodell für 360Grad Bilder verwenden um ein Fotorealistisches 360Grad Bild zu erstellen. Möchte man jedoch eine Realistische Kopftextur muss man nicht das komplette Basismodell austauschen, sondern kann einfach nur das Zusatzmodell für eine Kopftextur aktivieren.
Beispiele aus der Praxis
Neben den technischen Aspekten ist es natürlich auch wichtig zu wissen für welche Anwendungsfelder solche Bildgeneratoren verwendet werden kann. Deshalb gibt es hier einige Beispiele wie Unternehmen schon heute Bildgeneratoren in ihre Arbeitswelt integriert haben.
Brainstorming Tool
Häufig hilft die Visualisierung eines Gedanken schon dabei um sich schnell und effizient auf eine Richtung zu einigen. Hier helfen Bildgeneratoren, da man mit einem einfachen Prompt starten und diesen immer weiter mit Inhalten füttern kann, bis man mit dem Endergebnis zufrieden ist. Von hier können dann Moodboard, oder Konzepte erstellt werden.
3D Texturen
Gerade für Objekte im Hintergrund reichen häufig Texturen mit geringer Auflösung. Hier können Bildgeneratoren helfen indem sie entweder ganze PBR Texturen erzeugen oder einzelne Bildelemente über Projektionmapping auf 3D Geometrie projizieren.
Bildbearbeitung
Sehr schnell gab es Anwendungsfälle in der Bildbearbeitung, ganz vorne mit dabei Photoshop mit seiner KI-Bilderweiterung oder dem Ersetzen von ganzen Bildelementen. So können Bilder schneller an die unterschiedlichen Bedürfnisse der Bildgestaltung angepasst werden.
Erstellung von Medien Content
Zwar kann die Auflösung und Schärfe von vielen KI generierten Bildern noch nicht mit der von Kameras mithalten, jedoch für Online oder Flyer Content reicht es schon. Überall wo kleine Bilder gefragt sind kann man auch KI generierte Inhalte verwenden, gerade wenn es Landschaften, Architektur oder Objekte zeigen soll, da hier nicht der Uncanny Valle Effekt eintreten kann.
Fazit
Schlussendlich kann man festhalten, dass fast alle Bildgeneratoren einen sehr ähnlichen Funktionsumfang bieten. Ein großer Unterschied liegt zum einen in der Art und Weise des Hostings und zum anderen in der Möglichkeit, ein Tool zu erstellen, welches auch langfristig den Bedürfnissen des Unternehmens gerecht werden kann. Hier punktet natürlich Stable Diffusion durch die Möglichkeit, es auch lokal zu nutzen. Jedoch geht dies natürlich auch immer mit der Wartung des Programms einher. Somit ist es wichtig, dass Unternehmen vor der Einführung von Bildgenerierungstools sich genau überlegen, wofür sie dieses Tool eigentlich benötigen. Bei uns am Mittelstand-Digital Zentrum Franken haben Sie die Möglichkeit, sich durch Online-Angebote wie unseren Stable Diffusion Kurs oder durch Offline-Angebote im Bereich der Bildgeneratoren weiterzubilden. Unsere wissenschaftlichen Mitarbeiter stehen auch immer gerne für ein Fachgespräch zur Verfügung.
Quellen
- https://fingfx.thomsonreuters.com/gfx/legaldocs/byprrqkqxpe/AI%20COPYRIGHT%20REGISTRATION%20decision.pdf
- https://www.artbreeder.com/
- https://yang-song.net/blog/2021/score/
- https://www.adobe.com/de/products/firefly.html
- https://openai.com/index/dall-e-3
- https://www.midjourney.com/home
- https://leonardo.ai/
- https://github.com/AUTOMATIC1111/stable-diffusion-webui
- https://www.digitaltrends.com/computing/stable-diffusion-pc-system-requirements/
- https://huggingface.co/models?other=stable-diffusion
- https://github.com/Mikubill/sd-webui-controlnet
- https://stable-diffusion-art.com/regional-prompter/
- https://github.com/AlUlkesh/stable-diffusion-webui-images-browser
- https://github.com/Gourieff/sd-webui-reactor
- https://www.nationalgeographic.de/wissenschaft/2023/09/uncanny-valley-ki-lernt-uns-das-fuerchten-roboter
Erfahre mehr
Neben interessanten Blogartikeln und Fachbeiträgen bietet das Mittelstand-Digital Zentrum Franken ebenso Workshops, Schulungen, E-Learnings und weitere hilfreiche Materialien zur Unterstützung von mittelständischen Unternehmen.
Hier geht's zu unseren Events
Ansprechpartner