Quelle: https://fingfx.thomsonreuters.com/gfx/legaldocs/byprrqkqxpe/AI%20COPYRIGHT%20REGISTRATION%20decision.pdf

Donnerstag, 30.05.2024

KI-Bildgenerierung mit Stable Diffusion

Das Wichtigste in Kürze:


KI-Bildgeneratoren werden die klassische Fotografie nicht ablösen, bieten jedoch gerade in der kreativen Anfangsphase die Möglichkeit, schnell erste Bilder für eine visuelle Präsentation zu erhalten



Online-Tools bieten häufig Enterprise-Lösungen für Unternehmen mit dem Versprechen an, die eingegebenen Daten nicht weiterzuverwenden. Lokale Lösungen bieten jedoch fast immer mehr Datensicherheit



Stable Diffusion ist ein kostenfreier und lokal laufender Bildgenerator, der viel Freiraum bei der Erstellung von KI-generierten Bildern bietet



Durch Erweiterungen kann Stable Diffusion genau auf die Bedürfnisse eines Unternehmens zugeschnitten werden


Wie funktionieren Bildgeneratoren?

Schon seit Jahren gibt es verschiedene Techniken, um Bilder KI-gestützt durch einen Computer generieren zu lassen. Als Pionier auf diesem Gebiet veröffentlichte die Online-Plattform Artbreeder eine erste konsumentenfreundliche Version eines Bildgenerators, mit der verschiedene Landschaften, Gesichter und Charaktere generiert werden konnten. Die Limitation lag jedoch darin, dass die verwendeten Modelle nicht sehr gut darin waren, unterschiedliche, realistische und kohärente Bilder zu erstellen, sondern nur für spezifische, vortrainierte Fälle geeignet waren.

 

Erst die Entwicklung von Diffusionsmodellen schuf die Möglichkeit, generalistische Bildgeneratoren zu programmieren, die vielfältige Bilder erstellen können. Vereinfacht beschrieben werden diese Modelle in zwei Phasen trainiert: Zuerst wird dem Modell ein Bild gezeigt, das schrittweise immer weiter verrauscht wird, bis es nur noch ein komplett verrauschtes Bild ist. Anschließend wird das vollständig verrauschte Bild dem Modell präsentiert, und es soll aus den gelernten Daten das Originalbild wieder reproduzieren. Die daraus resultierenden Gewichtungen bilden abschließend das Modell, das aus einem verrauschten Grundbild in Zusammenarbeit mit einem Prompt ein völlig neues Bild erstellen kann.

Vereinfachte Abbildung eines Diffusionsmodells - Bildquelle: https://yang-song.net/blog/2021/score/

 

 

Heutzutage basieren die meisten KI-Bildgeneratoren auf Diffusionsmodellen in Kombination mit anderen Generationsmodellen, um eine möglichst spezifische Kontrolle über das Bild zu gewährleisten. Weitere Informationen zur Bildgenerierung findet man beispielsweise hier.

Welche KI-Bildgeneratoren gibt es?

Online findet man eine große Auswahl an Bildgeneratoren. Diese sind meist mit unterschiedlichen Preismodellen verbunden, und gerade für Unternehmen ist es wichtig, das richtige Produkt für ihre Anwendungsfälle zu finden. Oberflächlich betrachtet bieten diese Generatoren jedoch häufig denselben Funktionsumfang. Betrachtet man die Programme jedoch genauer, werden schnell die Unterschiede ersichtlich.

Adobe Firefly

Der von Adobe bereitgestellt Bildgenerator punktet auf der einen Seite mit seiner benutzerfreundlichen Oberfläche, zum anderen kann man sich bei diesem Programm darauf verlassen, dass alle für das Training der Modelle verwendeten Bilder von Adobe lizensiert sind, da sie ihre umfassende Stocksammlung verwendet haben. Leider gibt es deshalb auch keine große Anzahl an Modellen und viele kreative Funktionen gehen im vereinfachtem UI verloren.

Midjourney

Der wohl bekannteste Bildgenerator punktet in der Qualität und Geschwindigkeit mit der Bilder generiert werden können. Leider ist die Anwendung bisher nur über Discord nutzbar und die Erstellung eines Prompts funktioniert nicht so einfach wie bei anderen Bildgeneratoren. Auch ist es hier nicht möglich das Programm zu individualisieren und es hat eine steile Lernkurve. Auch kann hier nicht sichergestellt werden, dass alle verwendeten Bilder zum Training des Modells eine entsprechende Lizenz hatte.

DALL-E

Der Bildgenerator von Open AI ist seit kurzem auch direkt in ChatGPT einsetzbar. Hier funktioniert die Erstellung eines Bildes einfach über die Eingabe eines Promptes mit der Aufforderung, dass ein Bild benötigt wird. Somit kann die Anwendung sehr niederschwellig benutzt werden und es gibt keine steile Lernkurve. Hierbei hat man leider nur wenige Möglichkeiten den Prompt spezifischer zu gestalten oder einzelne Bereiche explizit zu gewichten. Auch kann hier nicht sichergestellt werden, dass alle verwendeten Bilder zum Training des Modells eine entsprechende Lizenz hatte.

Leonardo AI

Ein Bildgenerator der den Nutzern eine große Freiheit bei der Erstellung eines Promptes gewährleistet. Hier können verschiedene Erweiterungen aktiviert werden und ein Prompt mithilfe von anderen Bildern erweitert werden. Leider sorgt dies für eine unübersichtliche Benutzeroberfläche und eine sehr steile Lernkurve, bis es zu ersten guten Ergebnissen kommt. Jedoch kann man auf dieser Plattform auch eigene kleine Modelle trainieren und diese mit anderen Nutzern teilen. Dies sorgt für eine große Vielfalt an spezialisierten Modellen. Jedoch kann auch hier nicht sichergestellt werden, dass alle verwendeten Bilder zum Training des Modells eine entsprechende Lizenz hatte.

Stable Diffusion als Lokale Lösung

Zwar bieten die oben genannten Bildgeneratoren einen einfachen Zugang zu KI-generierten Bildern, jedoch sind diese auch alle an eine Internetverbindung und an die Serverstruktur eines (meist amerikanischen) Unternehmens gebunden. Dies hat zur Folge, dass gerade bei der Eingabe von unternehmensspezifischen Daten nie zu 100 Prozent sicher beantwortet werden kann, wie diese Daten am Ende weiterverwendet werden. Weiterhin gibt es neben möglichen Sicherheitsbedenken natürlich auch noch datenschutzrechtliche Aspekte, welche nicht vernachlässigt werden dürfen. Viel besser wäre stattdessen eine lokale Lösung, die nur unternehmensintern verwendet werden kann. Hier kann die lokale Version von Stable Diffusion (A1111) verwendet werden. Dieser Bildgenerator kann über einen Docker lokal auf einem Server im Unternehmensnetzwerk oder bei leistungsstarken Computern (mindestens 4 GB dedizierte Grafikkartenspeicher) auch lokal installiert werden. Zwar müssen hier die Parameter wie Modelle, Stilvorgaben oder Erweiterungen extra installiert werden, jedoch ermöglicht das Programm durch seine offene Gestaltung eine Vielzahl an Möglichkeiten, um es genau an die Bedürfnisse des Unternehmens anzupassen.

Stable Diffusion

Mehr Erfahren

Im Folgenden werden einige Punkte genauer erläutert:

Modelle

Basismodelle für Stable Diffusion, welche die Grundlage für die generierten Bilder sind, können auf unterschiedlichen Plattformen im Netz bezogen werden. Huggingface bietet hier eine große Vielfalt an Modellen, welche für verschiedene Anwendungsfälle optimiert sind. Hier sollte man immer darauf achten nur Dateien mit der Endung .safetensor herunterzuladen.

Erweiterungen

Innerhalb von Stable Diffusion gibt es schon eine Datenbank mit verschiedenen Extensions. Über die Web Benutzer Oberfläche können diese ausgewählt und direkt installiert werden. Zu den wichtigsten Erweiterungen gehören:

  • ControlNet um verschiedene Bildvorlagen als Zusatzinformation zum prompt zu verwenden
  • Regional Prompter, um bestimmte Regionen eines Bildes bestimmte Prompts zuzuweisen
  • Image Browser, zum einfachen durchsuchen und vergleichen von generierten Bildern
  • Reactor, zum erstellen von Personenbezogenen KI Bildern

Zusatz-Modelle

Neben den Basismodellen gibt es bei Stable Diffusion auch noch die Möglichkeiten kleine Modelle wie beispielsweise LoRa’s oder Embeddings zu verwenden, welche dem erstellten Bild weitere Wichtige Informationen geben können. So kann man beispielsweise ein Basismodell für Realismus und ein Zusatzmodell für 360Grad Bilder verwenden um ein Fotorealistisches 360Grad Bild zu erstellen. Möchte man jedoch eine Realistische Kopftextur muss man nicht das komplette Basismodell austauschen, sondern kann einfach nur das Zusatzmodell für eine Kopftextur aktivieren.

Beispiele aus der Praxis

Neben den technischen Aspekten ist es natürlich auch wichtig zu wissen für welche Anwendungsfelder solche Bildgeneratoren verwendet werden kann. Deshalb gibt es hier einige Beispiele wie Unternehmen schon heute Bildgeneratoren in ihre Arbeitswelt integriert haben.


Brainstorming Tool


Häufig hilft die Visualisierung eines Gedanken schon dabei um sich schnell und effizient auf eine Richtung zu einigen. Hier helfen Bildgeneratoren, da man mit einem einfachen Prompt starten und diesen immer weiter mit Inhalten füttern kann, bis man mit dem Endergebnis zufrieden ist. Von hier können dann Moodboard, oder Konzepte erstellt werden.


3D Texturen


Gerade für Objekte im Hintergrund reichen häufig Texturen mit geringer Auflösung. Hier können Bildgeneratoren helfen indem sie entweder ganze PBR Texturen erzeugen oder einzelne Bildelemente über Projektionmapping auf 3D Geometrie projizieren.


Bildbearbeitung


Sehr schnell gab es Anwendungsfälle in der Bildbearbeitung, ganz vorne mit dabei Photoshop mit seiner KI-Bilderweiterung oder dem Ersetzen von ganzen Bildelementen. So können Bilder schneller an die unterschiedlichen Bedürfnisse der Bildgestaltung angepasst werden.


Erstellung von Medien Content


Zwar kann die Auflösung und Schärfe von vielen KI generierten Bildern noch nicht mit der von Kameras mithalten, jedoch für Online oder Flyer Content reicht es schon. Überall wo kleine Bilder gefragt sind kann man auch KI generierte Inhalte verwenden, gerade wenn es Landschaften, Architektur oder Objekte zeigen soll, da hier nicht der Uncanny Valle Effekt eintreten kann.

Fazit

Schlussendlich kann man festhalten, dass fast alle Bildgeneratoren einen sehr ähnlichen Funktionsumfang bieten. Ein großer Unterschied liegt zum einen in der Art und Weise des Hostings und zum anderen in der Möglichkeit, ein Tool zu erstellen, welches auch langfristig den Bedürfnissen des Unternehmens gerecht werden kann. Hier punktet natürlich Stable Diffusion durch die Möglichkeit, es auch lokal zu nutzen. Jedoch geht dies natürlich auch immer mit der Wartung des Programms einher. Somit ist es wichtig, dass Unternehmen vor der Einführung von Bildgenerierungstools sich genau überlegen, wofür sie dieses Tool eigentlich benötigen. Bei uns am Mittelstand-Digital Zentrum Franken haben Sie die Möglichkeit, sich durch Online-Angebote wie unseren Stable Diffusion Kurs oder durch Offline-Angebote im Bereich der Bildgeneratoren weiterzubilden. Unsere wissenschaftlichen Mitarbeiter stehen auch immer gerne für ein Fachgespräch zur Verfügung.

 

Erfahre mehr

Neben interessanten Blogartikeln und Fachbeiträgen bietet das Mittelstand-Digital Zentrum Franken ebenso Workshops, Schulungen, E-Learnings und weitere hilfreiche Materialien zur Unterstützung von mittelständischen Unternehmen. 
Hier geht's zu unseren Events

Ansprechpartner

Bildungsmanagement

Hendric Rahm

E-Mail:  hendric.rahm@hs-ansbach.de