Text: Grit Wolany; Bild: Draw Things App / Flux Dev kombiniert mit dem Flux-Film-Foto LoRa
Am 19. August 2024 fand die erste Veranstaltung der neuen Bot Appetit AI Lunch Learning Reihe statt.
Dieses Format möchte unkompliziert spannende Inputs zu KI und ihre Auswirkungen aufzeigen und den gemeinsamen interdisziplinären Austausch fördern.
Bei der ersten Veranstaltung stand das Thema „Bild KI“ im Fokus. Ein perfektes Timing wie sich zeigte, denn nur kurz vorher hat das Team der Black Forest Labs in Freiburg das neue Bild KI Modell Flux veröffentlich.
Flux kann besonders fotorealistisch wirkende Bilder liefern, hat ein gutes Textverständnis und kann auch mit Schrift umgehen.
Die 3 Flux Modelle
Flux gibt es momentan in 3 verschiedenen Versionen:
Flux.1 Schnell
– das kleinste und schnellste Modell
– frei verfügbar unter Apache 2 Lizenz
– läuft auch lokal (z.B. mit Draw Things, Forge, ComfyUI)
– kann bspw. auf Huggingface Spaces Flux.1 SCHNELL oder auf Fastflux.ai getestet werden
Flux.1 Dev
– das leistungsstärkstes Modell
– entspricht qualitativ dem Flux.1 Pro Modell
– frei verfügbar für nicht-kommerzielle Anwendungen
– läuft auch lokal (z.B. mit Draw Things, Forge, ComfyUI)
– kann bspw. auf Huggingface Spaces Flux.1 DEV getestet werden
Flux.1 Pro
– das leistungsstärkstes Modell
– nur via API oder bei ausgewählten Partnern kommerziell verfügbar
– massgeschneiderte Unternehmenslösungen möglich
Meine ersten Versuche zeigen die Möglichkeiten auf, aber wie auch bei den anderen Bild KIs kommt man schnell an Grenzen, wenn es spezifischer oder lokaler wird.
Das Toni Areal ist entweder eine hübsche weisse Frau oder eine austauschbare Architektur. DJ Bobo ist im Datenset offenbar immer mit schwarzen Männern verknüpft.
Ein grosser Vorteil bei Flux ist die Möglichkeit, eigene finegetunte Modelle (LoRas) zu trainieren und anzuwenden. Diese Low-Rank Adaptation Modelle können beispielsweise auf Personen, Objekte oder Stile trainiert werden und dann in Kombination mit den Flux Modellen zum Einsatz kommen.
Beim Titelbild dieses Artikels nutze ich beispielsweise das Flux-Film-Foto LoRa der Künstlerin Araminta K in Kombination mit dem Flux.1 DEV Modell.
Flux x Grok
Flux schlug soforthohe Wellen – zum einen, weil hinter den Freiburger Black Forest Labs die ursprünglichen Entwickler der sehr beliebten Open Source Bild KI Stable Diffusion stehen. Zum anderen, weil Flux durch einen Deal mit X.xom Besitzer Elon Musk in dessen KI Modell Grok integriert wurde – zu grossen Teilen unreguliert bzw nur schwach geschützt, dass sich die Bild KI leicht austricksen liess.
Dies bescherte uns dann Bilder wie eine leichtbekleidete Kamala Harris, Mickey Mouse mit Sturmgewehr, „Swifties for Trump“ Fakebilder oder Trump gemeinsam Harris am Steuer eines 9/11 Flugzeug Richtung Twin Towers.
Auch wenn man teilweise immer noch sieht, dass es sich um generierte Bilder handelt, so ist die Kombination „Qualitativ guter Bildgenerator mit direkter Social Media Anbindung bei fast komplett fehlender Sicherheitsmassnahmen zu einem sehr kompetitiven Preis“ so noch die da gewesen.
Bei Midjourney wurde vor einigen Monaten entschieden, im Hinblick auf die US Wahlen keine Prompts mit aktiven Politiker:innen mehr zuzulassen. OpenAI hielt ihr Sora Video Modell extra wegen der Wahlen zurück. Andere Videomodelle haben zumindest Sicherheitsmassnahmen eingebaut.
Es ist etwas enttäuschend, dass die Entwickler dieser leistungsstarken Software offenbar wenig aus ihrer Vergangenheit gelernt haben und die Verantwortung offensichtlich gerne auf die Nutzer:innen übertragen.
Auch beim Stable Diffusion Modell wurden Schwachpunkte ignoriert und Missbrauch der Software in Kauf genommen.
TechPolicy Press
LAION-5B, Stable Diffusion 1.5, and the Original Sin of Generative AI
von Eryk Salvaggio, 2.1.2024
Teil 2 der Bot Appetit Bild KI News Zusammenfassung widmet sich den Neuerungen bei Midjourney sowie weiteren empfehlenswerten Bild KI Anwendungen.