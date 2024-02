Apple-Mitarbeitende haben zusammen mit einem Team von Wissenschaftlern der University of California, Santa Barbara, eine neue, KI-basierte Open-Source-Bildbearbeitungssoftware namens "MGIE" entwickelt. Die wissenschaftlichen Details findet man in einem auf Arxiv veröffentlichten Papier

MGIE steht als Abkürzung für "MLLM-Guided Image Editing". MLLM wiederum ist die Abkürzung für "Multimodal Large Language Models". MLLMs sind vereinfacht ausgedrückt KI-Modelle, die sowohl Sprache als auch Bilder verarbeiten und interpretieren können. Daher sollen sie sich besonders gut dazu eignen, Sprachbefehle zu interpretieren und sinngemäss auf Bilder anzuwenden.

Die Software, die aber vorerst noch Prototypcharakter hat, kann laut den Autoren vieles von dem tun, was man auch mit Gimp oder Photoshop tun könnte. Man kann Bilder vergrössern und verkleinern, beschneiden, rotieren, schärfen, Farben und Kontraste ändern und Filter anwenden. Man kann auch einzelne Objekte im Bild identifizieren und manipulieren, neue Objekte ins Bild integrieren, vorhandene entfernen und so weiter. Objekte oder Regionen in einem Bild können einzeln bearbeitet werden.

Eine Besonderheit von MGIE ist es, dass das Tool aufgrund einer Texteingabe nicht nur ein Bild verändert, sondern der Anwenderin oder dem Anwender auch seine Interpretation der ursprünglichen Texteingabe anzeigt. Aus "Mach den Himmel blauer" wird so beispielsweise "Erhöhe die Farbsättigung der Region Himmel um 20%". Aufgrund dieser Rückmeldung können dann weitere Eingaben verfeinert werden, um das Ergebnis zu testen.