"Zeichne mir ein Schaf"

8. Januar 2021, 13:32
image

OpenAI zeigt eine neue Variante des Models GPT-3. Sie kann aus Sprach-Input erfundene Bilder zeichnen – etwa einen Fuchs im Stil von Vincent van Gogh.

Die Non-Profit-Organisation OpenAI hat Einblick in ein neues KI-Projekt gewährt, das auf dem neuronalen Netzwerk GPT-3 basiert. Dieses ist in der Lage, basierend auf Textinput automatisch hunderte von Bildern zu erzeugen.
Das KI-Modell namens Dall·E, in Anlehnung an den Künstler Salvador Dalí und Pixars Wall-E, kann realistische Bilder von Objekten, Tieren und Szenen erzeugen. Für das Training des Modells sei ein Datensatz von Text-Bild-Paaren verwendet worden. Somit könne Dall·E Bilder aus Textbeschreibungen generieren, heisst es in einem Blogeintrag.
Ein Beispiel aus dem Blog zeigt eine "Illustration eines Baby-Rettichs in einem Tutu, das mit einem Hund spaziert". Auf diesen Input hin "zeichnet" Dall·E Bilder in verschiedenen Stilen. Das Modell kann auch realistische Bilder erzeugen: etwa ein Wohnzimmer mit zwei Sesseln, einem Kamin und einem Gemälde an der Wand. 
image
Die KI kann Objekte vermenschlichen. Quelle: OpenAI
Auf der Website lassen sich verschiedene Beispiele anzeigen. Dall·E generiert auf Wunsch das Wohnzimmer mit einem Gemälde des Kolosseums oder von Yoda. Für jedes Motiv zeige Dall·E eine Vielzahl von Interpretationen an. "Während das Gemälde fast immer in der Szene vorhanden ist, gelingt es Dalle·E manchmal nicht, den Kamin oder die richtige Anzahl von Sesseln zu zeichnen", schreiben die Forscher.

Kombination von verschiedenen Konzepten

Das Modell verfüge über eine Vielzahl von Fähigkeiten, einschliesslich der Erstellung von vermenschlichten Versionen von Tieren und Objekten und der plausiblen Kombination von nicht verwandten Konzepten, schreiben die Forscher. Dall·E könne durch den Input mit natürlicher Sprache unterschiedliche Ideen kombinieren – "ein Elefant aus Tomaten" oder "eine Schnecke aus Tuba". 
image
Quelle: OpenAI
Es gelinge Dall·E nicht immer, die Formen der beiden Objekte zu berücksichtigen, wenn er entscheide, wie sie kombiniert werden. Je mehr Objekte hinzugefügt würden, desto eher mache Dall·E Fehler. 
Auch ein für den Menschen sehr einfaches Beispiel zeigt die Grenzen der KI.  Dall·E sollte für das Beispiel unten ein Bild mit einem Stapel aus drei Würfeln generieren. Dabei sollte der oberste rot, der mittlere grün und der unterste blau sein. 
image
Nur wenige Beispiele zeigen die geforderte Anzahl und Farben der Würfel. Quelle: OpenAI
Über die technischen Details verraten die Forscher noch wenig, wollen aber in einem wissenschaftlichen Paper bald weitere Informationen liefern.
Dall·E kann Millionen von Bildern generieren, aber noch scheint es mehr Spielerei als ein nützliches Tool. Dennoch gebe es Anwendungsfälle für die KI, so eine KI-Forscherin zu 'The Register'. Etwa liessen sich realistische Bilder als Alternative von Stock-Fotos generieren.
Man sei aber noch weit davon entfernt, Fotografen und Künstler mit einem eigenen Stil und einer kreativen Vision zu ersetzen, sagt sie weiter. Das liege daran, dass Maschinen in diesem Stadium Schwierigkeiten hätten, wirklich neue Ideen zu entwickeln und auszuführen. Häufig basiere ihr Output stark auf Trainingsdaten aus der Vergangenheit und werde erst interessant, wenn er von einem menschlichen Künstler angereichert werde. 

Loading

Mehr zum Thema

image

USA gegen Russland: Wahl um ITU-Präsidium ist entschieden

Die International Telecommunications Union (ITU) der UNO wird neu von einer Amerikanerin geleitet. Doreen Bogdan-Martin setzte sich gegen einen Russen durch.

publiziert am 29.9.2022
image

Ransomware-Banden kaufen Erstzugänge extern ein

Für nur gerade 10 Dollar können sich Cyberkriminelle auf Darkweb-Flohmärkten Zugänge zu Systemen kaufen. Damit können sie dann Schlimmes anrichten.

publiziert am 29.9.2022
image

Schweiz: Wettbewerbsfähigkeit top, E-Government flop

In der aktuellen IMD-Studie steigt die Schweiz in Sachen digitale Wettbewerbsfähigkeit in die Top 5 auf. Dahingegen schwächelt sie im Bereich E-Government.

publiziert am 29.9.2022
image

Googles Suchfunktion erhält neue Features

Die visuelle Suche wurde verbessert und es gibt neu einen Suchoperator, mit dem sich Ergebnisse aus der unmittelbaren Umgebung anzeigen lassen.

publiziert am 29.9.2022