Der amerikanische Hyperscaler AWS hat zum Auftakt seiner Entwicklerkonferenz Reinvent 2024 zahlreiche Ankündigungen zu neuen Produkten gemacht. An seiner Keynote in Las Vegas zeigte AWS-CEO Matt Garman, welche Neuerungen Kunden, Partner sowie Entwicklerinnen und Entwicklern künftig erwarten dürfen. Besonders hervorgestochen ist dabei die Ankündigung von Amazon Nova, einer neuen Familie von Foundation Models.
Die Basismodelle dienen als Ausgangspunkt für die Entwicklung von KI-Modellen. Der Begriff Foundation Model wurde ursprünglich von der Forschung geprägt, um Machine-Learning-Modelle zu beschreiben, die mit generalisierten und unbeschrifteten Daten trainiert wurden. Damit sollen die Modelle in der Lage sein, eine Vielzahl an allgemeinen Aufgaben zu erfüllen.
Vier neue Basismodelle
Insgesamt hat Amazon vier textgenerierende Basismodelle vorgestellt. Die Versionen Micro, Lite und Pro sind für AWS-Kunden ab sofort verfügbar, die Premier-Version soll dann im Laufe von 2025 auf den Markt kommen, sagte Amazon-CEO Andy Jassy bei der Präsentation auf der Bühne vor den anwesenden Zuschauerinnen und Zuschauern.
Die Nova-Modelle sind gemäss Amazon für 15 Sprachen optimiert. Dabei unterscheiden sich die Modelle vor allem durch ihre jeweiligen Fähigkeiten und Grössen. So bietet Micro, das nur Text aufnehmen und ausgeben kann, die niedrigste Latenz von allen vorgestellten Modellen. Lite hingegen soll auch Bild-, Video- und Texteingaben verarbeiten können.
Die Pro-Version soll die beste Kombination aus Genauigkeit und Geschwindigkeit mit sich bringen und gleichzeitig auch kostengünstig sein, während Nova Premier das leistungsfähigste Modell für komplexe Aufgaben darstellt. Pro und Premier können beide ebenfalls Texte, Bilder und Videos analysieren. Die Flaggschiffmodelle sollen sich besonders für Aufgaben wie die Analyse von Dokumenten und die Zusammenfassung von Tabellen, Besprechungen und Diagrammen eignen.
Bei der Präsentation behauptete Jassy, dass die Nova-Modelle zu den schnellsten ihrer Klasse gehören und gleichzeitig auch einen preiswertesten Betrieb erlauben. Die verfügbaren Modelle sind auf Amazons KI-Entwicklungsplattform Bedrock abrufbar.
Auch Sprachsteuerung möglich
Neben den vier textgenerierenden Foundation Models hat AWS mit Nova Canvas zusätzlich ein Modell zur Bilderzeugung vorgestellt. Mit Canvas können Nutzende Bilder mit Hilfe von Prompts erstellen und bearbeiten. Ähnliches kann auch Nova Reel, ein Modell zur Videoerzeugung. Reel kann aus Eingabeaufforderungen oder Referenzbildern Videos von bis zu sechs Sekunden erstellen.
Zudem sollen 2025 zwei weitere Nova-Modelle eingeführt werden, darunter ein Sprachmodell und ein natives multimodales Modell. Das Speech-to-Speech-Modell soll Eingaben in natürlicher Sprache verstehen und auch verbale und nonverbale Hinweise interpretieren können.
Das Any-to-Any-Modell soll zukünftig in der Lage sein, sowohl Text als auch Bilder, Audio und Video als Ein- und Ausgabe zu verarbeiten. Das wird laut Amazon die Entwicklung von Anwendungen vereinfachen, bei denen ein und dasselbe Modell für eine Vielzahl von Aufgaben verwendet werden kann.
Interessenbindung: Der Autor wurde von AWS an die Reinvent nach Las Vegas eingeladen (Flug, Hotel).