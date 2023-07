In den letzten Jahren haben viele Unternehmen grosse Datenmengen gesammelt. Der vermeintliche Datenschatz verursacht jedoch oft hohe Kosten – mit wenig echtem Ertrag. Das muss nicht sein: «DataOps plus MLOps» heisst die Zauberformel, die mit dezidierten Pipelines und qualitativ hochwertigen Datensätzen kontinuierliche Wettbewerbsvorteile erzielt. Laut einer Studie von McKinsey können Unternehmen allein durch DataOps die Produktivität um 10 Prozent steigern, die Time-to-Market gar um 30 Prozent reduzieren. Statt aufwendig riesige Datenschätze auszuheben, erschafft eine DataOps-MLOps-Pipeline die Ausbeute quasi inhouse. So entsteht aus Rohdaten ein echter Wert.

So profitieren Unternehmen von Machine Learning

«DataOps und MLOps machen Unternehmen im Zeitalter von KI wettbewerbsfähig», so Heiko Faller MD Enterprise Solutions bei Ergon . Machine Learning (ML) löst Probleme, bei denen die traditionelle Software-Entwicklung scheitert. Ein Beispiel ist die automatische Spracherkennung: Vorprogrammierter Quellcode bildet die Eigenheiten der menschlichen Sprache nie abschliessend ab. Ein ML-Modell hingegen lernt laufend dazu. Damit der Sprung vom technischen Prototyp zum produktiven Einsatz jedoch funktioniert, sind die Datenaufbereitung, die Auswahl und das Training des ML-Modells essenziell. Hier setzen DataOps und MLOps an.

Strukturiertes Vorgehen dank dedizierter Pipelines

DataOps und MLOps basieren auf dem Konzept von Pipelines. Auf der einen Seite der Pipeline stehen die Rohdaten, auf der anderen Seite fertige Reports, Dashboards und ML-Modelle. Innerhalb der Pipeline machen wohldefinierte Transformationsschritte die gewünschten Ergebnisse reproduzierbar. Ein Beispiel: Ein Unternehmen entwickelt ein eigenes Voice-User-Interface, um eine Applikation mit Sprachbefehlen zu bedienen. Dazu passt es mit einer MLOps-Pipeline ein bestehendes Sprachmodell auf den eigenen Anwendungsfall an. Zunächst liest es Trainingsdaten ein und transformiert diese je nach Anforderung. Mit diesen Daten lässt sich ein bestehendes Sprachmodell auf den neuen Anwendungsfall anwenden. Ein solches Transfer Learning bringt auch mit wenig Trainingsmaterial gute Ergebnisse.

Datenqualität statt -quantität

Anwendungsspezifische Daten sind aufwendig und teuer. Darum ist die Datenqualität meist wichtiger als die Quantität. Wichtig sind Metainformationen, mit denen die Rahmenbedingungen der Datenaufnahme dokumentiert sind. Im Sprachmodell beeinflussen zum Beispiel Variablen wie das Wetter die Genauigkeit. Dazu bietet DataOps die nötigen Konzepte und Tools: Eine DataOps-Pipeline kann Datensätze aus verschiedenen Quellen einlesen, filtern und in ein einheitliches Format bringen. Sie ermöglicht zudem das Visualisieren von Statistiken wie der Worthäufigkeit.

Dauerhaft in Produktivumgebungen eingebunden

Für die Integration eines Modells in die Produktivumgebung braucht es meist weitere Anpassungen. Wird das Sprachmodell zum Beispiel statt in der Cloud auf einem mobilen Endgerät ausgeführt, braucht die MLOps-Pipeline einen weiteren Schritt für das Konvertieren und das Testen des Modells. Häufig zeigt sich auch erst im produktiven Einsatz, welche Randbedingungen zu wenig berücksichtigt wurden. Um ein Modell kontinuierlich zu verbessern, müssen die Produktivdaten entsprechend verwendbar sein. Für ML-Modelle ist überdies ein eigener Release-Zyklus sinnvoll, unabhängig vom Release-Zyklus der eigentlichen App. Wenn sich eine Veränderung in den Daten abzeichnet, kann man so rechtzeitig reagieren.

Datenprojekte: «Start small and agile»

Wer DataOps/MLOps nutzen will, startet am besten mit einem klaren, überschaubaren Business Case in einem kleinen Team. Wie bei der agilen Software-Entwicklung gilt es, schnell eine erste produktive Version in Betrieb zu nehmen. Dies ist leicht umsetzbar und belegt mit jedem gelungenen Projekt seinen Nutzen. Von der Datenerfassung bis zur produktiven Integration des ML-Modells: Mit strukturierten DataOps-MLOps-Pipelines werden alle Prozessschritte nachhaltig und nachvollziehbar durchgeführt – deutlich effizienter und günstiger als eine Big-Data-Schatzsuche.

