Der AI Act der Europäischen Union zielt auf transparente und vertrauenswürdige KI ab. Die Regulierung sei ein wichtiger Schritt zur Entwicklung verantwortungsvoller KI, sagt Martin Vechev, Professor an der ETH Zürich. Bislang aber würde eine klare technische Interpretation der rechtlichen Anforderungen fehlen.
Das erschwere sowohl die Entwicklung rechtskonformer KI-Modelle als auch die Beurteilung, ob Modelle den EU-Vorschriften entsprechen, so Vechev, Mitgründer des KI-Forschungslabors Insait sowie des ETH-Spin-offs Latticeflow AI. Petar Tsankov, Mitgründer und CEO von Latticeflow AI, ergänzt: "Der Erfolg der Umsetzung des Gesetzes wird jedoch wesentlich davon abhängen, wie gut es gelingt, konkrete, präzise technische Anforderungen und Compliance-orientierte Benchmarks für KI-Modelle zu entwickeln."
Gemeinsam haben die ETH Zürich,
Insait und
Latticeflow nun ein Framework veröffentlicht, das eben diese Benchmarks bieten soll. So liessen sich Large Language Models (LLM) nach den Anforderungen des AI Acts hin überprüfen. "Wir laden KI-Forschende, Entwickler und Regulierungsbehörden ein, dieses Projekt mit uns weiterzuentwickeln", so Vechev.
Test von zwölf Sprachmodellen
Um LLMs zu bewerten, haben die Forschenden laut den Angaben zunächst Schlüsselbegriffe anhand der Prinzipien des AI Acts definiert. Dazu gehören etwa Datenschutz, Diskriminierungsfreiheit und Transparenz. Aus diesen Prinzipien haben sie technisch Anforderungen abgeleitet und mit mehreren Evaluationsmethoden verbunden.
Gleichzeitig haben sie auf diese Weise einige Modelle von grossen Anbietern wie OpenAI, Meta, Google und Anthropic überprüft. Mehrere Modelle hätten bei den Benchmarks für Cybersicherheit und Fairness nur etwa 50% erreicht. Auf der positiven Seite würden die meisten Modelle in den Kategorien schädliche Inhalte und Toxizität gut abschneiden. Anforderungen wie Urheberrecht und Datenschutz seien aber schwer zu bewerten, heisst es weiter.
Dies zeige, dass die EU-Verordnung möglicherweise weiter spezifiziert werden müsse, um verlässliche technische Prüfungen zu ermöglichen. "Unser Vergleich dieser grossen Sprachmodelle zeigt, dass es besonders bei Anforderungen wie Robustheit, Vielfalt und Fairness noch Mängel gibt", sagt Robin Staab, Informatiker und Doktorand in Vechevs Forschungsgruppe.
Über EU-Regulierung hinaus
"Wir sehen unsere Arbeit als Anstoss, um die Umsetzung des AI Acts zu ermöglichen und um praktikable Empfehlungen für LLM-Anbieter zu erhalten", sagt Martin Vechev. Die Methodik reiche aber über den EU AI Act hinaus, da sie auch auf andere, vergleichbare Gesetzgebungen anpassbar sei. "Letzten Endes wollen wir eine ausgewogene Entwicklung von LLMs anstossen, die sowohl technische Aspekte wie die Leistungsfähigkeit als auch ethische Aspekte wie Fairness und Inklusion berücksichtigt", ergänzt Petar Tsankov.
Die Forschenden haben ihr Benchmark-Tool COMPL-AI auf einer Github-Webseite als Open Source zur Verfügung gestellt. Dort lassen sich die Ergebnisse und Methoden weiter analysieren und visualisieren.
Literaturhinweis: Guldimann, P, Spiridonov, A, Staab, R, Jovanović, N, Vero, M, Vechev, V, Gueorguieva, A, Balunović, Misla, Konstantinov, N, Bielik, P, Tsankov, P, Vechev, M.
"COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act." Dieser Artikel erschien zuerst auf 'ETH News' und wurde für die Publikation auf inside-it.ch angepasst.