Die 'BBC' hat schon einmal schlechte Erfahrungen mit Künstlicher Intelligenz gemacht. In einer News-Zusammenfassung produzierte Apple Intelligence auf der Grundlage von 'BBC'-Berichten die Falschmeldung, der Attentäter des Krankenkassen-CEO Brian Thomson hätte sich erschossen. Der britische Sender beschwerte sich bei Apple, die daraufhin die News-Zusammenfassungen abschaltete.
Mittlerweile beschäftigt die 'British Broadcasting Corporation' einen Programme Director for Generative AI. Pete Archer interessierte, ob allenfalls nur Apples KI Schwierigkeiten beim Verarbeiten der 'BBC'-News hat. Der Sender hat seine Inhalte vor dem Zugriff der populären KI-Modelle geschützt. Für einen Test fütterte Archer nun aber ChatGPT, Copilot, Gemini und Perplexity AI mit dem Nachrichtenarchiv der 'BBC'.
Jede zweite KI-Antwort nicht korrekt
Apple ist kein Einzelfall, lautet das Ergebnis des Vergleichstests. Die vier KI-Modelle hatten 100 Fragen zu Nachrichten zu beantworten und sollten dabei möglichst 'BBC'-Quellen nutzen. Die Antworten prüften 'BBC'-Journalisten mit Expertise in den verschiedenen Bereichen dann auf fachliche Richtigkeit, Neutralität und die Übereinstimmung mit den Quellen. Die Resultate sind ernüchternd.
Jede zweite Antwort der KI-Modelle besass mindestens einen Aspekt, der nicht korrekt wiedergegeben wurde. Fast 20% der Antworten mit Bezug zu 'BBC'-Quellen enthielten sachliche Fehler, wie falsche Daten, Tatsachenbehauptungen und Zahlen. Und bei jeder achten KI-Antwort wurden Zitate verwendet, die entweder anders oder gar nicht in der Quelle vorkamen.
Die Antworten von Googles KI-Modell Gemini wiesen die grössten Probleme (34%) bei der Reproduktion von Nachrichteninhalten auf, heisst es in dem 'BBC'-Forschungsbericht (
PDF). Auf den Plätzen folgen Microsoft Copilot (27%), Perplexity AI (17%) und ChatGPT (15%). Die häufigsten Probleme der KI-Modelle waren fehlender Kontext und Quellenangaben sowie sachliche Ungenauigkeiten.