Tagsüber ist er CTO beim Zürcher Startup Deepjudge, nachts arbeitet Yannic Kilcher am Open Source Chatbot Open Assistant. Diesen entwickelte er mit seinem Team vor allem deshalb, weil ihn das Vorgehen von ChatGPT-Entwickler OpenAI störte. Weshalb der promovierte ETH-Absolvent, der auch schon bei Google im KI-Team arbeitete, so viel Freiwilligenarbeit leistet, erzählt er in diesem Interview.

Wie lange beschäftigen Sie sich schon mit Künstlicher Intelligenz? Im Bachelorstudium habe ich die ersten Vorlesungen zum Thema besucht. Später beschäftigte ich mich in meiner Doktorarbeit mit neuronalen Netzen und Deep Learning. Das Thema beschäftigt mich also etwa seit rund 10 Jahren.

ChatGPT gibt's aber erst seit einem halben Jahr. Was hat sich seitdem verändert? ChatGPT hat KI massentauglich gemacht. Wer sich schon länger mit KI beschäftigt hat, wusste, was möglich ist. ChatGPT hat einen Wow-Effekt ausgelöst und viele Menschen erst begreifen lassen, was mit Technik möglich ist.

Haben Sie als KI-Spezialist erwartet, dass ChatGPT so rasant wachsen würde? Nein, das hat auch mich überrascht. Ich hätte das weit langsamer erwartet, aber es ist nun mitten in der Gesellschaft.

Es ist nicht nur mitten in der Gesellschaft, sondern wird auch in der Industrie adaptiert. Hunderte Software-Anbieter haben ChatGPT bei sich integriert. Es gab noch nie eine Applikation, die so schnell so viele User hatte, wie ChatGPT. Da ist es nur natürlich, dass das alle bei sich integrieren wollen – egal, ob es sinnvoll ist oder nicht.

Und auch Sie wollen auf der KI-Welle mitschwimmen und bieten mit dem Open Assistant ebenfalls einen Chatbot. Warum? Die Idee entstand kurz nach dem Start von ChatGPT. Ich fand jedoch, dass ein solcher Chatbot auch mit offenem und transparentem Vorgehen möglich sein muss. OpenAI begann zwar ursprünglich als offenes Unternehmen, ist aber nach und nach zu einem normalen Produktanbieter geworden. Sämtliche Modelle, sämtliche Trainingsdaten können weder analysiert noch geprüft werden. Und noch etwas, fast wichtigeres…

… Ja? Wir wissen nicht mal, ob die Prompts, die wir eingeben, auch so ankommen. OpenAI hat in der Vergangenheit auch schon Prompts verändert, um bestimmte Ziele zu erreichen. Das ist unbefriedigend und stört mich.

Wie gingen Sie also vor? Nun, die Lösung war naheliegend: Open Source. Das ist kontrollierbar, viel sicherer und transparent. Was wir noch brauchten, war eine Community.

Wo kam die her? Online. Ich habe einen Youtube-Kanal mit 200'000 Followern, darüber haben wir die meisten Mitarbeitenden rekrutiert. Schliesslich zählten wir ein Team von 250 Entwicklerinnen und Entwicklern, die uns geholfen haben, die Plattform zu bauen, über die wir schliesslich die Daten sammelten.

Wie viel Daten braucht es, damit ein Chatbot funktioniert? Gar nicht so viele. Wir schätzten, dass es 50'000 bis 100'000 Datenpunkte braucht. Das wären je 10 von 10'000 Menschen. Wir hielten das für absolut machbar.

Hat es funktioniert? Ja. 13'000 Freiwillige haben geholfen, insgesamt 600'000 einzelne Datenpunkte zusammenzutragen. Diese verteilten sich auf über 10'000 DataTrees, Datenbäume. Also Konversationen, die sich immer mehr verzweigten.

Haben die 13'000 Freiwilligen, die 250 Entwicklerinnen und Sie selbst je Geld erhalten oder machen das alle in ihrer Freizeit auf ehrenamtlicher Basis? Alle arbeiten freiwillig, es gibt nicht mal eine Firma oder eine Organisation dahinter. Wir haben uns dem deutschen Projekt Laion angehängt, das für den formellen Rahmen sorgt. Einige wenige Sponsoren gibt es, die haben uns Hardware zur Verfügung gestellt. Mehr nicht.

Sie bleiben eine Non-Profit-Organisation? Ja. Wir hatten zwar viele Angebote von Venture Capitalists, aber da hatten wir keine Lust drauf. Wir haben das gemeinsame Ziel, ein offenes Datenset zu generieren. Das ist unser wichtigstes Produkt. Dafür sammeln wir auch weiter Daten, um es weiter zu verbessern.

Also ist gar nicht der Chatbot an sich das wichtigste? Genau, es sind unsere Daten. Unsere Idee ist, dass sie genommen werden, um weitere Modelle zu bauen.

Sie können ihre Daten also mit verschiedenen Sprachmodellen trainieren? Richtig. Wir arbeiteten zum Beispiel mit Pythia, LLaMA und Falcon.

Was sind die nächsten Schritte mit dem Open Assistant? Phase 1 war die Erstellung des Data Sets, diese ist abgeschlossen. Phase 2 ist das weitere Sammeln von Daten, unter anderem über Chats bei uns auf der Website. Daraus wollen wir weiter lernen.

Wo stehen Sie in einem Jahr? Wir haben sicher viel vom ChatGPT-Hype profitiert. Alles, was jetzt noch kommt, ist eigentlich ein Bonus. Es gibt keine Ambitionen, so und so gross zu werden. Wir sind zufrieden damit, unseren Teil beigetragen zu haben.

Aber der Hype ist noch nicht vorbei, oder wie schätzen Sie das sein? Nein, KI ist gekommen, um zu bleiben. Aber was kommt, weiss ich nicht. Wir bleiben dran und machen weiter. Viele, die sich bei uns engagieren, haben ein Leben und einen Job nebenbei. Die wollen sich nicht auch noch in ihrer Freizeit mit Deadlines herumschlagen, sondern an etwas arbeiten, das ihnen Freude bereitet und wo sie einen Impact haben.