Open-Source-AI muss seine Trainingsdaten Offenlegen, Laut Neuer OSI-Definition

Die Open Source Initiative (OSI) hat eine offizielle Definition für „offene“ künstliche Intelligenz veröffentlicht, die zu einem Konflikt mit Technologie-Riesen wie Meta führen könnte – deren Modelle nicht den neuen Regeln entsprechen. Die OSI hat über 25 Jahre lang den Branchenstandard dafür gesetzt, was als Open-Source-Software gilt, doch AI-Systeme beinhalten Elemente, die von herkömmlichen Lizenzen nicht abgedeckt sind, wie beispielsweise die Trainingsdaten des Modells.

Neue Anforderungen für Open-Source-AI

Um als wirklich Open Source zu gelten, müssen AI-Systeme nun folgende Anforderungen erfüllen:

Zugang zu Informationen über die verwendeten Trainingsdaten, damit andere diese verstehen und reproduzieren können.
Der vollständige Code, der zum Erstellen und Ausführen der AI verwendet wurde.
Die Einstellungen und Gewichte aus dem Training, die der AI helfen, ihre Ergebnisse zu produzieren.

Diese Definition stellt eine direkte Herausforderung für Metas Llama dar, das weithin als das größte Open-Source-AI-Modell beworben wird. Obwohl Llama öffentlich zum Download und zur Nutzung verfügbar ist, gibt es Einschränkungen für die kommerzielle Nutzung (für Anwendungen mit mehr als 700 Millionen Nutzern) und es wird kein Zugang zu den Trainingsdaten gewährt, was bedeutet, dass es nicht den OSI-Standards für uneingeschränkte Freiheit zur Nutzung, Modifikation und Weitergabe entspricht.

Meta Reagiert auf die Neue Definition

Eine Sprecherin von Meta, Faith Eischen, erklärte gegenüber The Verge, dass man zwar in vielen Punkten mit OSI übereinstimme, jedoch mit dieser Definition nicht einverstanden sei. „Es gibt keine einheitliche Definition von Open Source AI, und diese zu definieren, ist eine Herausforderung, weil frühere Definitionen nicht die Komplexität der heute schnell fortschreitenden AI-Modelle umfassen.“

Eischen fügte hinzu: „Wir werden weiterhin mit OSI und anderen Branchenorganisationen zusammenarbeiten, um AI verantwortungsbewusst zugänglich und frei zu machen, unabhängig von technischen Definitionen.“

Die Debatte Über Open Source in der AI-Welt

Die OSI hat nun eine Definition, die es ermöglichen könnte, aggressiver gegen Unternehmen vorzugehen, die ihre Produkte als Open Source deklarieren, obwohl sie es nicht sind. Simon Willison, ein unabhängiger Forscher und Schöpfer des Open-Source-Multi-Tools Datasette, äußerte sich zuversichtlich und betonte die Wichtigkeit dieser Definition im Kontext von „Open Washing“.

Clément Delangue, CEO von Hugging Face, bezeichnete die OSI-Definition als „große Hilfe, um das Gespräch über Offenheit in der AI zu gestalten, insbesondere in Bezug auf die entscheidende Rolle von Trainingsdaten.“

Der Weg zur Definition: Ein Zwei-Jahres-Prozess

Stefano Maffulli, der Exekutivdirektor der OSI, sagte, dass es zwei Jahre gedauert habe, um diese Definition durch einen kollaborativen Prozess zu verfeinern. Dabei wurden Experten aus der Akademie für maschinelles Lernen und natürliche Sprachverarbeitung, Philosophen und Content-Ersteller aus der Creative-Commons-Welt konsultiert.

Sicherheitsbedenken oder Wettbewerbsvorteil?

Während Meta Sicherheitsbedenken als Grund für die Einschränkung des Zugangs zu seinen Trainingsdaten anführt, sehen Kritiker darin ein einfacheres Motiv: die Minimierung rechtlicher Haftung und den Schutz des Wettbewerbsvorteils. Viele AI-Modelle werden mit ziemlicher Sicherheit auf urheberrechtlich geschütztem Material trainiert; im April berichtete The New York Times, dass Meta intern anerkannt hat, dass urheberrechtlich geschützte Inhalte in den Trainingsdaten enthalten sind.

Maffulli sieht die Geschichte der Open Source hier wiederholt. „Meta führt die gleichen Argumente an“, die Microsoft in den 1990er Jahren vorbrachte, als das Unternehmen Open Source als Bedrohung für sein Geschäftsmodell ansah.