BREIN, eine in den Niederlanden ansässige Urheberrechtsgruppe, hat erfolgreich einen großen Sprachdatensatz vom Netz genommen, der für das Training von KI-Modellen angeboten wurde.
Einem Bericht der Nachrichtenagentur Reuters zufolge enthielt der Datensatz unautorisierte Daten aus Zehntausenden von Büchern, Nachrichtenseiten und niederländischen Untertiteln, die ohne Genehmigung aus „unzähligen“ Filmen und Fernsehserien entnommen worden waren. Dieser Schritt heizt die anhaltende Debatte über die Verwendung von Daten im KI-Training weiter an.
Laut BREIN-Direktor Bastiaan van Ramshorst ist das Ausmaß der Datennutzung unklar, aber es wird erwartet, dass die bevorstehende KI-Gesetzgebung der EU mehr Transparenz in den Sektor bringen wird. Die neue Verordnung wird KI-Unternehmen in Europa dazu verpflichten, die Datensätze offenzulegen, mit denen sie ihre KI-Modelle trainieren, und damit Licht in die bislang unklaren Datenpraktiken bringen.
Die Offenlegung von Datensätzen führt zu Diskussionen über das Urheberrecht und das ausschließliche Recht zur Vervielfältigung von Daten, insbesondere im Zusammenhang mit dem Training von KI/ML.
Inzwischen haben neun EU-Länder Klage gegen die Social-Media-Plattform X wegen der unerlaubten Verwendung von Beiträgen zum Training ihrer Grok-KI eingereicht, was die wachsende Besorgnis über die Datennutzung bei der Entwicklung von KI verdeutlicht.
Einige rechtliche Präzedenzfälle und ethische Überlegungen
Die Frage der unerlaubten Nutzung von Daten hat zu einigen Aufsehen erregenden Rechtsstreitigkeiten geführt. Unternehmen, die an der Entwicklung von KI beteiligt sind, wurden wegen der unerlaubten Nutzung von urheberrechtlich geschütztem Material verklagt.
Google wurde verklagt, weil es angeblich urheberrechtlich geschützte Inhalte für das Training von KI verwendete. OpenAI und Anthropic wurden für unerlaubtes und aggressives Web-Scraping kritisiert, was zu Forderungen nach Transparenz und Bedenken hinsichtlich ihrer Datenerfassungsmethoden führte. In ähnlicher Weise war Meta gezwungen, seine KI-Aktivitäten in bestimmten Regionen einzustellen, weil es unerlaubt Nutzerinhalte zum Trainieren seiner Modelle verwendet hatte, was die Notwendigkeit eines verantwortungsvollen Umgangs mit Daten bei der KI-Entwicklung unterstreicht.
Diese Fälle machen deutlich, dass die Branche mit der Ethik und Legalität der Datennutzung kämpft. Für viele dieser Big-Tech-Unternehmen könnte die Unterzeichnung von Lizenzvereinbarungen eine Möglichkeit sein, diese Probleme zu umgehen, ihre Modelle zu trainieren und die Akzeptanz zu erhöhen.
KI-Start-ups wie OpenAI haben mehrere Lizenzvereinbarungen mit Inhalteanbietern wie News Corp und Vox Media unterzeichnet, um ihre LLMs auf Artikel und geistiges Eigentum zu trainieren, die von diesen Marken produziert wurden und ihnen gehören.
Mit der Weiterentwicklung der KI-Technologie wird es entscheidend sein, diese rechtlichen und ethischen Bedenken zu berücksichtigen. Die Branche muss sich an die sich ändernden Vorschriften anpassen und sicherstellen, dass die Datennutzungspraktiken mit den Urheberrechtsgesetzen und ethischen Standards in Einklang stehen.