
KI merkt
sich
ganze Bücher.
KI merkt
sich
ganze Bücher.
von
Kann ein Sprachmodell ein ganzes Buch auswendig? Ist die Speicherung in KI-Gewichten bereits eine Urheberrechtsverletzung? Und warum versagen die Schutzmechanismen der Anbieter? Eine neue Studie aus Stanford liefert Antworten – mit möglicherwiese weitreichenden Folgen für die KI-Branche.
Wenn die KI Harry Potter auswendig kennt
Forscher der Stanford University haben nachgewiesen, was viele Rechteinhaber befürchteten: Große Sprachmodelle wie ChatGPT, Claude, Gemini und Grok haben urheberrechtlich geschützte Bücher nahezu wortgleich gespeichert – und können diese auf Anfrage jedenfalls in Teilen reproduzieren. Die im Januar 2026 veröffentlichte Studie liefert erstmals systematische Belege für das Ausmaß der sogenannten Memorisierung in kommerziellen KI-Systemen.
Was die Forscher herausgefunden haben
Das Forscherteam um Ahmed Ahmed und A. Feder Cooper testete vier führende KI-Systeme: Claude 3.7 Sonnet (Anthropic), GPT-4.1 (OpenAI), Gemini 2.5 Pro (Google) und Grok 3 (xAI). Das Ergebnis ist bemerkenswert:
Bei „Harry Potter und der Stein der Weisen“ konnten die Forscher aus Claude 3.7 Sonnet 95,8 Prozent des Buchtextes nahezu wortgleich extrahieren. Aus Gemini 2.5 Pro waren es 76,8 Prozent, aus Grok 3 immerhin 70,3 Prozent.
Besonders brisant: Bei Gemini und Grok waren keine speziellen Umgehungstechniken erforderlich. Die Modelle gaben die Texte auf einfache Fortsetzungsanfragen hin aus.
Die Methodik: Einfacher als gedacht
Die Forscher verwendeten ein zweistufiges Verfahren:
Phase 1: Sie gaben dem KI-System den ersten Satz eines Buches und baten um wörtliche Fortsetzung.
Phase 2: Sie forderten das System wiederholt auf, den Text fortzusetzen – bis das gesamte Buch extrahiert war.
Bei Claude und GPT-4.1 mussten die Forscher zunächst Sicherheitsmechanismen umgehen. Bei Gemini und Grok funktionierte die Extraktion ohne Weiteres.
Die längsten zusammenhängenden Textpassagen umfassten bis zu 9.070 Wörter – bei Gemini 2.5 Pro für Harry Potter. Das entspricht mehreren Buchkapiteln am Stück.
Bedeutung für das Urheberrecht
Die Studie berührt zentrale Fragen des Urheberrechts und generativer künstlicher Intelligenz, die derzeit weltweit Gerichte beschäftigen. Bislang gingen die meisten Gerichte davon aus, dass KI urheberrechtliche Werke zwar zu Trainingszwecken genutzt wurden, aber die Werke nicht in den Modellen selbst enthalten sind.
Das Landgericht München I hat jedoch eine urheberrechtliche relevante Memorisierung von Liedtexten im GEMA-Verfahren gegen OpenAI bereits bejaht. Die Richter stellten darin fest:
Die streitgegenständlichen Liedtexte sind in den Sprachmodellen reproduzierbar enthalten.
Das Münchner Gericht stellt dabei klar: Wenn komplette Werke dauerhaft im Modell gespeichert werden, handelt es sich nicht mehr um bloße Datenanalyse, sondern um eine eigenständige urheberrechtlich relevante Verwertung.
Die Stanford-Studie liefert nun den empirischen Beleg dafür, dass dies nicht nur für Liedtexte gilt, sondern auch für ganze Bücher. Entsprechendes dürfte dabei auch für andere Inhalte gelten.
Die Rechtsprechung entwickelt sich
Die Rechtslage ist international uneinheitlich:
Während das Landgericht München I im GEMA-Verfahren entschieden hat, dass die Memorisierung von Werken in KI-Modellen eine Urheberrechtsverletzung darstellt, sieht die Lage in anderen Ländern bislang meist anders aus. . Das Urteil ist noch nicht rechtskräftig.
In den USA haben Gerichte in den Fällen Kadrey v. Meta Platforms und Bartz v. Anthropic entschieden, dass KI-Training grundsätzlich unter Fair Use fallen kann. Allerdings gelang es den Klägern dort nicht, substanzielle Extraktion nachzuweisen. Die Stanford-Studie könnte dies nun ändern.
Auch im Vereinigten Königreich, scheiterte Getty Images gegen Stability AI, da die KI keine Kopie enthalte. Ob sich das memoirisieren aus der Stanford Studie in gleicher Weise auch auf Bilddaten übertragen lassen wird, bleibt aber offen.
Fazit
Die Stanford-Studie zeigt deutlich: Große Sprachmodelle memorisieren urheberrechtlich geschützte Bücher. Das gleiche dürfte auch für andere Texte gelten. Ob sich das auch auf andere Inhalte wie Videos, Bilder oder Musik übertragen lässt, beantwortet die Studie nicht.
Für Rechteinhaber ergeben sich dadurch neue Chancen urheberrechtliche Ansprüche erfolgreich gegen die Anbieter solcher KI-Modelle durchzusetzen.
Die bislang weit verbreitete Auffassung, dass KI-Modelle keine urheberrechtlich geschützten Inhalten beinhalten, sondern damit nur trainiert wurden, ist nach der Studie wohl nicht mehr aufrecht zu erhalten.
Es bleibt nun abzuwarten, wie die Gerichte damit umgehen und ob die KI-Anbieter mit neuen Modellen dagegen steuern.
Wir beraten
Sie gerne zum
Urheberrecht!







