Rechtsanwalt & Fachanwalt für Urheber- und Medienrecht
T (+49) 040 / 7344 086-0
Rechtsanwalt & Spezialist für IT-Recht und Kryptorecht
T (+49) 040 / 7344 086-0
Blog News
Wir haben bereits einige Artikel rund um künstliche Intelligenz (KI) geschrieben, beispielsweise zum Thema KI und Urheberrecht oder zu einem KI-Schönheitswettbewerb. Die urheberrechtlichen Debatten konzentrieren sich häufig auf die Frage, ob KI-Output urheberrechtlich geschützt sein kann. Heute wollen wir allerdings ein anderes problematisches Thema beleuchten: Die Rolle von KI als Datendieb. Wie ist es urheberrechtlich zu beurteilen, wenn KI für ihre Trainingsdaten auf urheberrechtlich geschützte Werke einfach zugreift?
Damit ein KI-System gut funktioniert, greift es auf sog. Machine Learning zurück. Genau dieser Punkt macht solche Systeme ja so interessant: Die Fähigkeit, zu lernen und irgendwann ganz von allein beeindruckende Ergebnisse zu erzielen. Hierfür braucht die KI jedoch Trainingsdaten. Das gilt für Textgeneratoren wie ChatGPT genauso wie für Bildgeneratoren wie Midjourney.
Hierfür muss ein sog. Datenkorpus geschaffen werden. Dieser besteht aus Unmengen von Daten, welche gesammelt und für das Training aufbereitet werden. In Fachkreisen gilt bspw. für Bildgeneratoren die Faustregel, dass 5.000 beschriftete Bilder pro Kategorie ausreichen sollen, um eine KI zu trainieren, die mit dem Menschen mithalten kann. Für sehr komplexe KI-Systeme eher 10 Millionen gekennzeichnete Artikel.
Anhand dieser Daten trainiert die KI dann. Im Minutentakt versucht sie etwa, anhand des Bildes einen Text zu generieren, der das auf dem Bild Dargestellte beschreibt. Dann wird dieser Text mit der tatsächlichen Beschriftung des Bildes abgeglichen. Oder umgekehrt: Die KI generiert aus einem Text selbst ein Bild und gleicht dieses dann mit den tausenden anderen Bildern der entsprechenden Kategorie ab.
Solche Datenmengen anzusammeln, stellt für die Hersteller von KI-Systemen eine große Herausforderung dar. Es ist allen bewusst, dass sie eine Vielzahl von qualitativ hochwertigen Daten brauchen.
Natürlich gibt es frei zugängliche Datensätze zu finden, an denen jeder trainieren kann. Wenn alle nur solche Daten nutzen würden, gäbe es kein Problem mit den Urhebern. Diese haben dann ja zugestimmt, dass ihre Werke für solche Zwecke genutzt werden dürfen. Allerdings reicht das den meisten Herstellern nicht – diese Daten sind eher langweilig und nicht speziell. Mit ihnen schafft man kein KI-Modell, das sich hervorhebt.
Deshalb kommt es durchaus vor, dass sie sich im World Wide Web bedienen. Es werden zahlreiche Bilder durch sog. Webcrawler aus dem Internet extrahiert, um in den Datenkorpus eingespeist zu werden. Genau hierüber regen sich dann die Urheber auf. Es könne doch nicht angehen, dass ihre Werke ungefragt für das Training eines KI-Systems genutzt werden. Oder etwa doch?
Ein klassisches und zentrales Verwertungsrecht jedes Urhebers ist das sog. ausschließliche Vervielfältigungsrecht.
Vervielfältigungsrecht
(1) Das Vervielfältigungsrecht ist das Recht, Vervielfältigungsstücke des Werkes herzustellen, gleichviel ob vorübergehend oder dauerhaft, in welchem Verfahren und in welcher Zahl.
Es steht also grds. nur dem Urheber zu, Vervielfältigungen des Werks anzufertigen. Unter Vervielfältigungen versteht man in diesem Sinne eigentlich körperliche Gegenstände, die das Werk in seiner originalen Formgestaltung in sinnlich wahrnehmbarer Weise wiedergeben. Erfasst sind aber durchaus auch digitale Kopien.
Werden nun per Webcrawling urheberrechtlich geschützte Werke kopiert und im Arbeitsspeicher für den Datenkorpus gespeichert, liegt darin unstrittig eine Verletzung des § 16 Abs. 1 UrhG. Innerhalb des neuronalen Netzwerkes kann es dann während des Trainings zu weiteren Vervielfältigungen kommen.
Das UrhG sieht jedoch auch sog. Schranken vor. Das bedeutet, dass nicht jede Verletzung des Urheberrechts direkt geahndet werden kann. Es gibt gesetzlich geregelte Ausnahmefälle, in denen der Urheber diese Verletzung dulden muss. Manchmal steht ihm dann ein Anspruch auf angemessene Vergütung zu. Was KI betrifft, wird viel über mögliche Schranken diskutiert, die in unserem Fall anwendbar sein könnten.
§ 44a UrhG hält fest, dass vorübergehende Vervielfältigungen eines Werkes zulässig sind, die technisch notwendig sind und keine eigenständige wirtschaftliche Bedeutung haben. Davon lassen sich manche Zwischenspeicherungen im Arbeitsspeicher wahrscheinlich erfassen.
Jedoch nicht das Webscraping zu KI-Trainingszwecken mit dem Ziel, urheberrechtsfreie Konkurrenzprodukte zu schaffen. Hierbei hat das Kopieren der Daten sicherlich eine eigenständige wirtschaftliche Bedeutung, denn ohne Datenkorpus gibt es kein gutes KI-Modell. Werden die Daten dann längerfristig im Datenkorpus gespeichert, liegt das Merkmal „vorübergehend“ ohnehin nicht mehr vor.
Seit dem 7.6.2021 gibt es in § 44b UrhG eine Schranke, die sog. Text und Data Mining in bestimmten Fällen gestattet.
Text und Data Mining
(1) Text und Data Mining ist die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen.
(2) Zulässig sind Vervielfältigungen von rechtmäßig zugänglichen Werken für das Text und Data Mining. Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind.
(3) Nutzungen nach Absatz 2 Satz 1 sind nur zulässig, wenn der Rechtsinhaber sich diese nicht vorbehalten hat. Ein Nutzungsvorbehalt bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt.
Wenn man diese Vorschrift liest, bekommt man schon ein sehr gutes Verständnis für seinen Regelungsgehalt. Hierbei soll es darum gehen, in den Daten verborgene Informationen zu erschließen. Das Webcrawling für KI-Systeme will allerdings die Gesamtdaten der Werke übernehmen, sodass schon fraglich ist, ob es überhaupt unter die Definition des Abs. 1 fällt.
Und selbst wenn man das Webcrawling als Text und Data Mining erfassen möchte, stellen sich die weiteren Absätze als problematisch dar. Nach Abs. 2 S. 2 müssen die Vervielfältigungen gelöscht werden, sobald sie nicht mehr erforderlich sind. Das ist bei einem KI-Modell, das fortwährend an seinem Datenkorpus lernt, schwierig. Schließlich kann nach Abs. 3 der Urheber in maschinenlesbarer Form festlegen, dass er das nicht möchte.
Abgesehen von § 44b UrhG kommt noch § 60d UrhG in Betracht, der im selben Zuge eingefügt wurde. Grob gesagt erlaubt dieser das Text und Data Mining für nicht-kommerzielle Zwecke der wissenschaftlichen Forschung.
Am 27.4.2023 legte ein Stock-Fotograf Unterlassungsklage beim Landgericht Hamburg ein, da er Klarheit für die gesamte Branche will. Er wirft dem gemeinnützigen Verein LAION e. V. vor, dass sie für ihre Datensätze auch geschützt Stock-Fotos verwenden. Der Verein versteht sich als gemeinnützig und hat das Ziel, Datensätze und dazugehörige Codes für maschinelles Lernen öffentlich zugänglich zu machen.
Für viele Hersteller von KI-Systemen und Trainingsdatensätzen wird es schwer sein, nicht-kommerziell zu bleiben. Als gutes Beispiel dient Open AI, das 2015 noch als Nonprofit Group gegründet wurde. Inzwischen gab es Sponsorengelder in Milliardenhöhe und seit Ende 2020 ist Open AI nach eigenen Angaben eine „capped-profit“ company.
Urhebern ist es zu empfehlen, in maschinenlesbarer Form darzustellen, um sich gegen solche Vervielfältigungen zu schützen. Eine rechtlich unumstrittene und einfache Möglichkeit ist der Hinweis mittels der sog. „robot.txt“-Information. Dann ist eine Kopie durch einen Webcrawler auf jeden Fall rechtlich angreifbar.
Ansonsten gibt es einige laufende Verfahren, die wichtige Erkenntnisse über die Rechtslage liefern werden. Geistige Schutzrechte werden regelmäßig hoch gewertet. Auf der anderen Seite will der Gesetzgeber einer Vorreiterrolle von Deutschland und der EU in Sachen KI auch nicht im Wege stehen. Diese Abwägungsfrage wird noch einige spannende Folgen haben.
Das Urheberrecht regelt die Rechte der Künstler, Musiker, Filmemacher, Schriftsteller und Softwareentwickler und ihrer Urheberwerke (Fotos, Filme, Texte, Musik und Software). Geregelt ist das Urheberrecht im Gesetz über Urheberrecht und verwandte Schutzrechte (UrhG). In dem UrhG wird der Urheber, sein Urheberpersönlichkeitsrecht und seine Miturheber definiert. Ferner wird bestimmt, wann ein Urheberwerk oder ein verwandtes Schutzrecht wie z.B. ein Lichtbild oder Laufbild vorliegt. Sodann werden die Verwertungsrechte der Urheber wie unter anderem das Recht der Verbreitung, Vervielfältigung oder öffentlichen Zugänglichmachung der schöpferischen Werke aber auch das Nutzungsrecht des Urhebers und Recht der Lizenzeinräumung an Urheberwerken manifestiert.
Sie sind Urheber oder Lizenzgeber und brauchen eine Beratung für Urheber oder einen Anwalt für Künstler, Fotografen, Musiker, Filmemacher, Softwareentwickler oder Schriftsteller – etwa bezüglich der Eigenschaft von KI-Modellen als Datendiebe? Dann sind Sie bei uns richtig.