KI-generierter Code und Copyright

Begonnen von Prof. Dr. Peter Henning, 07 Mai 2026, 19:32:02

Vorheriges Thema - Nächstes Thema

Prof. Dr. Peter Henning

Es ist hier im Forum die Frage gestellt worden, inwieweit wir rechtliche Probleme bekommen können, wenn zunehmend KI-generierter Code in FHEM unter GPL-Lizenz auftaucht. Denn es könnte ja durchaus sein, dass die verwendete KI auf anderem (proprietären) Code trainiert worden ist, ohne dass dafür eine entsprechende Rechtsgrundlage bestand. Oder dass die KI Code aus einer GPL-lizensierten Open Source-Bibliothek kopiert - in diesem Falle würde die GPL-Lizenz des Urhebers verletzt

Dazu ein erstes klares Statement:

1. Es muss sichergestellt werden, dass aller Code in FHEM eine wesentliche schöpferische Eigenleistung des Beitragenden ist, und dass KI-generierte Anteile durch die Beitragenden maßgeblich umgeschrieben und verändert wurden.
2. Es muss angegeben werden, wenn unveränderte oder nur marginal umgeschriebene KI-generierte Anteile vorhanden sind.

Die Diskussion ist hier noch im Gange. Die laut EU AI Act ab August 2025 notwendige Kennzeichung und die weiteren damit verbundenen strengen Auflagen sollen durch den so genannten "Digital Omnibus" entschärft werden. Dazu wurde _heute_ am 7.Mai 2026 eine entsprechende Einigung der Verhandlungsführer erzielt, siehe https://www.consilium.europa.eu/de/press/press-releases/2026/05/07/artificial-intelligence-council-and-parliament-agree-to-simplify-and-streamline-rules/

Bis zur endgültigen Regelung, die hoffentlich noch vor Mitte August verabschiedet wird, sollte das hier als gute Referenz dienen:
https://www.uni-bremen.de/urheberrecht/leitfragen/10-urheber-von-ki-generierten-inhalten/antwort-nutzerinnen-als-urheber

Als Verantwortlicher eine großen Konferenz zu Themen digitaler Inhalte verfolge ich die Entwicklungen sehr genau und werde dieses Wissen gerne hier weitergeben.

LG

pah

Sailor

Hallo pah

Danke für den Hinweis.

Es wäre an dieser Stelle Hilfreich, wenn wir den allgemeinen Modulkopf entsprechend anpassen würden.

Zum Beispiel:

###############################################################################
#
#     73_DepartureBnT.pm
#     Departure Bus and Train
#     Reads the departure data from transport.stefan-biermann.de for a given
#     station
#     Written and best viewed with Notepad++; Language Markup: Perl; Tabstop: 4
#
#     Copyright (c) 2026
#     Author                  : Matthias Deeke
#     e-mail                  : matthias.deeke(AT)deeke(PUNKT)eu
#     Fhem commandref         : https://fhem.de/commandref_DE.html#DepartureBnT
#     Fhem Forum              : https://forum.fhem.de/index.php?topic=143906.0
#     Fhem Wiki               : Not implemented
#
#     This file is part of fhem.
#
#     Fhem is free software: You can redistribute it and/or modify it under the
#     terms of the GNU General Public License as published by the Free Software
#     Foundation, either version 2 of the License, or any later version.
#
#     Statement on Authorship and AI Usage:
#     1. The contributor warrants that the provided code represents a
#     substantial creative work of their own authorship.
#     2. AI-generated portions have been significantly rewritten, extended,
#     and/or modified by the contributor to ensure creative control and
#     copyright responsibility.
#     3. Unaltered or only marginally modified AI-generated code fragments
#     are explicitly labeled at the relevant sections within the source code
#     via comments such as:
#     "Begin - AI-generated segment - source: [AI NAME] - Begin"
#     "End   - AI-generated segment - source: [AI NAME] - End"
#
#     Fhem is distributed in the hope that it will be useful,
#     but WITHOUT ANY WARRANTY; without even the implied warranty of
#     MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
#     GNU General Public License for more details.
#
#     You should have received a copy of the GNU General Public License
#     along with fhem.  If not, see <http://www.gnu.org/licenses/>.
#
#     Example:
#     define myBusStation DepartureBnT
#
########################################################################################################################

Was denkst du/Ihr?

Gruß
    Sailor
******************************
Man wird immer besser...

Prof. Dr. Peter Henning

Genau das ist das Ziel. Sollte aber im Konsens ibs. mit dem FHEM-Verein entschieden werden.

LG

pah

passibe

Wie machen das denn andere Projekte?

Dass so etwas hier
Zitat von: Sailor am 11 Mai 2026, 08:58:44#     3. Unaltered or only marginally modified AI-generated code fragments
#     are explicitly labeled at the relevant sections within the source code
#     via comments such as:
#     "Begin - AI-generated segment - source: [AI NAME] - Begin"
#     "End   - AI-generated segment - source: [AI NAME] - End"
in der Praxis gut handelbar ist, würde mich doch stark wundern.

Will damit nicht sagen, dass das kein wichtiges Thema ist, aber man muss auch ein bisschen realitätsnah bleiben ...
Im Zweifel machen sich die Leute nämlich einfach nicht die Mühe, das zu kennzeichnen.

Prof. Dr. Peter Henning

Es geht nicht primär darum, was andere "Projekte" machen. Sondern primär darum, was Recht und Gesetz nach dem EU AI Act ist - und sekundär erst darum, was andere machen.

Das wandelt sich zwar, aber die frühzeitige Diskussion ist sinnvoll.

LG

pah

betateilchen

Beispiel aus https://github.com/deborahgu/soundcork/blob/main/CONTRIBUTING.md

ZitatLLM / Generative AI Policy

If you use any LLM tools to generate code, disclose in your pull requests how you used the tools and how much of the code is written by the tool. We will not accept any code where you, the committer, have not read every line of the code you submit.

Wie man das am Ende tatsächlich kontrolliert, ist ein anderes Thema.
Aber zumindest die Forderung sollte an einer zentralen Stelle im Projekt öffentlich dokumentiert sein.
-----------------------
Formuliere die Aufgabe möglichst einfach und
setze die Lösung richtig um - dann wird es auch funktionieren.
-----------------------
Lesen gefährdet die Unwissenheit!

Sailor

Hallo betateilchen

Zitat von: betateilchen am 11 Mai 2026, 15:22:49Wie man das am Ende tatsächlich kontrolliert, ist ein anderes Thema.
Aber zumindest die Forderung sollte an einer zentralen Stelle im Projekt öffentlich dokumentiert sein.

Und jetzt können wir sicherlichg kontrovers diskutieren, was mit der "zentralen Stelle im Projekt" gemeint ist: Fhem oder jedes Modul als Projekt?

Gruß
    Sailor
******************************
Man wird immer besser...

Prof. Dr. Peter Henning

Wir haben ja auch den Lizenzhinweis in jedem Modul, und nicht nur zentral an einer Stelle.

Hat auch den Vorteil, dass jeder Autor mit dem Hochladen erklärt, sich an die KI-Regel gehalten zu haben.

LG

pah


vbs

Zitat von: Prof. Dr. Peter Henning am 07 Mai 2026, 19:32:02Dazu ein erstes klares Statement:

1. Es muss sichergestellt werden, dass aller Code in FHEM eine wesentliche schöpferische Eigenleistung des Beitragenden ist, und dass KI-generierte Anteile durch die Beitragenden maßgeblich umgeschrieben und verändert wurden.
So klar ist das für mich als Laie gar nicht: was genau bedeutet denn hier "wesentlich" und "maßgeblich"? Das scheint der springende Punkt zu sein. Und wer entscheidet das? Vermutl. am Ende Gerichte?

Zitat von: Prof. Dr. Peter Henning am 07 Mai 2026, 19:32:02Denn es könnte ja durchaus sein, dass die verwendete KI auf anderem (proprietären) Code trainiert worden ist, ohne dass dafür eine entsprechende Rechtsgrundlage bestand.
Ich bin recht viel im OpenSource-Umfeld unterwegs und sehr sehr viel Code entsteht heutzutage mit KI. Wie würde das in der Praxis ablaufen, wenn jemand auf so einen Fall eingehen wollen würde? Er müsste wohl erstmal beweisen, dass eine Codestelle xy nicht von einem Menschen getippte wurde, sondern von KI generiert wurde? Dann müsste er vermutl. beweisen, mit welchem konkreten Modell der Code generiert wurde? Und dann den Nachweis führen, dass das Modell illegal mit Code trainiert wurde, den man nicht hätte verwenden dürfen?

passibe

Zitat von: Prof. Dr. Peter Henning am 11 Mai 2026, 14:55:06Es geht nicht primär darum, was andere "Projekte" machen.
Doch, natürlich, weil man sich best practices abschauen kann, anstatt das Rad neu zu erfinden.
Denn es dürften ja wohl alle vor demselben Problem stehen.



Generell finde ich aber, dass man hier aufpassen muss, nicht zwei Punkte zu vermischen:
  • Das urheberrechtliche Thema und
  • eine Art Qualitätskontrolle des Codes, damit AI-Slop, den der Autor selbst nicht verstanden hat, vermieden wird.

Zu Punkt 1: Wenn das Modell nicht gerade 1:1 Code, der irgendwo anders GPL-lizensiert ist, ohne Attribution repliziert, dann dürfte irgendeine Urheberrechtsverletzung, wie vbs richtig anmerkt, ohnehin kaum nachweisbar sein.
Und auch sonst ändert sich durch den Einsatz von LLMs doch nichts am grundsätzlichen Haftungsrisiko, das jeder trägt, wenn er etwas GPL-Lizensiertes ohne Attribution unter eigenem Namen ins Netz stellt. Die Urheberrechtsverletzung hat man so oder so, egal, ob man die Kopie händisch erstellt hat oder sie von einem LLM generiert wurde und man sie blind übernommen hat. Daran ändert auch irgendein Disclaimer, dass der Teil des Codes vom LLM stammt, nichts. Bezüglich Punkt 1/Urheberrecht ist so ein Disclaimer wertlos.
Insgesamt ist das mE nicht wirklich eine neue Situation. Die Leute müssen nach wie vor selbst schauen, dass sie nichts Urheberrechtsverletzendes produzieren.

Bei Punkt 2 könnte ein Disclaimer durchaus helfen, weil er Transparenz schafft und das für andere Leute zum reviewen flaggt. Das hat aber dann nichts mehr mit dem Urheberrechtsthema zu tun und ist im Kern nur ein "nice to have".

Prof. Dr. Peter Henning

Zitat von: vbs am 11 Mai 2026, 16:22:11Ich bin recht viel im OpenSource-Umfeld unterwegs
Schön, ich auch, und zwar seit 1986. Ich erinnere mich noch sehr genau an verschiedene Urheberrechtsfälle aus diesen 4 Jahrzehnten. Es genügt nämlich die entsprechende Behauptung eines Unternehmens, dass Code übernommen wurde - und schon ist der Beklagte gezwungen, sich anwaltlich zu verteidigen. Das kann, wie die Historie zeigt, ziemlich teuer werden.

Außerdem ist leider damit zu rechnen, dass sich eine Horde geldgieriger Abmahn-Anwälte auf den Weg zu neuen Ufern macht.

Zitat von: vbs am 11 Mai 2026, 16:22:11was genau bedeutet denn hier "wesentlich" und "maßgeblich"?
Das ist tatsächlich offen, auch §15 UrHG ist da vage.

Zitat von: passibe am 11 Mai 2026, 16:48:35Doch, natürlich, weil man sich best practices abschauen kann, anstatt das Rad neu zu erfinden.
Das ist doch nun wirklich Unsinn! Hier will keiner das "Rad neu erfinden", und was "best practices" sind soll bitte wer entscheiden?

LG

pah


Beta-User

Bin noch nicht solange dabei, und habe auch keine große Erfahrung in der Anwendung von KI, und vermutlich verstehe ich von dem allem viel zu wenig, um irgendwas tatsächlich sinnvolles zum Thema zu schreiben, aber mehr oder weniger zufällig ist mir heute ein besprechender Artikel in der GRUR zu "Getty vs. Stability AI" (High Court, London) in die Hände gefallen. In dem hiesigen Zusammenhang sind mir dabei vor allem ein Gedanke in Erinnerung geblieben, der vereinfacht so lautet:

Was auch immer vorher war, letztlich ist es der, der den Prompt bedient, der darüber entscheidet, was er bei der KI in Auftrag gibt!

Dementsprechend dürften zwei Aspekte wesentlich sein:
1. Beim Training muss die KI bereits "wissen", unter welcher Lizenz ausgewerteter Code steht, und
2. der "operator" muss bei der AI-gestützten Generierung neuen Codes die Vorgabe machen, unter welcher Lizenz das Ergebnis veröffentlicht werden soll.

Von daher wäre für Punkt 1 zunächst eine (einigermaßen pragmatische?, in jedem Fall aber eindeutige) Kennzeichnung des FHEM-Codes sinnvoll, jedenfalls da, wo es sich nicht um "unveränderte Fremd-Produkte" unter anderer Lizenz (z.B. codemirror?) handelt. Sonst muss die KI mit Wahrscheinlichkeiten zu den Lizenzierungsbedingungen arbeiten, und/oder Code nicht als Basis nehmen, der nicht eindeutig gekennzeichnet ist?

Für den 2. Punkt stellt sich die Frage, inwieweit die svn-Nutzungsregeln die jeweilige individuelle Verantwortlichkeit nachvollziehbar klarstellen.
Entsprechendes gilt übrigens auch für Code, der über das Forum geteilt wird. Da war mir im Hinterkopf, dass auch für diesen die GPL gelte würde, entsprechend der Forenregeln. Inwieweit das abgesichert ist? Keine Ahnung... Inwieweit das eine KI für das Training berücksichtigt? (erscheint mir eher unwahrscheinlich).

PS:
Das hat nichts mir Qualitätssicherung zu tun. In der Regel sträuben sich mir die Haare beim Blick in "funktionalen" AI-generierten Code, der im Forum kursiert. Und das hat zum Teil auch damit zu tun, dass als Referenz existierender Code, also heute bestehende Module aus allen möglichen (und unmöglichen) Quellen, in den Prompt gegeben wird... 
Server: HP-elitedesk@Debian 13, aktuelles FHEM@ConfigDB | CUL_HM (VCCU) | MQTT2: ZigBee2mqtt, MiLight@ESP-GW, BT@OpenMQTTGw | ZWave | SIGNALduino | MapleCUN | RHASSPY
svn: u.a Weekday-&RandomTimer, Twilight,  div. attrTemplate-files, MySensors