Was leisten KI-Detektoren zur Erkennung von KI-generierten Texten in der Bildung?

Im akademischen Schreiben ist die Übernahme von fremdem Gedankengut ohne ausdrückliche Kennzeichnung bzw. Quellenangabe als Plagiat verpönt.

Auch für studentische Abschlussarbeiten wie einer Bachelorarbeit oder einer Masterarbeit gilt dasselbe. Oberstes Gebot ist sauberes wissenschaftliches Arbeiten und Schreiben, um Plagiate zu vermeiden. Um diese zu identifizieren oder zumindest Anhaltspunkte zu liefern, wird von den Hochschulen seit langem Anti-Plagiatssoftware eingesetzt, die verhältnismäßig zuverlässig arbeitet.

Mit Aufkommen von leistungsstarken Textgeneratoren wie ChatGPT ist die Hochschullandschaft zudem vor die Herausforderung gestellt, KI-generierte Texte zu identifizieren. Entsprechende KI-Detektoren ergänzen dabei oftmals klassische Plagiatsdetektoren.

Grenzen der Leistungsfähigkeit von KI-Detektoren

Dies gelingt jedoch keinesfalls so zweifelsfrei, wie es die Tools versprechen, weshalb die entsprechenden Ergebnisse auch niemals unkritisch zu interpretieren sind. Sie haben klare Grenzen der Verlässlichkeit wie v.a. falsch-positive Ergebnisse. Das bedeutet, dass menschlich geschriebene Texte fälschlicherweise als KI-generiert gekennzeichnet werden können. Insofern gehört immer auch akademisches und pädagogisches Urteilsvermögen dazu, um die Ergebnisse von KI-Detektoren einzuordnen.

Hierzu sollte zunächst klar sein, wie sich KI-generierte Texte von menschengemachten Texten unterscheiden können. Dazu gehören u.a.:

Geringere Variabilität bei Wort- oder Phrasenwahl:Menschen verwenden eine größere Bandbreite an Wörtern und Formulierungen.
Wiederholungen: KI-Tools tendieren dazu, häufiger Wörter, Phrasen oder inhaltliche Punkte zu wiederholen.
(Zu) perfekte Rechtschreibung und Grammatik:menschlich geschriebene Texte enthalten im Gegensatz zu KI-Texten häufiger Rechtschreib- oder Grammatikfehler oder einfach etwas „schiefe“ Formulierungen, die einen Text authentisch machen.
Keine Neologismen:KI-generierter Text enthält wenige bis gar keine Wortneuschöpfungen.
Satzlänge und -struktur:KI-Textgeneratoren neigen dazu, kürzere Sätze mit weniger Nebensätzen zu erstellen.

Um diese Unterschiede verstehen zu können, soll kurz betrachtet werden, was KI-Detektoren eigentlich untersuchen:

Stilmerkmale: KI-Detektoren analysieren den Stil des Textes, z. B. die Wortwahl, Satzstruktur und Länge der Sätze. KI-generierte Texte weisen oft einen anderen Stil auf als menschlich geschriebene Texte.
Statistische Merkmale: KI-Detektoren analysieren statistische Merkmale des Textes, z. B. die Häufigkeit von Wörtern und Phrasen. KI-generierte Texte haben oft andere statistische Merkmale als menschlich geschriebene Texte.
Metadaten: KI-Detektoren können auch Metadaten des Textes analysieren, z. B. den Autor und die Entstehungszeit. KI-generierte Texte haben daher meist andere Metadaten als menschlich geschriebene Texte.

Insgesamt sind KI-Texte oft sehr „glatt“, haben keine Ecken und Kanten, wohingegen menschliche Texte sich durch größere sprachliche Vielfalt auszeichnen, aber eben auch durch mehr Fehler. Dies sind allerdings nur grobe Anhaltspunkte.

Tools zur Erkennung von KI-Texten

Es gibt verschiedene (teils kostenpflichtige) Tools, die von Hochschulen und Universitäten zur Prüfung von KI-generierten Texten eingesetzt werden (Aufzählung nicht vollständig):

https://www.turnitin.de

(ist nur für Bildungseinrichtungen zugänglich)

https://gptzero.me

https://x.writefull.com/gpt-detector

https://www.zerogpt.com

https://checkforai.com

https://plagiarismcheck.org

https://www.plagaware.com

Diese Tools sollen KI-genierte Texte erkennen, wobei diese wie erwähnt immer nur Wahrscheinlichkeiten angeben. Eine Wahrscheinlichkeit von z.B. 75% bedeutet aber nicht, dass 75% des Textes von einer KI erstellt wurden, sondern dass die Wahrscheinlichkeit bei 75% liegt, dass Teile des Textes KI-geniert sind. Gleichzeitig gibt es bereits Tools, die Texte, die zu 100% KI-geniert sind, so umformulieren, dass sie KI-Detektoren „austricksen“ (z.B. https://www.humanizeai.io) und die KI-Herkunft verschleiern sollen.

Können KI-Detektoren den Einsatz von KI in Abschlussarbeiten belegen?

Insgesamt lässt sich dabei feststellen, dass die Ergebnisse solcher KI-Detektoren nicht der Feststellung eines rechtserheblichen akademischen Fehlverhaltens dienen können, d.h. sie können keinen zweifelsfreien rechtssicheren Nachweis erbringen, dass ein Text per KI erstellt wurde. Dies ist für den Fall wichtig, dass akademisches Fehlverhalten vorgeworfen werden sollte. Zugleich steigt aber auch die Gefahr von Fehlbeschuldigungen durch mögliche falsch-positive Ergebnisse.

Auf der sicheren Seite steht man also, wenn akademisches Arbeiten und Schreiben auf „traditionelle“ Weise stattfindet. Zwar kann KI beim Strukturieren akademischer Abschlussarbeiten u.ä. helfen, das eigentliche Schreiben inklusive korrekter und vollständiger Quellenzitationen sollte dabei aber „menschlich“ erfolgen.

Professionelle Ghostwriter und Agenturen verpflichten sich daher ihren Kunden und Kundinnen gegenüber, keinerlei KI-generierten Texte zu übergeben, sondern manuell erstellte Unikate, die allen akademischen Anforderungen gerecht werden.

Mittlerweile lassen sich die meisten unserer Kunden versichern, dass wir bei Auftragsarbeiten keine KI verwenden, dem wir als etablierte Ghostwriting-Agentur natürlich nachkommen. Schließlich möchte man kein Honorar dafür bezahlen, dass man KI-generierte Texte bekommt und dann möglicherweise Beanstandungen im Rahmen der Plagiatsprüfung oder KI-Detektion erhält. Auch wenn hier, wie erwähnt, der eindeutige Nachweis schwierig ist – bei allzu hohen Wahrscheinlichkeiten dürfte jeder Prüfer misstrauisch werden und sich die entsprechende Hausarbeit, Bachelorarbeit oder Masterarbeit möglicherweise (noch) genauer ansehen.