ErgrĂĽnde!

Perplexity und Burstiness


Die linguistischen FingerabdrĂĽcke der KI: Ein definitiver Leitfaden zur Unterscheidung von menschlicher Prosa und maschinell generiertem Text


Inhalt:


Executive Summary

Dieser Bericht liefert eine tiefgehende Analyse der stilistischen, syntaktischen und lexikalischen Muster, die als Indikatoren für von Künstlicher Intelligenz (KI) generierte Texte gelten. Die zentrale Erkenntnis ist, dass kein einzelnes Merkmal ein unfehlbarer Beweis für die maschinelle Urheberschaft ist. Vielmehr ist es eine Konstellation spezifischer Muster, die in ihrer Gesamtheit eine hohe Wahrscheinlichkeit für einen KI-Ursprung nahelegt. Die Analyse zeigt, dass diese sogenannten „Tells“ keine zufälligen Eigenheiten sind, sondern direkte und vorhersagbare Konsequenzen der Trainingsdaten, der Modellarchitektur und insbesondere des Alignment-Prozesses durch bestärkendes Lernen mit menschlichem Feedback (RLHF). Dieser Prozess tauscht systematisch linguistische Vielfalt gegen Sicherheit und Konsistenz ein. Zu den derzeit verlässlichsten Indikatoren gehören strukturelle Uniformität, spezifische formelhafte Satzkonstruktionen und das Fehlen persönlicher Narrative. Im Gegensatz dazu haben populäre, aber inzwischen weniger zuverlässige Merkmale wie der übermäßige Gebrauch von Gedankenstrichen an Aussagekraft verloren. Der Bericht unterstreicht die dynamische Natur der KI-Erkennung – ein „Moving Target“ – und betont die kritische Notwendigkeit, Falsch-Positive-Ergebnisse zu vermeiden, insbesondere bei Texten von Nicht-Muttersprachlern und in formalen akademischen Kontexten.

Die Anatomie eines KI-Autors: Warum Maschinen einen „Stil“ entwickeln

Um die verräterischen Anzeichen von KI-Texten zu verstehen, ist es unerlässlich, die technischen und theoretischen Grundlagen ihrer Entstehung zu analysieren. Die identifizierbaren Muster sind keine zufälligen Fehler, sondern logische Konsequenzen des Designs und des Trainings von großen Sprachmodellen (Large Language Models, LLMs).

Der Geist in der Maschine: Eine Einführung in „linguistische Fingerabdrücke“

Die Grundlage für die Erkennung von KI-Texten liegt im Konzept des „linguistischen Fingerabdrucks“. Wissenschaftliche Untersuchungen zeigen, dass LLMs distinkte und konsistente stilistische Merkmale aufweisen.1 Diese Fingerabdrücke sind keine bewusste stilistische Wahl, sondern emergente Eigenschaften, die sich aus der Architektur und dem Trainingsprozess des Modells ergeben.1 Diese stilistischen Profile sind so stabil, dass sie nicht nur eine Unterscheidung zwischen menschlichen und KI-Texten ermöglichen, sondern auch zwischen den Texten verschiedener LLM-Familien, wie beispielsweise denen von OpenAI, Anthropic (Claude) oder Meta (Llama).1 Diese inhärente stilistische Signatur bildet die wissenschaftliche Basis, die eine Erkennung prinzipiell möglich macht.

Trainingsdaten als Schicksal: Der Korpus ist der Kanon

Die stilistische Grundausrichtung eines LLMs wird maßgeblich durch die riesigen Textkorpora bestimmt, die für das Pre-Training verwendet werden.3 Diese Datensätze umfassen einen großen Teil des öffentlich zugänglichen Internets, was zu einer Überrepräsentation bestimmter Textsorten führt. Formale Artikel im Stil von Wikipedia, Marketingtexte, technische Dokumentationen und Nachrichtenbeiträge prägen den Standardton der Modelle, der oft als formell, neutral und etwas steril wahrgenommen wird.6 Diese Abhängigkeit von existierenden menschlichen Texten ist ein zweischneidiges Schwert: Sie befähigt die KI, menschliche Sprache zu imitieren, zwingt sie aber gleichzeitig dazu, die häufigsten – und oft klischeehaftesten – Muster dieser Daten zu reproduzieren.9

Die Alignment-Steuer: Wie Sicherheit durch RLHF zu Sterilität führt

Ein entscheidender Faktor, der den Stil von KI-Texten prägt, ist das bestärkende Lernen mit menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF). Dieser Prozess dient dazu, die Modelle auf menschliche Werte auszurichten („Alignment“) und sie „hilfreich, ehrlich und harmlos“ zu machen.3 RLHF fungiert dabei als eine starke homogenisierende Kraft. Indem Antworten belohnt werden, die neutral, sicher, gut strukturiert und unkontrovers sind, werden linguistische Kreativität, Ambiguität, Humor und eine persönliche Stimme systematisch entmutigt.7

Die Konsequenzen dieses Prozesses sind messbar: Untersuchungen haben gezeigt, dass RLHF die Vielfalt der generierten Texte im Vergleich zu anderen Feinabstimmungsmethoden signifikant reduziert.17 Diese Reduktion der linguistischen Diversität ist die direkte Ursache für die repetitiven Phrasen, formelhaften Strukturen und den vorhersagbaren Ton, die zu den verlässlichsten Merkmalen von KI-Texten gehören. Man könnte dies als „Alignment-Steuer“ bezeichnen – der Preis für Sicherheit und Zuverlässigkeit ist eine stilistische Verarmung.

Die statistische Seele der Maschine: Perplexität und Burstiness

Zwei zentrale stilometrische Konzepte helfen, die Unterschiede zwischen menschlichem und maschinellem Schreiben quantitativ zu erfassen:

Diese beiden Metriken liefern die statistische Untermauerung fĂĽr die eher qualitativen Beobachtungen, die im Folgenden diskutiert werden. Die formelhafte und seelenlose Anmutung von KI-Texten ist somit nicht nur ein subjektiver Eindruck, sondern hat eine messbare statistische Grundlage.

Ein umfassender Katalog der angeblichen KI-Indikatoren

Auf Basis der im vorherigen Abschnitt dargelegten Prinzipien wird nun eine systematische Sammlung, Analyse und Bewertung der spezifischen Merkmale vorgenommen, die von Nutzern und Forschern als typisch fĂĽr KI-Texte berichtet werden.

Strukturelle und formatierungsbedingte Merkmale: Das GerĂĽst des KI-Textes

Syntaktische und satzzeichenbezogene Muster: Die Kadenz des Codes

Die lexikalische Dimension: Ein „KI-glisch“-Wörterbuch

Semantische und qualitative Indikatoren: Das „seelenlose“ Tal

Synthese und Zuverlässigkeitsbewertung: Signal von Rauschen trennen

Dieser Abschnitt führt die im vorherigen Katalog gesammelten Indikatoren zu einem praktischen, bewertenden Rahmen zusammen und beantwortet die Kernfrage des Nutzers nach der Zuverlässigkeit dieser Anzeichen.

Die Zuverlässigkeitsmatrix der Indikatoren

Die folgende Tabelle dient als zentrale, praktische Zusammenfassung der Ergebnisse dieses Berichts. Sie bewertet die Zuverlässigkeit verschiedener Indikatoren und erklärt ihre Ursachen.

Indikator/Cluster Beschreibung Ursache Aktuelle Zuverlässigkeit Begründung & Nuancierung
Fehlen persönlicher Narrative & Emotionen Der Text enthält keine persönlichen Anekdoten, Emotionen oder eine einzigartige, wiedererkennbare Stimme. Fundamentale technologische Beschränkung; KI hat keine gelebte Erfahrung. Hoch Dies ist das beständigste und am schwersten zu fälschende Merkmal. KI kann Emotionen simulieren, aber keine authentischen, auf Erfahrung basierenden Einsichten liefern.6
Strukturelle Uniformität & Formelhaftigkeit Gleichmäßige Absatzlängen, „Dreierregel“, repetitive Satzstrukturen, formelhafte Einleitungen/Schlüsse. Geringe „Burstiness“; RLHF-Optimierung für Klarheit und Struktur.17 Hoch Diese Muster sind tief in der Funktionsweise der Modelle verankert. Während sie reduziert werden können, ist eine völlig natürliche, unregelmäßige Struktur für KIs schwer zu erreichen.8
Oberflächlichkeit & Verallgemeinerung Der Text bleibt abstrakt, liefert keine spezifischen Beispiele, Details oder neuen Erkenntnisse. Die KI synthetisiert vorhandene Daten, generiert aber keine originären Gedanken. Hoch Die Fähigkeit, Wissen neu zu kontextualisieren und originelle Beispiele zu schaffen, ist eine Kernkompetenz menschlicher Intelligenz, die KIs fehlt.7
Faktische Inkonsistenzen (Halluzinationen) Der Text enthält erfundene Quellen, widersprüchliche Fakten oder logische Brüche. Fehler im Generierungsprozess; das Modell „erfindet“ Informationen, um Lücken zu füllen. Mittel Ein starkes Anzeichen, wenn es auftritt. Neuere Modelle werden jedoch besser darin, Halluzinationen zu vermeiden, sodass deren Abwesenheit kein Beweis für menschliche Autorschaft ist.23
Übermäßig formales/ „KI-glisch“-Vokabular Häufiger Gebrauch von Wörtern wie „delve“, „plethora“, „tapestry“, „furthermore“, „moreover“. Bias in den Trainingsdaten (formale Texte); geringe Perplexität.26 Mittel Diese Wörter sind auffällig, aber ihre Frequenz kann in neueren Modellen reduziert werden. Erfahrene menschliche Autoren können sie ebenfalls verwenden. Sie sind am aussagekräftigsten im Zusammenspiel mit anderen Indikatoren.14
Übermäßiger Gebrauch von Gedankenstrichen (—) Häufige Verwendung des Geviertstrichs zur Trennung von Satzteilen. Lernmuster aus formellen Texten, das übermäßig generalisiert wurde. Niedrig / Kontextabhängig Dies war ein starkes Signal für ältere Modelle, ist aber inzwischen weithin bekannt. Entwickler trainieren es ab, und Menschen vermeiden es. Kann leicht zu Falsch-Positiven führen.28
Perfekte Grammatik & Rechtschreibung Der Text ist völlig frei von Tipp-, Grammatik- oder Interpunktionsfehlern. KI-Modelle sind darauf ausgelegt, grammatikalisch korrekten Text zu produzieren. Niedrig / Veraltet Menschliche Autoren verwenden zunehmend fortschrittliche Grammatikprüfungen. Gleichzeitig können KI-Verschlüsselungstools absichtlich Fehler einfügen, um menschlicher zu wirken.25

Das „Moving Target“-Dilemma: Die stilistische Evolution der LLMs

Die stilistischen Merkmale von KI-Texten sind nicht statisch. Mit jeder neuen Modellgeneration werden die offensichtlichsten „Tells“ subtiler. Vergleiche zeigen, dass neuere Modelle wie die von Anthropic (Claude) oft als „natürlicher“ oder „weniger langweilig“ im Schreibstil wahrgenommen werden als einige GPT-Modelle.38 Dies bestätigt die Existenz eines „Lebenszyklus für KI-Merkmale“: Ein auffälliges Muster (z.B. die frühere übermäßige Verwendung des Wortes „fostering“ 14) wird von der Community identifiziert, von den Entwicklern im nächsten Modell abgeschwächt und verliert so an Aussagekraft. Daraus folgt, dass die zuverlässigsten Indikatoren nicht spezifische Wortwahlen sind, sondern tiefere statistische und semantische Eigenschaften (wie das Fehlen von Persönlichkeit), die sich nur schwer „heraus-trainieren“ lassen.

Das Falsch-Positive-Problem: Wenn menschliches Schreiben „KI-generiert“ aussieht

Sowohl menschliche Intuition als auch automatisierte Detektoren neigen dazu, menschlich verfasste Texte fälschlicherweise als KI-generiert zu klassifizieren.14 Dies ist ein erhebliches praktisches und ethisches Problem.

Fazit: Auf dem Weg zu einer kritischen Leserschaft im KI-Zeitalter

Die Analyse der linguistischen Fingerabdrücke von KI-Texten führt zu mehreren Schlussfolgerungen und Empfehlungen für den Umgang mit Informationen in einer zunehmend von KI geprägten Welt.

Jenseits der Checkliste: Ein holistischer, konstellationsbasierter Ansatz

Die zentrale Empfehlung dieses Berichts lautet, sich nicht auf ein einzelnes Merkmal zu verlassen. Eine zuverlässige Einschätzung erfordert die Identifizierung eines Clusters oder einer Konstellation von Indikatoren über mehrere Kategorien hinweg (strukturell, syntaktisch, lexikalisch und semantisch). Ein Text, der einen Gedankenstrich enthält, ist bedeutungslos. Ein Text jedoch, der durchgehend uniforme Absätze, eine „Dreierregel“-Struktur, den übermäßigen Gebrauch des Wortes „eintauchen“ und das völlige Fehlen einer persönlichen Stimme aufweist, ist mit hoher Wahrscheinlichkeit KI-generiert.

Die Zukunft der Detektion: Ein nicht gewinnbares WettrĂĽsten?

Es entwickelt sich ein technologisches Wettrüsten zwischen KI-Generatoren, „Humanizer“-Tools, die absichtlich Fehler oder stilistische Variationen einfügen, um die Detektion zu umgehen 19, und der nächsten Generation von Detektoren. Technische Lösungen wie digitale Wasserzeichen werden diskutiert, stoßen aber an ihre Grenzen, da sie potenziell entfernt oder gefälscht werden können.21 Mit der fortschreitenden Verbesserung der Modelle wird eine hundertprozentig sichere Erkennung zunehmend schwieriger. Der Fokus wird sich daher von der reinen

Detektion hin zur kritischen Bewertung von Inhaltsqualität und Herkunft verschieben müssen.

AbschlieĂźende Empfehlungen fĂĽr kritische Leser

Referenzen

  1. Detecting Stylistic Fingerprints of Large Language Models - arXiv, Zugriff am August 23, 2025, https://arxiv.org/html/2503.01659v1
  2. Why LLMs’ Stylistic Fingerprints Could Mean More Work for Translation Post-Editors - Slator, Zugriff am August 23, 2025, https://slator.com/why-llms-stylistic-fingerprints-could-mean-more-work-for-translation-post-editors/
  3. Secrets of RLHF in Large Language Models Part I: PPO - GitHub Pages, Zugriff am August 23, 2025, https://openlmlab.github.io/MOSS-RLHF/paper/SecretsOfRLHFPart1.pdf
  4. What is reinforcement learning from human feedback (RLHF)? - TechTalks, Zugriff am August 23, 2025, https://bdtechtalks.com/2023/01/16/what-is-rlhf/
  5. Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve - arXiv, Zugriff am August 23, 2025, https://arxiv.org/html/2309.13638v1
  6. KI-Texte: erkennen, verstehen, besser machen - Die SCHREIBSCHNEIDEREI, Zugriff am August 23, 2025, https://dieschreibschneiderei.de/ki-texte-erkennen-verstehen-besser-machen/
  7. What are some signs my writing is AI-written? : r/ApplyingToCollege - Reddit, Zugriff am August 23, 2025, https://www.reddit.com/r/ApplyingToCollege/comments/1g4b5p5/what_are_some_signs_my_writing_is_aiwritten/
  8. Comprehensive Guide to Spotting AI Writing Patterns - Pangram Labs, Zugriff am August 23, 2025, https://www.pangram.com/blog/comprehensive-guide-to-spotting-ai-writing-patterns
  9. I Asked AI to Kill Business Jargon. Here’s What Happened. - FINN Partners, Zugriff am August 23, 2025, https://www.finnpartners.com/news-insights/i-asked-ai-to-kill-business-jargon-heres-what-happened/
  10. AI Writing Alert! 50 Phrases You Should Avoid - The Writing King, Zugriff am August 23, 2025, https://thewritingking.com/ai-writing-phrases-you-should-avoid/
  11. Why Your Writing Looks Like AI-Generated Content: 12 Phrases to Avoid - AI Fire, Zugriff am August 23, 2025, https://www.aifire.co/p/why-your-writing-looks-like-ai-generated-content-12-phrases-to-avoid
  12. Secrets of RLHF in Large Language Models Part I: PPO - ResearchGate, Zugriff am August 23, 2025, https://www.researchgate.net/publication/372286456_Secrets_of_RLHF_in_Large_Language_Models_Part_I_PPO
  13. RLHF for LLMs: A Deep Dive into Reinforcement Learning from Human Feedback - Medium, Zugriff am August 23, 2025, https://medium.com/the-ai-technology/rlhf-for-llms-a-deep-dive-into-reinforcement-learning-from-human-feedback-98637a1e38f2
  14. What are some signs text is ChatGPT generated? : r/aipromptprogramming - Reddit, Zugriff am August 23, 2025, https://www.reddit.com/r/aipromptprogramming/comments/1l79a4g/what_are_some_signs_text_is_chatgpt_generated/
  15. What Is Reinforcement Learning From Human Feedback (RLHF)? - IBM, Zugriff am August 23, 2025, https://www.ibm.com/think/topics/rlhf
  16. Stochastic Parrots: How to tell if something was written by an AI or a human?, Zugriff am August 23, 2025, https://e-discoveryteam.com/2024/04/05/stochastic-parrots-how-to-tell-if-something-was-written-by-an-ai-or-a-human/
  17. Understanding the Effects of RLHF on LLM Generalisation and Diversity - arXiv, Zugriff am August 23, 2025, https://arxiv.org/html/2310.06452v2
  18. How Do AI Detectors Function? Understanding Their Methods and ..., Zugriff am August 23, 2025, https://www.yomu.ai/blog/how-do-ai-detectors-function-understanding-their-methods-and-accuracy
  19. How Do Perplexity and Burstiness Make AI Text Undetectable? - StealthGPT AI, Zugriff am August 23, 2025, https://www.stealthgpt.ai/blog/how-do-perplexity-and-burstiness-make-ai-text-undetectable
  20. Perplexity and Burstiness: Not Just Simple Metrics Anymore - ShadowGPT, Zugriff am August 23, 2025, https://humanizeai.now/blog/perplexity-burstiness-2025
  21. AI writing detectors - concepts and considerations - Artificial intelligence, Zugriff am August 23, 2025, https://nationalcentreforai.jiscinvolve.org/wp/2023/03/17/ai-writing-detectors/
  22. ChatGPT-Texte erkennen: Typische Merkmale von KI-generierten Texten - KI im Marketing, Zugriff am August 23, 2025, https://ki-im-marketing.at/blog/chatgpt-texte-erkennen-typische-merkmale-von-ki-generierten-texten
  23. Your most commonly observed signs that an assignment is written by AI. - Reddit, Zugriff am August 23, 2025, https://www.reddit.com/r/Professors/comments/1bne3h2/your_most_commonly_observed_signs_that_an/
  24. Wikipedia:Signs of AI writing, Zugriff am August 23, 2025, https://en.wikipedia.org/wiki/Wikipedia:Signs_of_AI_writing
  25. Wie können Lehrkräfte KI-Texte erkennen? | GEW - Die Bildungsgewerkschaft, Zugriff am August 23, 2025, https://www.gew.de/aktuelles/detailseite/wie-koennen-lehrkraefte-ki-texte-erkennen
  26. 70+ common words only used by AI - Resources - Conturae, Zugriff am August 23, 2025, https://www.conturae.com/resources/common-words-only-used-by-ai
  27. Telltale signs something was written with AI? Format, work usage, etc - Reddit, Zugriff am August 23, 2025, https://www.reddit.com/r/WritingWithAI/comments/1ibf558/telltale_signs_something_was_written_with_ai/
  28. The telltale signs of „AI-Slop“ writing - and how to avoid them? : r ..., Zugriff am August 23, 2025, https://www.reddit.com/r/OpenAI/comments/1jzjql9/the_telltale_signs_of_aislop_writing_and_how_to/
  29. How to Deal With Em Dash Overuse in AI Generated Writing - TechGenies, Zugriff am August 23, 2025, https://techgenies.com/how-to-deal-with-em-dash-overuse-in-ai-writing/
  30. Generative AI and the War on Writing - YouTube, Zugriff am August 23, 2025, https://www.youtube.com/watch?v=ChffvtelVao&vl=en-US
  31. Decoding AI Language: Common Words and Phrases in AI-Generated Content - Grammarly, Zugriff am August 23, 2025, https://www.grammarly.com/blog/ai/common-ai-words/
  32. Words and Phrases that Make it Obvious You Used ChatGPT | by Margaret Efron - Medium, Zugriff am August 23, 2025, https://medium.com/learning-data/words-and-phrases-that-make-it-obvious-you-used-chatgpt-2ba374033ac6
  33. Wie erkenne ich, ob ein Text von einer KI stammt? (Update) - Hessburg.de, Zugriff am August 23, 2025, https://hessburg.de/wie-erkenne-ich-ob-ein-text-von-einer-ki-stammt/
  34. Most Common AI Words and Phrases : r/SEO - Reddit, Zugriff am August 23, 2025, https://www.reddit.com/r/SEO/comments/1bh5clu/most_common_ai_words_and_phrases/
  35. AI Content Detection: Words & Phrases to Avoid for Human-Sounding Content, Zugriff am August 23, 2025, https://profiletree.com/ai-content-detection/
  36. How to spot AI-generated writing (A list of common phrases and ..., Zugriff am August 23, 2025, https://www.reddit.com/r/BadRPerStories/comments/1ll40y5/how_to_spot_aigenerated_writing_a_list_of_common/
  37. Surviving in the Age of AI Writing - PRSA, Zugriff am August 23, 2025, https://www.prsa.org/article/surviving-in-the-age-of-ai-writing
  38. Claude vs. ChatGPT: What’s the difference? [2025] - Zapier, Zugriff am August 23, 2025, https://zapier.com/blog/claude-vs-chatgpt/
  39. GPT-4o vs. Claude 3 Opus: Which Model Do You Think Is Smarter Overall? - Reddit, Zugriff am August 23, 2025, https://www.reddit.com/r/ClaudeAI/comments/1crbeu5/gpt4o_vs_claude_3_opus_which_model_do_you_think/
  40. Artificial intelligence content detection - Wikipedia, Zugriff am August 23, 2025, https://en.wikipedia.org/wiki/Artificial_intelligence_content_detection
  41. The accuracy-bias trade-offs in AI text detection tools and their impact on fairness in scholarly publication - PeerJ, Zugriff am August 23, 2025, https://peerj.com/articles/cs-2953.pdf

Zusammenfassungen

Zusammenfassung Perplexity und Burstiness


© 2025 by Roland Gruen

ZurĂĽck zum Anfang