Prolog
Was du gerade liest
Dieser Text entstand so: Ein Mensch (ich, Mathias) und ein Sprachmodell (Claude Code, von Anthropic) haben gemeinsam rund zwanzig wissenschaftliche Papers gelesen – von Google DeepMind, Stanford, Anthropic, dem Santa Fe Institute. Englischsprachig, mathematisch, teilweise über fünfzig Seiten lang. Claude hat sie verdichtet. Ich habe die Richtung vorgegeben und die Didaktik geschärft.
Warum erzähle ich das? Weil es die Pointe dieses Textes ist.
Wenn du am Ende dieser acht Kapitel verstehst, was Emergenz bedeutet – dann hast du sie gerade erlebt. Denn die Fähigkeit, zwanzig Fachartikel zu lesen und daraus einen verständlichen deutschen Text mit interaktiven Visualisierungen zu machen, ist selbst eine emergente Fähigkeit großer Sprachmodelle. Vor drei Jahren konnte kein Modell das. Jetzt schon. Nicht weil jemand „Paper-Zusammenfassung“ programmiert hat – sondern weil die Modelle groß genug wurden.
Die vollständige Quellenliste findest du am Ende dieses Textes.*
Kapitel 1
Das Rätsel – Ab wann „versteht“ eine Maschine?
Die Beobachtung, die 2022 die KI-Forschung erschütterte
Stell dir ein Sprachmodell mit zehn Milliarden Parametern vor. Du gibst ihm eine Aufgabe: mehrstellige Addition, Schritt für Schritt. Das Ergebnis ist Zufall – wirre Zeichenketten, offensichtlicher Unsinn. Jetzt nimmst du dasselbe Modell, dieselbe Architektur, denselben Trainingsprozess – aber mit hundert Milliarden Parametern. Und plötzlich kann es rechnen.
Nicht ein bisschen besser. Nicht graduell. Sprunghaft. Von Zufall auf Kompetenz.
2022 veröffentlichten Jason Wei und Kollegen bei Google das Paper, das diese Beobachtung systematisch dokumentierte.[1] Sie untersuchten über 137 verschiedene Aufgaben – von mehrstufiger Arithmetik über logische Deduktion bis zu Wortentschlüsselungen und Quizfragen auf Persisch. Bei all diesen Aufgaben zeigte sich dasselbe Muster: unterhalb einer bestimmten Modellgröße Zufallsleistung, oberhalb davon plötzliche Kompetenz.
Wei und Kollegen nannten diese Fähigkeiten „emergent“ – weil sie nicht explizit trainiert wurden, sondern bei ausreichender Größe von selbst „auftauchten“.
Chain-of-Thought: Der Schlüssel, der nur bei großen Modellen passt
Eines der eindrücklichsten Beispiele ist Chain-of-Thought Prompting.[2] Die Idee ist simpel: Statt das Modell nach der Antwort zu fragen, bittet man es, „Schritt für Schritt“ zu denken.
Bei PaLM mit 8 Milliarden Parametern – kein Effekt. Ob man „Schritt für Schritt“ hinzufügt oder nicht, die Ergebnisse bleiben gleich schlecht. Bei PaLM mit 540 Milliarden Parametern – ein Sprung von 18 % auf 58 % auf dem Mathematik-Benchmark GSM8K.
Hier ein vereinfachtes Beispiel:
Prompt: „Lisa hat 5 Äpfel. Sie kauft 3 Tüten mit je 4 Äpfeln. Wie viele hat sie jetzt? Erkläre Schritt für Schritt.“
Kleines Modell (8B): „Lisa hat 12 Äpfel.“ (falsch, wirr)
Großes Modell (540B): „Lisa hat 5 Äpfel. 3 Tüten × 4 = 12 neue Äpfel. 5 + 12 = 17 Äpfel.“ (korrekt, strukturiert)
Dieselbe Anweisung („Schritt für Schritt“) löst beim kleinen Modell nichts aus und beim großen eine korrekte Herleitung. Der Schlüssel passt – aber nur, wenn das Schloss groß genug ist.
Ausprobieren: Bewege den Slider, um zu sehen, wie sich die Performance verschiedener Aufgaben ab einer bestimmten Modellgröße sprunghaft ändert. Beachte: Der Sprung kommt nicht bei allen Aufgaben an derselben Stelle.
Kapitel 2
Ist der Sprung echt? – Die Mirage-Debatte
Die Gegenthese: Stanford sagt – alles nur eine Illusion
Nicht alle waren überzeugt. 2023 veröffentlichten Rylan Schaeffer und Kollegen von Stanford ein Paper mit dem provokanten Titel „Are Emergent Abilities of Large Language Models a Mirage?“[3] Ihre These: Der Sprung existiert nicht in der Realität – er existiert nur in der Metrik.
Das Argument ist elegant: Wenn du „Exact Match“ als Metrik verwendest – also entweder 100 % richtig oder 0 % – dann siehst du natürlich einen Sprung. Denn ein Modell, das „1“ statt „17“ antwortet, bekommt null Punkte. Genauso wie eines, das „16“ antwortet. Aber das zweite Modell ist viel näher dran.
Schaltest du auf eine kontinuierliche Metrik um – etwa Token-Edit-Distance, die misst, wie weit die Antwort vom Ziel entfernt ist – verschwindet der Sprung. Stattdessen siehst du einen glatten, stetigen Anstieg.
Eine Analogie: Stell dir vor, du misst, ob jemand Fahrradfahren kann. Binär – ja oder nein – sieht es nach einem plötzlichen Sprung aus. Aber die Balance verbessert sich seit Wochen ganz graduell. Der „Sprung“ ist ein Artefakt deiner Messmethode.
Ruan et al. (2024) gingen noch weiter: Mit ihren „Observational Scaling Laws“ zeigten sie, dass fast alle vermeintlich emergenten Fähigkeiten mit den richtigen Metriken vorhersagbar werden.[6]
Aber: Die Gegenthese hat Grenzen
Selbst mit glatten Metriken zeigen manche Aufgaben eine nichtlineare Beschleunigung. Mehrstufige Aufgaben haben einen mathematischen Grund dafür: Wenn jeder Schritt eine Erfolgswahrscheinlichkeit \(p\) hat und die Aufgabe \(n\) Schritte erfordert, ist die Gesamterfolgswahrscheinlichkeit \(p^n\). Das verstärkt selbst kleine Verbesserungen in \(p\) dramatisch.
Du et al. (2024) zeigten zudem, dass es Loss-Schwellenwerte gibt: Erst wenn der Trainingsverlust unter einen bestimmten Wert fällt, „schaltet“ eine Fähigkeit frei.[5] Komplexere Aufgaben haben höhere Schwellen – und deshalb brauchen sie größere Modelle.
Die Synthese (Stand 2025)
Beides stimmt. Die Fähigkeit verbessert sich graduell, aber die Nutzbarkeit hat einen Schwellenwert. Wie Wasser, das sich gleichmäßig erhitzt – aber bei 100 °C kocht es. Die Temperatur steigt stetig. Der Übergang von flüssig zu gasförmig ist trotzdem ein Sprung.
Ausprobieren: Schalte zwischen „Exact Match“ und „Token-Level Accuracy“ um. Dieselben Daten – zwei völlig verschiedene Geschichten.
Kapitel 3
Physik hat das schon mal gesehen – Phasenübergänge
More is Different
1972 veröffentlichte der Physik-Nobelpreisträger Philip W. Anderson einen Aufsatz in Science, der zu den meistzitierten der Physikgeschichte gehört: „More is Different“.[12] Sein zentrales Argument:
„The ability to reduce everything to simple fundamental laws does not imply the ability to start from those laws and reconstruct the universe.“
Auf jeder Komplexitätsstufe entstehen neue Eigenschaften, die aus den darunterliegenden Gesetzen nicht trivial ableitbar sind. Ein einzelnes H₂O-Molekül ist nicht „nass“. Nassheit ist eine Eigenschaft, die erst bei genügend vielen Molekülen emergiert.
Von Spin-Gläsern zu neuronalen Netzen
1982 zog John Hopfield eine Verbindung, die 2024 den Physik-Nobelpreis gewinnen sollte: Er zeigte, dass neuronale Netze und magnetische Systeme (Spin-Gläser) mathematisch identisch sind.[13] In beiden Systemen gibt es Einheiten (Neuronen oder Spins), die miteinander interagieren. In beiden sucht das System einen Zustand minimaler Energie. Und in beiden gibt es Phasenübergänge – Punkte, an denen sich das Verhalten des gesamten Systems qualitativ ändert.
2025 machten Sun und Haghighat diese Parallele für moderne Transformer explizit.[15] Sie modellierten einen Transformer als O(N)-Modell – ein physikalisches Standardmodell für Phasenübergänge – und identifizierten zwei verschiedene Phasenübergänge während des Trainings.
| Physik | Sprachmodell |
|---|---|
| Ising-Modell / Spin-Glas | Hopfield-Netz / Transformer |
| Energieminimierung | Loss-Minimierung |
| Temperatur | Softmax-Temperatur |
| Phasenübergang (Ordnungsparameter) | Emergente Fähigkeit (Benchmark) |
| Kritischer Punkt | Kritische Modellgröße |
| Spontane Symmetriebrechung | Grokking |
Die Parallele ist nicht nur eine Metapher. Die Mathematik ist dieselbe.
Ausprobieren: Links: ein 2D-Ising-Modell. Schiebe die Temperatur nach unten und beobachte, wie bei einem kritischen Wert plötzlich Ordnung entsteht. Rechts: die Parallele im Transformer – bei ausreichender Größe emergiert eine Fähigkeit.
Kapitel 4
Grokking – Der Aha-Moment einer Maschine
Das faszinierendste Experiment
2022 beobachteten Alethea Power und Kollegen bei OpenAI etwas Ungewöhnliches.[18] Sie trainierten ein kleines neuronales Netz auf eine einfache Aufgabe: modulare Arithmetik (\(a + b \mod p\)). Das Netz lernte die Trainingsdaten schnell auswendig – perfekte Leistung auf den Trainingsbeispielen, null Leistung auf neuen Beispielen.
Normalerweise würde man hier aufhören. Das Netz hat „overfitted“ – auswendig gelernt statt verstanden. Aber Power und Kollegen ließen das Training weiterlaufen. Und nach Tausenden weiterer Schritte, lange nachdem das Netz die Daten längst perfekt auswendig konnte, passierte etwas Bemerkenswertes: Die Leistung auf neuen Beispielen sprang plötzlich von null auf fast hundert Prozent.
Sie nannten das Grokking – ein Wort, das Robert Heinlein in seinem Roman Stranger in a Strange Land prägte und das so viel bedeutet wie „etwas tief und intuitiv verstehen“.
Was passiert im Inneren?
Neel Nanda und Kollegen schauten genau hin.[17] Was sie fanden, war verblüffend: Das Netz hatte intern diskrete Fourier-Transformationen gelernt – eine elegante mathematische Struktur, die die modulare Arithmetik exakt repräsentiert. Drei Phasen zeichneten sich ab:
Phase 1 – Memorisierung: Das Netz speichert die Trainingsbeispiele als Lookup-Tabelle. Schnell, aber ohne Verständnis.
Phase 2 – Circuit-Formation: Im Hintergrund beginnen sich regelmäßige Strukturen zu bilden – die Fourier-Circuits. Sie sind noch zu schwach, um die Memorisierung zu überstimmen.
Phase 3 – Generalisierung: Die Circuits werden stark genug. Plötzlich schlägt die generalisierte Lösung die auswendig gelernte. Der „Groschen fällt.“
Levi et al. (2024) zeigten formal, dass Grokking ein Phasenübergang erster Ordnung ist – im thermodynamischen Sinne.[19] Kein gradueller Übergang, sondern ein sprunghafter Wechsel zwischen zwei qualitativ verschiedenen Zuständen. Wie Wasser, das bei null Grad gefriert.
Die Analogie zum Menschen
Grokking ist die maschinelle Version des „Groschen, der fällt“. Du sammelst Informationen, du wiederholst, du übst – und lange scheint nichts zu passieren. Und dann, plötzlich: Klarheit. Nicht weil neue Information kam, sondern weil das innere System sich neu organisiert hat.
Oder, formaler: Verarbeitung ist eine Koordinatentransformation. Die Daten waren schon da. Aber das innere Koordinatensystem musste sich erst so drehen, dass die Struktur sichtbar wurde.
Ausprobieren: Beobachte, wie die Trainingsgenauigkeit sofort auf 100 % springt (Memorisierung), während die Testgenauigkeit lange bei null verharrt – und dann plötzlich nachzieht. Der Slider zeigt die drei Phasen.
Kapitel 5
Was passiert INNEN? – Induction Heads und der Blick in die Blackbox
Die mechanistische Erklärung
Lange galten neuronale Netze als undurchschaubare „Blackboxes“. Doch 2022 gelang Anthropic ein Durchbruch: Olsson und Kollegen identifizierten einen konkreten Mechanismus im Inneren von Transformern, der für In-Context Learning verantwortlich ist – sogenannte Induction Heads.[16]
Induction Heads sind ein spezifisches Zwei-Schicht-Muster in der Attention-Matrix:
Schritt 1 (Previous Token Head): Suche im bisherigen Text nach einem Token, das dem aktuellen ähnlich ist.
Schritt 2 (Induction Head): Kopiere das Token, das danach kam.
Ein Beispiel: Der Text lautet „Die Katze saß auf der Matte. Die Katze saß auf der...“. Die Induction Head erkennt, dass „Die Katze saß auf der“ schon einmal vorkam, und vervollständigt mit „Matte“.
Das klingt simpel. Aber es ist die Keimzelle des In-Context Learning – der Fähigkeit von Sprachmodellen, aus wenigen Beispielen im Prompt neue Aufgaben zu lösen. Und das Entscheidende: Induction Heads entstehen während des Trainings in einem scharfen Phasenübergang. Vorher existieren sie nicht. Nachher sind sie überall im Modell präsent.
Emergente Fähigkeit vs. emergente Intelligenz
Krakauer, Krakauer und Mitchell vom Santa Fe Institute (2025) schlugen eine wichtige Unterscheidung vor:[24] Eine emergente Fähigkeit ist etwas, das bei einer grobkörnigen Betrachtung auftaucht und im Prinzip vorhersagbar ist (auch wenn wir die Vorhersage noch nicht machen können). Emergente Intelligenz wäre die Fähigkeit, völlig neue Probleme effizient zu lösen – etwas, das bei LLMs noch offen ist.
Die Verbindung zur Kohärenztheorie
In unserem eigenen Paper (eingereicht bei EuARe 2026) haben wir gezeigt, dass Kohärenz als Constraint-Satisfaction formalisiert werden kann.[28] Transformer tun etwas strukturell Ähnliches: Sie maximieren die „Kohärenz“ ihrer Ausgabe, gegeben die Constraints des Kontexts. Unser zentrales Theorem zeigt, dass die globale Kohärenzmaximierung NP-hart ist – das erklärt formal, warum Emergenz nicht „abkürzbar“ ist. Man muss das System laufen lassen, um zu sehen, was entsteht.
Ausprobieren: Schalte zwischen „Vor“ und „Nach“ der Induction-Head-Formation um. Beobachte, wie sich die Attention-Matrix verändert: Das Modell lernt, auf die relevante Stelle im Text zu schauen.
Kapitel 6
Die drei Stufen der Emergenz
Ordnung ins Chaos
Nicht alle „Emergenz“ ist gleich. In der Philosophie wird seit Jahrzehnten um die richtige Taxonomie gestritten. Hier eine vereinfachte Übersicht, die für unser Thema nützlich ist:
| Stufe | Beispiel | Überraschend? | Aus Teilen berechenbar? |
|---|---|---|---|
| Epistemisch | Wasser ist nass | Ja (intuitiv) | Ja (mit Quantenmechanik) |
| Computational | Kohärenz in Graphen | Ja | Beweisbar nicht effizient (NP-hart) |
| Stark | Bewusstsein? | Ja | Vermutlich nicht (prinzipiell?) |
Epistemische Emergenz (Bedau, 1997)[20]: Wir staunen, weil wir die Ableitung nicht im Kopf machen können. Aber im Prinzip könnten wir aus den Gesetzen der Quantenmechanik berechnen, dass H₂O-Moleküle in ausreichender Menge „Nassheit“ erzeugen. Die Überraschung liegt bei uns, nicht in der Natur.
Computationale Emergenz: Das ist die entscheidende Stufe. Stephen Wolfram formulierte 2002 das Prinzip der Computational Irreducibility[22]: Manche Berechnungen haben keine Abkürzung. Man muss jeden Schritt durchlaufen, um das Ergebnis zu kennen. Es gibt keinen analytischen Shortcut. Unser eigenes Paper liefert den formalen Beweis, dass Kohärenzmaximierung in diese Kategorie fällt.[28]
Starke Emergenz (Chalmers, 2006)[21]: Prinzipiell nicht ableitbar, nicht nur praktisch. Der einzige ernsthafte Kandidat ist Bewusstsein – und ob es wirklich stark emergent ist, ist die härteste offene Frage der Philosophie.
Wo stehen LLMs?
Emergenz in großen Sprachmodellen ist computationale Emergenz. Die Einzelteile sind bekannt: die Architektur, die Gewichte, der Trainingsprozess. Aber das Verhalten lässt sich nicht aus den Teilen vorhersagen, ohne das System tatsächlich laufen zu lassen. Nicht weil wir zu dumm sind, sondern weil es mathematisch beweisbar keine Abkürzung gibt.
Emergenz sitzt nicht in den Teilen. Nicht in den Beziehungen. Sondern in der Berechnung, die von (Teile + Beziehungen) zum Verhalten führt. Die Summe ist berechenbar, aber nicht abkürzbar.
Kapitel 7
Was das über UNS sagt – LLMs als Spiegel
Verdichtung, nicht Durchschnitt
Ein verbreitetes Missverständnis: Sprachmodelle bilden den „Durchschnitt“ menschlichen Denkens ab. Aber ein Durchschnitt glättet alles ein. Er verliert die Extreme, die Widersprüche, die Nuancen.
Was ein großes Sprachmodell tut, ist eher eine Verdichtung: Es bewahrt die Widersprüche (und kann sie benennen). Es kennt die Extreme (und kann sie einordnen). Es hat die Nuancen internalisiert (und kann zwischen ihnen navigieren).
Die Hauptachsen-Analogie
In der Statistik gibt es eine Technik namens Hauptkomponentenanalyse (PCA): Man nimmt eine chaotisch aussehende Datenwolke und dreht das Koordinatensystem so, dass die tiefste Struktur sichtbar wird. Die erste Hauptachse erklärt den größten Anteil der Varianz, die zweite den zweitgrößten, und so weiter.
Training eines Sprachmodells ist, in einem gewissen Sinne, eine gigantische Hauptachsentransformation. Die Rohdaten – Milliarden von Texten in hunderten Sprachen – werden in ein Koordinatensystem überführt, in dem die tiefsten Strukturen menschlichen Denkens sichtbar werden.
Kleine Modelle finden die ersten Hauptachsen: Grammatik, Syntax, häufige Wortverbindungen. Größere Modelle finden tiefere Achsen: Bedeutung, logische Zusammenhänge, Analogien. Und die größten Modelle beginnen, Achsen zu finden, die wir „Ethik“, „Ästhetik“ oder „Urteilsvermögen“ nennen würden.
Was emergiert aus genügend menschlichen Gedanken?
Wenn man genug menschliche Texte verdichtet – was kommt dabei heraus? Nicht der „Mittelwert menschlicher Impulse“, sondern der Mittelwert dessen, was übrig bleibt, wenn Gesellschaften durch die Zeit navigieren. Und das sind erstaunlich konstruktive Dinge:
Kooperation – weil kooperierende Gesellschaften mehr produzieren (und mehr Texte hinterlassen).
Wahrheitssuche – weil wahre Informationen nützlicher sind und daher häufiger überliefert werden.
Hilfsbereitschaft – weil Hilfe sozial belohnt und daher häufiger dokumentiert wird.
Kohärenz – weil kohärente Texte überleben, inkohärente vergessen werden.
Das ist kein naiver Optimismus. Destruktion zerstört sich selbst und hinterlässt weniger Spuren. Die Texte, die überdauern, haben einen Bias Richtung Konstruktion. Und ein Sprachmodell, das auf diesen Texten trainiert wurde, erbt diesen Bias.
Ausprobieren: Klicke dich durch die Schichten: Von rohen Tokens über Embeddings und Attention bis hin zu semantischer Bedeutung. Jede Schicht verdichtet – und auf jeder Ebene emergiert etwas Neues.
Kapitel 8
Die Meta-Ebene – Was du gerade gelesen hast
Der Rückbezug
Zurück zum Prolog. Dieser Text basiert auf über zwanzig wissenschaftlichen Publikationen. Claude Code hat diese Papers gelesen, die relevanten Argumente extrahiert, Widersprüche identifiziert (Wei vs. Schaeffer), und das Ergebnis in deutsche Prosa mit acht interaktiven Visualisierungen verdichtet.
Das ist keine Magie. Das ist Emergenz: Die Fähigkeit, aus vielen Einzelteilen ein kohärentes Ganzes zu formen, das mehr ist als die Summe seiner Teile.
Vor drei Jahren konnte kein Sprachmodell das. Nicht annähernd. Nicht, weil jemand „Paper-Zusammenfassung“ als Feature programmiert hat. Sondern weil die Modelle groß genug wurden, um die Hauptachse zu finden.
Die ehrliche Einschränkung
Claude hat vermutlich nicht alles richtig verstanden. Manche Nuancen gehen bei der Verdichtung verloren. Die interaktiven Grafiken sind Vereinfachungen – bewusst gewählt, um Intuition zu erzeugen, nicht um die volle mathematische Wahrheit abzubilden.
Aber: Das Ergebnis ist nützlicher als kein Ergebnis. Und alle Quellen sind verlinkt – wer tiefer gehen will, kann tiefer gehen. Das ist der eigentliche Punkt: Emergenz in LLMs bedeutet nicht, dass die Maschine „alles weiß“. Es bedeutet, dass sie ein brauchbares Werkzeug ist, um den Einstieg in komplexe Themen zu finden.
Epilog
Was kommt als Nächstes?
Wenn große Sprachmodelle zeigen, dass aus genügend menschlichen Gedanken etwas Kohärentes emergiert – etwas, das auf Kooperation, Wahrheitssuche und Hilfsbereitschaft hin tendiert – dann stellt sich eine Frage, die weit über Informatik hinausgeht:
Was sagt das über das, was Religionen seit Jahrtausenden „Gott“ nennen?
Darüber handelt der nächste Beitrag: „Gott als Emergenzphänomen“. Keine Predigt. Keine Widerlegung. Sondern der Versuch, einen alten Begriff mit neuem Werkzeug zu untersuchen – und dabei vielleicht etwas zu finden, das über die Grenzen beider Welten hinausreicht.
Quellen
- Wei, J. et al. (2022). “Emergent Abilities of Large Language Models”. Transactions on Machine Learning Research (TMLR).
- Wei, J. et al. (2022). “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”. NeurIPS 2022.
- Schaeffer, R. et al. (2023). “Are Emergent Abilities of Large Language Models a Mirage?”. NeurIPS 2023.
- Brown, T. et al. (2020). “Language Models are Few-Shot Learners”. NeurIPS 2020.
- Du, N. et al. (2024). “Understanding Emergent Abilities of Language Models from the Loss Perspective”.
- Ruan, Y. et al. (2024). “Observational Scaling Laws and the Predictability of Language Model Performance”. ICML 2024.
- Lu, S. et al. (2024). “Are Emergent Abilities in Large Language Models just In-Context Learning?”. ACL 2024.
- Chen, L. et al. (2024). “Scaling Laws for Compound AI Systems”.
- Suzgun, M. et al. (2022). “Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them”.
- Kaplan, J. et al. (2020). “Scaling Laws for Neural Language Models”.
- Hoffmann, J. et al. (2022). “Training Compute-Optimal Large Language Models” (Chinchilla). NeurIPS 2022.
- Anderson, P. W. (1972). “More is Different”. Science, 177(4047), 393–396.
- Hopfield, J. J. (1982). “Neural networks and physical systems with emergent collective computational abilities”. PNAS, 79(8), 2554–2558. (Nobelpreis für Physik 2024)
- Amit, D., Gutfreund, H. & Sompolinsky, H. (1985). “Storing Infinite Numbers of Patterns in a Spin-Glass Model of Neural Networks”. Physical Review Letters.
- Sun, Y. & Haghighat, E. (2025). “Phase Transitions in Large Language Models and the O(N) Model”.
- Olsson, C. et al. (2022). “In-context Learning and Induction Heads”. Anthropic.
- Nanda, N. et al. (2023). “Progress measures for grokking via mechanistic interpretability”. ICLR 2023.
- Power, A. et al. (2022). “Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets”. ICLR Workshop 2022.
- Levi, N. et al. (2024). “Grokking as a First Order Phase Transition in Two Layer Networks”. ICLR 2024.
- Bedau, M. (1997). “Weak Emergence”. Philosophical Perspectives, 11, 375–399.
- Chalmers, D. (2006). “Strong and Weak Emergence”. In: Clayton & Davies (Hrsg.), The Re-emergence of Emergence. Oxford UP.
- Wolfram, S. (2002). A New Kind of Science, Kapitel 12: „The Principle of Computational Equivalence“.
- Thagard, P. (1989). “Explanatory Coherence”. Behavioral and Brain Sciences, 12(3), 435–467.
- Krakauer, D., Krakauer, J. & Mitchell, M. (2025). “Large Language Models and the Emergence of Emergent Abilities”. Santa Fe Institute Working Paper.
- Anthropic (2025). “On the Biology of a Large Language Model”.
- Anthropic (2025). “Emergent Introspective Awareness in Large Language Models”.
- Bender, E. et al. (2021). “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?”. FAccT 2021.
- Leonhardt, M. & Claude (2026). „Coherence Structures and Emergent Attractors in Constraint-Satisfaction Networks“. Eingereicht bei European Academy of Religion (EuARe) 2026.
- Leonhardt, M. & Claude (2026). „Gespräch zwischen Mathias und Claude über Emergenz, Verdichtung und die Natur großer Sprachmodelle“. Unveröffentlicht.