Hopfield-Netze einfach erklärt – vom Spinglas zur Attention

Kapitel 1

Drei Demos in 30 Sekunden

Im Oktober 2024 bekamen John Hopfield und Geoffrey Hinton den Nobelpreis für Physik. Begründung des Komitees: „für grundlegende Beiträge, die zur modernen KI geführt haben“. Eine ungewöhnliche Auszeichnung. Beide sind keine Physiker im engeren Sinn – Hopfield war Festkörper-Theoretiker, Hinton Kognitionsforscher. Der Preis war für etwas, das beide vor über vierzig Jahren begonnen hatten: ein mathematisches Modell, das ursprünglich nur Bilder erinnern sollte.

Heute ist genau dieses Modell, in einer modernisierten Variante, der Mechanismus, der jedes Sprachmodell antreibt: jeden Chatbot, jede Bild-KI, jeden Long-Context-Transformer. Die zugrundeliegende Operation wird in den Rechenzentren der Welt sehr häufig ausgeführt – eine quantitative Einschätzung folgt in Kapitel 7.

Drei Beispiele, die zeigen, warum:

Demo 1: Ein verrauschtes Bild wird wieder lesbar

Ein anschauliches Beispiel: ein Foto, das mit Rauschen überlagert ist – ein QR-Code mit Kratzern, eine Ziffer, die jemand zu schnell hingekritzelt hat. Ein Hopfield-Netz aus dem Jahr 1982 stellt daraus wieder ein lesbares Bild her, sofern das ursprüngliche Muster im Netz gespeichert war.

Im nächsten Kapitel wird das konkret nachgebaut: zehn handgeschriebene Ziffern werden gespeichert, eine wird mit Rauschen versehen, das Netz läuft – und nach etwa zweihundert Pixel-Flips ist das Original wieder da. Die Mathematik hinter dieser Wiederherstellung ist ein Spinglas-Modell, das Ernst Ising 1925 für magnetische Kristalle entwickelt hatte. Hopfield zeigte 1982, dass dieselbe Mathematik auch eine Form von Bilderinnerung leisten kann, sobald die Spins als Pixel und die Magnet-Kopplungen als Verbindungsmuster zwischen Pixeln gelesen werden. Eine analytische Linie, die fast unbemerkt vom Eisenmagneten zur Mustererkennung führte.

Demo 2: Ein Sprachmodell findet das richtige Wort

Wenn ein Sprachmodell antwortet, schaut es bei jedem einzelnen Wort, das es generiert, in seinen Kontext zurück: „welches der bisherigen 8000 Tokens ist gerade relevant?“ Das nennt sich Attention. Vaswani et al. haben es 2017 in ihrem Paper „Attention is all you need“ eingeführt, und es ist seitdem die zentrale Operation jeder GPT-, Claude-, Llama- oder Gemini-Architektur.

2020 zeigten Hubert Ramsauer und sein Team in Linz, dass die Attention-Operation mathematisch identisch ist zu einer modernisierten Version von Hopfields Modell. Nicht analog – sondern dieselbe Gleichung, geschrieben mit anderen Buchstaben. Daher der Titel ihres Papers: „Hopfield Networks is All You Need“. Eine kleine Provokation gegen Vaswani, vor allem aber eine ernsthafte Beobachtung.

Die Konsequenz: Was 1982 Pixel im Spinglas erinnerte, erinnert heute Wörter im Sprachmodell. Es ist nicht eine vergleichbare, sondern dieselbe Architektur – nur mit anderem Inhalt der gespeicherten Muster.

Demo 3: Memristor-Chips lösen NP-harte Probleme in einem Schritt

Eine dritte Anwendung, die das größere Bild zeigt: 2020 demonstrierten Ingenieure von HP Labs einen Chip aus sogenannten Memristoren – analogen Bauelementen, deren Widerstand sich elektrisch verstellen lässt. In einer Kreuzmatrix-Anordnung ist die Physik dieser Schaltung mathematisch äquivalent zu einem Hopfield-Netz. Dabei wird das Optimierungsproblem direkt in die Memristor-Werte programmiert, Strom fließt, und die Lösung wird an den Spannungen abgelesen. Dies geschieht in einem analogen Schritt, ohne iterative Berechnung.

Für NP-harte Probleme wie das Layout-Routing von Chips oder das Travelling-Salesman-Problem ergibt sich daraus eine Energie-Effizienz, die nach den veröffentlichten Messungen etwa vier Größenordnungen besser liegt als bei digitalen Verfahren. Im September 2024 wurde an der Universität Peking gezeigt, dass eine Säule von Memristoren mathematisch äquivalent zu einem Hopfield-Attraktor-Netzwerk ist. Hopfields Modell beschreibt damit nicht länger nur einen Algorithmus auf einem Computer, sondern ein physikalisches Bauteil.

Der rote Faden

Drei sehr unterschiedliche Szenen: Bilder erinnern, Wörter generieren, NP-harte Probleme lösen. Eine Mathematik. Dieser Beitrag baut den Bogen Schritt für Schritt: Wir beginnen mit dem 1982er Original und seiner einfachsten Form (Kapitel 2), schauen, wo es bricht (Kapitel 3), reparieren es mit zwei Sprüngen (Kapitel 4 und 5), und sehen am Ende eine überraschende Eigenschaft, die das Netz über das hinaus trägt, was wir ihm gezeigt haben (Kapitel 6). Kapitel 7 zeigt, wo das Ganze heute tatsächlich eingesetzt wird – manchmal unter dem Namen „Hopfield“, oft unter anderem Namen.

Falls du den Eigenwerte-Beitrag gelesen hast: Vieles hier ist eine Fortsetzung. Hopfields Netz ist auch ein Eigenwertproblem – aber eines mit beweisbarer Konvergenz und einem nichtlinearen Sign-Schritt. Die Pseudoinverse aus Kapitel 4 ist Ridge Regression mit \(\lambda = 0\). Der Kernel-Trick aus Kapitel 6 ist mathematisch derselbe wie dort. Wer den Eigenwerte-Beitrag gelesen hat, kann diesen hier als Vertikale dazu lesen.

Kapitel 2

Das Original – Energie, die rollt

Eine Landschaft mit Tälern

Ein anschauliches Bild für das Folgende ist eine Hügellandschaft mit Tälern unterschiedlicher Tiefe. Wird eine Kugel hineingeworfen, rollt sie nicht zufällig, sondern systematisch nach unten, und sie rollt nicht ewig: sie kommt in einem Tal zur Ruhe.

Ein Hopfield-Netz lässt sich strukturell genauso beschreiben. An die Stelle der geographischen Landschaft tritt eine Energie-Landschaft. An die Stelle der Kugel tritt ein Zustand des Netzes, also eine Belegung der Neuronen mit Werten. An die Stelle des „Rollens“ tritt eine Update-Regel, die diesen Zustand schrittweise so verändert, dass die Energie sinkt. Und an die Stelle des „in einem Tal zur Ruhe Kommens“ treten Fixpunkte der Update-Regel, in denen das Netz stehenbleibt.

Hierbei liegt die entscheidende Wahl in der Konstruktion der Energie-Landschaft: Werden die Täler genau dort angelegt, wo die gespeicherten Muster liegen, so wird die Update-Regel zu einem Wiedererkennungs-Verfahren. Ein verrauschter Zustand wird „rollend“ in das nächstgelegene Tal geführt – also zu jenem gespeicherten Muster, das der verrauschten Eingabe am nächsten kam. Wiedererkennung als Schwerkraft.

Die Bauteile, im Einzelnen

Konkreter. Ein Hopfield-Netz hat:

\(N\) Neuronen, die jeweils einen Wert in \(\{-1, +1\}\) annehmen. Für die folgenden MNIST-Demos gilt \(N = 784\), also \(28 \times 28\) Pixel, wobei \(-1\) = weiß, \(+1\) = schwarz.
Einen Zustand \(\mathbf{v} \in \{-1,+1\}^N\), die aktuelle Belegung aller Neuronen. Dies ist die „Kugel" in der Landschaft.
Eine Gewichtsmatrix \(W \in \mathbb{R}^{N\times N}\), die die Verbindungen zwischen Neuronen beschreibt. Hieraus wird die Energie-Landschaft konstruiert; die Konstruktionsregel folgt sogleich.
Eine Energie-Funktion:

E(\mathbf{v}) \;=\; -\tfrac{1}{2}\,\mathbf{v}^\top W\,\mathbf{v}

Diese sogenannte quadratische Form bildet aus dem Vektor und der Matrix einen Skalar. \(E(\mathbf{v})\) beschreibt anschaulich, wie gut der Zustand \(\mathbf{v}\) zur Verbindungsstruktur \(W\) passt: niedrig bei Übereinstimmung mit den im Netz angelegten Kopplungen, hoch bei Widerspruch.

Die Hebb-Regel: Täler an die richtigen Stellen legen

Damit stellt sich die Konstruktionsfrage: Wie wird \(W\) so gewählt, dass die Täler der Energie-Landschaft dort liegen, wo die gespeicherten Muster \(\boldsymbol{\xi}_1, \ldots, \boldsymbol{\xi}_p\) sind? Donald Hebb hatte bereits in seinem Buch The Organization of Behavior (1949) eine biologisch motivierte Antwort formuliert: „Neurons that fire together, wire together.“ Wenn zwei Neuronen in einem gespeicherten Muster denselben Wert annehmen, soll ihre Verbindung verstärkt werden; andernfalls geschwächt. Mathematisch in einer Zeile:

W \;=\; \frac{1}{N}\sum_{\mu=1}^{p}\, \boldsymbol{\xi}_\mu\, \boldsymbol{\xi}_\mu^\top, \qquad W_{ii} = 0

Dies beschreibt anschaulich eine Aufsummierung: Jedes gespeicherte Muster steuert sein eigenes äußeres Produkt zur Matrix bei, und alle diese äußeren Produkte werden übereinandergelegt. Zwei Neuronen, die in vielen Mustern dasselbe Vorzeichen tragen, häufen eine starke positive Kopplung an; zwei, die in vielen Mustern entgegengesetzte Vorzeichen haben, häufen eine starke negative. Die Diagonale wird auf null gesetzt, damit Neuronen sich nicht mit sich selbst koppeln – eine Konvention, ohne die die Dynamik in einem trivialen Selbst-Fixpunkt hängenbleiben könnte.

Die Update-Regel: rollen lassen

Mit \(W\) als Landschaft wird der Zustand iteriert. Pro Schritt wird genau ein Neuron geprüft und gegebenenfalls aktualisiert:

v_i \;\leftarrow\; \mathrm{sign}\!\left(\sum_{j=1}^{N} W_{ij}\, v_j\right)

Die Summe \(\sum_j W_{ij}\,v_j\) beschreibt anschaulich das gewichtete Votum aller anderen Neuronen für das Neuron \(i\): jedes andere Neuron \(j\) zieht es entlang seiner Kopplung \(W_{ij}\) in eine Richtung. Fällt die Summe positiv aus, wird \(v_i\) auf \(+1\) gesetzt; fällt sie negativ aus, auf \(-1\). Pro Neuron also ein lokaler Entscheid, der die aktuelle Verteilung aller übrigen Neuronen berücksichtigt.

Die Reihenfolge der Neuronen ist dabei asynchron: in jedem Mikroschritt wird ein zufällig gewähltes Neuron aktualisiert, anschließend das nächste, anschließend das nächste. Ein voller Durchlauf durch alle \(N\) Neuronen heißt Sweep. Das Netz konvergiert, sobald ein voller Sweep keinen Flip mehr produziert.

Die Lyapunov-Garantie: Konvergenz ist Theorem

Die zentrale mathematische Aussage des Hopfield-Modells ist diese: Jeder akzeptierte Flip senkt die Energie.

Das lässt sich in einer kurzen Rechnung zeigen. Angenommen, im Sweep wird Neuron \(i\) von \(v_i\) auf \(v_i' = -v_i\) geflippt. Dann ist die Änderung der Energie:

\Delta E \;=\; E(\mathbf{v}') - E(\mathbf{v}) \;=\; (v_i - v_i') \cdot \sum_{j \neq i} W_{ij}\, v_j \;=\; 2\,v_i \cdot \sum_{j \neq i} W_{ij}\, v_j

Aber die Update-Regel sagt: wir flippen \(v_i\) genau dann, wenn das Vorzeichen von \(v_i\) nicht mehr mit dem Vorzeichen der Summe \(\sum_j W_{ij} v_j\) übereinstimmt. Das heißt: nach dem Flip stimmen sie überein, vorher stimmten sie nicht. Genau in diesem Fall ist \(2 v_i \sum_j W_{ij} v_j\) negativ – und damit \(\Delta E < 0\). Die Energie sinkt.

Mit einer beschränkten Energie-Funktion auf einem endlichen Zustandsraum (\(2^N\) mögliche Zustände) und einer monoton fallenden Energie folgt: Das Netz muss konvergieren. Es kann nicht in eine Endlosschleife geraten, weil dafür ein Energiewert zweimal angenommen werden müsste – und das wäre ein Widerspruch zum echten Sinken.

Diese Eigenschaft heißt Lyapunov-Funktion, nach dem russischen Mathematiker Alexander Lyapunov (1857–1918), der das Konzept allgemein für dynamische Systeme entwickelte. Hopfield hat im Wesentlichen gezeigt: das Netz hat eine Lyapunov-Funktion, nämlich seine eigene Energie. Daraus folgt Konvergenz.

Zwischenstand. Wir haben ein Netz mit \(N\) binären Neuronen, einer Gewichtsmatrix \(W\), einer Energie-Funktion und einer Update-Regel. Die Update-Regel senkt monoton die Energie, also kommt das Netz immer in einem Fixpunkt zur Ruhe. Wenn die Täler der Energie an den Stellen liegen, wo unsere gespeicherten Muster sind, ist das eine Mustererkennungs-Maschine. Das ist Hopfield 1982, fast vollständig.

Anschauen: Wiedererkennung als Schwerkraft

Damit ist der theoretische Apparat vollständig – und lässt sich konkret beobachten. Im folgenden Demo sind zehn handgeschriebene MNIST-Ziffern (0 bis 9, je ein Exemplar) als Muster im Netz gespeichert. Die verrauschte Eingabe wird Schritt für Schritt zurückgeführt, mit der Energie-Treppe live daneben.

Probieren. Wähle eine Ziffer aus, schiebe den Rausch-Regler nach rechts (z.B. auf 20 %), klicke „Start“. Beobachte, wie sich die Pixel umstellen – und wie die Energie unter jedem Flip ein Treppenstückchen tiefer rutscht. Am Ende: Stillstand, sobald das nächstgelegene Tal erreicht ist.

Was hier sichtbar wird, ist eine geordnete Abfolge von lokalen Entscheidungen: Verrauschter Zustand → ein Neuron erkennt seinen Konflikt mit dem übrigen Votum → Flip → Energie sinkt um einen kleinen Betrag → nächstes Neuron. Die Iteration endet, sobald keines der Neuronen mehr einen Konflikt feststellt. Die Energie-Treppe rechts ist dabei kein didaktisches Hilfsmittel, das nachträglich angeheftet wurde, sondern die Lyapunov-Funktion in Echtzeit.

Dies ist das idealisierte Bild. Die Realität von Hopfield-Netzen auf echten Daten ist härter, und sie wird im nächsten Kapitel zum Vorschein kommen. Die Mathematik dahinter – Energie, asynchrones Update, Lyapunov-Konvergenz – bleibt jedoch genau die soeben hergeleitete.

Kapitel 3

Wo es bricht – die Hebbsche Falle

Das vorhergehende Kapitel endete mit einem Hinweis: das gezeigte Bild ist idealisiert. Im Folgenden wird konkret, woran sich diese Idealisierung stößt. Dazu wird das Hopfield-Modell genau auf jenes Setup angesetzt, in dem es seine Aufgabe scheinbar erfüllen sollte – zehn handgeschriebene Ziffern wiederzufinden –, und das Resultat sachlich protokolliert.

Ein Test, der bricht

Im Demo aus Kapitel 2 wurde jeweils eine Ziffer verrauscht und wieder herausgeführt. Hierbei lief alles sauber. Der natürliche nächste Schritt: alle zehn Ziffern parallel speichern, jede einzelne verrauscht zurückrufen, beobachten, ob jede ihren eigenen Attraktor findet.

Probieren. Stelle einen Rauschanteil ein und klicke „Alle zurückrufen". Im Hebb-Modus zeigt sich, dass alle zehn Anfragen im selben Endzustand landen – einem Bild, das keine der gespeicherten Ziffern mehr ist. Der Toggle auf „Pseudoinverse" rechts lässt das Problem verschwinden; warum, ist Thema des nächsten Kapitels.

Das Beobachtete lässt sich knapp zusammenfassen: Hebb produziert auf diesem Datensatz keine zehn verschiedenen Attraktoren, sondern einen einzigen. Jede verrauschte Eingabe wird in denselben Zustand gezogen. Dieser Zustand ist visuell weder eine 0 noch eine 1 noch eine 2 – er ist eine Form, die in den gespeicherten Mustern gar nicht vorkommt. In der Literatur wird ein solcher Zustand spurious state genannt: ein Tal der Energie-Landschaft, das durch die Konstruktion entstanden ist, ohne dass es einer Speicherabsicht entspricht.

Diagnose über das Spektrum

Die Ursache lässt sich an der Welt-Matrix \(W\) ablesen. Dazu werden die Eigenwerte und Eigenvektoren von \(W_{\mathrm{Hebb}}\) berechnet, wobei für die zehn ersten MNIST-Ziffern und \(N=784\) folgendes Bild entsteht:

\lambda_1 \approx 6{,}65, \quad \lambda_2 \approx 0{,}65, \quad \lambda_3 \approx 0{,}48, \quad \ldots

Hier liegt zwischen dem ersten und dem zweiten Eigenwert ein Faktor von etwa zehn. Dies bedeutet anschaulich, dass die Energie-Landschaft eine dominante Richtung besitzt und alle übrigen vergleichsweise flach sind. Genau in diese dominante Richtung wird der Zustand asymptotisch gezogen, unabhängig vom Startpunkt. Dass die größte Eigenrichtung alles übrige verschluckt, ist dasselbe Eigenprinzip, das auch PCA, PageRank und Markov-Ketten regiert.

Welche Richtung das ist, lässt sich konkret prüfen. Sei

\bar{\boldsymbol{\xi}} \;=\; \frac{1}{p}\sum_{\mu=1}^{p} \boldsymbol{\xi}_\mu

der Mittelwert über alle gespeicherten Muster. \(\bar{\boldsymbol{\xi}}\) beschreibt anschaulich eine „Durchschnitts-Ziffer", die alle pixelweisen Tendenzen der zehn Originale enthält: Hintergrund-Pixel im Mittel dunkel, Vordergrund-Pixel an Stellen, an denen sich viele Ziffern überdecken (etwa in der Bildmitte). Der Cosinus zwischen \(\bar{\boldsymbol{\xi}}\) und dem ersten Eigenvektor von \(W_{\mathrm{Hebb}}\) beträgt etwa \(0{,}9999\). Beide Vektoren sind also faktisch identisch. Der dominante Eigenvektor ist der Mittelwert-Vektor.

Zwischenstand. Die zehnfache Spektrallücke ist kein Implementierungsfehler. Sie entsteht systematisch, weil Hebb jedes Muster einzeln aufaddiert und gemeinsame Pixelmuster sich in der Summe versammeln – aus zehn ungefähr gleich orientierten Bias-Anteilen wird ein einziger, dominanter Bias-Anteil. Genau hierdurch wird die „Durchschnitts-Ziffer" zum tiefsten Tal der Energie-Landschaft. Jede Anfrage rollt dorthin.

Die strukturellen Bedingungen, die verletzt werden

Das Problem lässt sich präziser fassen, indem die Voraussetzungen genannt werden, unter denen die Hebb-Regel beweisbar funktioniert. Diese sind zwei:

Orthogonalität. Die gespeicherten Muster sollen paarweise nahezu senkrecht aufeinander stehen, also \(\boldsymbol{\xi}_\mu^\top \boldsymbol{\xi}_\nu \approx 0\) für \(\mu \neq \nu\). Für MNIST-Ziffern liegen die paarweisen Skalarprodukte im Bereich von 400 bis 600 (bei \(N = 784\)) – sie haben also etwa zwei Drittel ihrer Pixel gemeinsam und sind alles andere als orthogonal.
Zero-Mean. Der Mittelwert jedes einzelnen Musters soll bei null liegen, also etwa gleich viele \(+1\)- wie \(-1\)-Pixel enthalten. Die zehn MNIST-Ziffern haben mittlere Pixelwerte zwischen \(-0{,}63\) und \(-0{,}90\): in jedem Bild ist deutlich mehr Hintergrund (weiß, also \(-1\)) als Tinte (schwarz, also \(+1\)). Dies entfernt sich erheblich vom geforderten Mittelwert null.

Beide Voraussetzungen werden also gleichzeitig und deutlich verletzt. Daher ist das Versagen der Hebb-Regel auf MNIST kein Überraschungsbefund, sondern erwartbar – es gehört zum mathematisch wohlverstandenen Verhalten der Konstruktion außerhalb ihres Gültigkeitsbereichs.

Ein Reparaturversuch und sein neues Problem

Im Folgenden wird ein nahegelegener Reparaturversuch betrachtet: die Muster werden vor dem Aufsummieren zentriert. Konkret wird von jedem Muster der gemeinsame Mittelwert-Vektor \(\bar{\boldsymbol{\xi}}\) subtrahiert, und die Hebb-Matrix anschließend aus den zentrierten Mustern \(\tilde{\boldsymbol{\xi}}_\mu = \boldsymbol{\xi}_\mu - \bar{\boldsymbol{\xi}}\) gebildet:

W_{\mathrm{zentriert}} \;=\; \frac{1}{N}\sum_{\mu=1}^{p} \tilde{\boldsymbol{\xi}}_\mu\, \tilde{\boldsymbol{\xi}}_\mu^\top, \qquad W_{ii} = 0

Diese Operation entspricht anschaulich dem Entfernen des gemeinsamen Bias. Im Spektrum äußert sich das deutlich: aus dem Verhältnis \(\lambda_1 / \lambda_2 \approx 10\) wird etwa \(1{,}4\). Die dominante Richtung ist verschwunden, das Spektrum ist deutlich flacher.

Allerdings tritt anstelle des einen Defekts ein anderer. Wird derselbe Recall-Versuch mit der zentrierten Matrix durchgeführt, landet das Netz nun bei den Negationen der gespeicherten Muster: aus der gespeicherten 7 wird das invertierte Bild – schwarzer Hintergrund mit hellen Klecksen an Stellen, an denen die Original-7 schwarze Pixel hatte. Sichtbar wird das daran, dass die rekonstruierten Bilder zwischen 507 und 618 helle Pixel haben, während die Originale nur 39 bis 146 hatten.

Hinter diesem Verhalten steht eine grundlegende Eigenschaft des Hopfield-Modells: die Energie-Funktion \(E(\mathbf{v}) = -\tfrac{1}{2}\mathbf{v}^\top W \mathbf{v}\) ist symmetrisch unter \(\mathbf{v} \to -\mathbf{v}\), also \(E(\mathbf{v}) = E(-\mathbf{v})\). Folglich ist mit jedem Muster automatisch auch dessen Negation ein Attraktor. Bei stark unausgewogenen Originalen mit viel Hintergrund und wenig Tinte ist die Negation derselben Energie zugeordnet wie das Original. Solange ein Bias-Term das Original bevorzugt hatte, bestand diese Symmetrie nur formal; nach der Zentrierung wirkt sie voll. Daher rastet das Netz nun ebenso häufig auf der negativen Seite ein.

Dies bedeutet: die Zentrierung beseitigt den Bias-Sink, jedoch nicht das eigentliche strukturelle Problem. Letzteres ist die starke Korrelation zwischen den gespeicherten Mustern, die der Mittelwert-Subtraktion gegenüber invariant ist. Ein einzelner Defekt wurde gegen einen anderen ausgetauscht.

Was übrigbleibt

Aus diesem Befund ergibt sich die Aufgabenstellung für das nächste Kapitel. Eine korrekte Konstruktion von \(W\) muss zwei Defekte gleichzeitig kompensieren: den dominanten Bias-Anteil und die Korrelation der Muster untereinander. Im nächsten Kapitel wird gezeigt, dass eine einzige Änderung in der Konstruktion beides leistet – und dass diese Änderung mathematisch exakt einer wohlbekannten Operation aus der linearen Regression entspricht. Wer den Eigenwerte-Beitrag gelesen hat, wird sie wiedererkennen.

Kapitel 4

Erster Sprung – die Pseudoinverse

Aus dem vorigen Kapitel bleibt eine präzise Aufgabenstellung: die Welt-Matrix \(W\) muss so konstruiert werden, dass weder ein dominanter Bias-Sink entsteht noch die ±-Symmetrie zwischen Mustern und ihren Negationen ausgenutzt werden kann. Im Folgenden wird gezeigt, dass eine einzige Änderung in der Konstruktion beides leistet. Dies ist ein klassisches Resultat von Personnaz, Guyon und Dreyfus aus dem Jahr 1985 – lange bevor Hopfields Netz seinen heutigen Status als Vorläufer der Transformer erhielt.

Die eine Stelle des Unterschieds

Sei \(X \in \{-1,+1\}^{N \times p}\) die Matrix, deren \(p\) Spalten die gespeicherten Muster \(\boldsymbol{\xi}_1, \ldots, \boldsymbol{\xi}_p\) sind. Die zwei Konstruktionsformeln stehen damit unmittelbar nebeneinander:

W_{\mathrm{Hebb}} \;=\; \frac{1}{N}\,X\,X^\top

W_{\mathrm{PI}} \;\;\,= \;X\,(X^\top X)^{-1}\,X^\top

Der einzige Unterschied ist der Faktor \((X^\top X)^{-1}\), der zwischen die beiden \(X\)-Faktoren tritt. Bei Hebb steht dort effektiv die Einheitsmatrix (mal \(1/N\)). Bei der Pseudoinverse steht dort die Inverse der Gram-Matrix der gespeicherten Muster.

\(X^\top X\) beschreibt anschaulich die paarweise Geometrie der gespeicherten Muster: jeder Eintrag \((X^\top X)_{\mu\nu} = \boldsymbol{\xi}_\mu^\top \boldsymbol{\xi}_\nu\) ist das Skalarprodukt zwischen zwei Mustern und damit ein Maß dafür, wie sehr sie sich ähneln. Bei der MNIST-Stichprobe aus Kapitel 3 liegen diese Werte zwischen 400 und 600 (von 784) – die Off-Diagonale ist also alles andere als null. Die Inverse \((X^\top X)^{-1}\) korrigiert genau diese Überlappung. Hierdurch werden die Korrelationen aus der Welt-Matrix herausgerechnet, bevor sie zur Energie-Landschaft wird.

Der orthogonale Spezialfall

Ein Sonderfall präzisiert das Verhältnis der beiden Regeln. Sind die Muster paarweise orthogonal, also \(\boldsymbol{\xi}_\mu^\top \boldsymbol{\xi}_\nu = N\,\delta_{\mu\nu}\), so wird \(X^\top X = N \cdot I_p\) und folglich \((X^\top X)^{-1} = \frac{1}{N}\, I_p\). Beide Konstruktionen liefern dann dieselbe Matrix.

Dies bedeutet: die Hebb-Regel ist der Spezialfall der Pseudoinverse-Regel, der auftritt, wenn die gespeicherten Muster bereits unkorreliert sind. Der zusätzliche Faktor wirkt nur dann, wenn er etwas zu tun hat. Außerhalb dieses Idealfalls ist er das einzige Mittel, das die Korrelation aus dem Konstruktionsergebnis entfernt.

Die algebraische Garantie

Aus der Konstruktion folgt unmittelbar eine Identität, die das gesamte Recall-Verhalten erklärt. Sei \(\boldsymbol{\xi}_p\) eines der gespeicherten Muster. Dann ist \(\boldsymbol{\xi}_p\) die \(p\)-te Spalte von \(X\); also gilt \(X^\top \boldsymbol{\xi}_p = \mathbf{e}_p \cdot \boldsymbol{\xi}_p^\top \boldsymbol{\xi}_p\) bis auf Anteile der anderen Muster – allgemein ausgedrückt: \((X^\top \boldsymbol{\xi}_p)_\mu = (X^\top X)_{\mu p}\). Daraus folgt:

W_{\mathrm{PI}}\,\boldsymbol{\xi}_p \;=\; X\,(X^\top X)^{-1}\,X^\top \boldsymbol{\xi}_p \;=\; X\,(X^\top X)^{-1}\,(X^\top X)\,\mathbf{e}_p \;=\; X\,\mathbf{e}_p \;=\; \boldsymbol{\xi}_p

Dies bedeutet anschaulich: jedes gespeicherte Muster wird durch \(W_{\mathrm{PI}}\) auf sich selbst abgebildet. \(\boldsymbol{\xi}_p\) ist Eigenvektor zum Eigenwert eins. Da die Sign-Funktion das Vorzeichen erhält, bleibt \(\boldsymbol{\xi}_p\) ein strikter Fixpunkt der Hopfield-Iteration. Diese Garantie gilt unabhängig von der Korrelation der Muster – sie folgt allein aus der Konstruktion, nicht aus Gültigkeitsannahmen.

Bei der Hebb-Regel ist eine vergleichbare Aussage nur unter Orthogonalität der Muster möglich. Bei korrelierten Mustern führt sie zu Cross-Talk-Termen, die ein gespeichertes Muster mit Anteilen der anderen vermischen.

Zwischenstand. Mit einer einzigen Änderung – dem Einfügen des Faktors \((X^\top X)^{-1}\) in die Konstruktion – wird aus einer Konstruktion mit Gültigkeitsannahmen eine Konstruktion mit algebraischer Garantie. Die Bias-Sink-Frage löst sich gleich mit auf: ohne Cross-Talk gibt es keine Verstärkung gemeinsamer Pixel-Tendenzen.

Anschauen: der Hebb-PI-Übergang

Die folgende Demo verwendet einen Schieberegler \(\alpha \in [0, 1]\), der zwischen den zwei Welt-Matrizen linear interpoliert:

W_\alpha \;=\; (1-\alpha)\,W_{\mathrm{Hebb}} + \alpha\,W_{\mathrm{PI}}

Bei \(\alpha = 0\) liegt reines Hebb vor, bei \(\alpha = 1\) reine Pseudoinverse. Drei Größen sind dabei live ablesbar: der größte Eigenwert von \(W_\alpha\), der Cosinus zwischen dem zugehörigen Eigenvektor und dem Bias-Vektor aus Kapitel 3, und der Recall-Endzustand einer verrauschten Ziffer.

Probieren. Verschiebe den Regler langsam von links nach rechts. Beobachte, wie der Top-Eigenwert von etwa 6,7 auf 1,0 sinkt – und wie der Cosinus zum Bias-Vektor von 0,9999 abfällt. Genau im Punkt, an dem die spektrale Dominanz verschwindet, beginnt der Recall wieder mit dem gespeicherten Muster übereinzustimmen.

Anschluss an den Eigenwerte-Beitrag

Wer den Eigenwerte-Beitrag gelesen hat, wird die Formel \(X(X^\top X)^{-1}X^\top\) wiedererkennen. Dort wurde sie als Ridge-Regression-Operator eingeführt, allgemein in der Form \(X(X^\top X + \lambda I)^{-1}X^\top\) mit Regularisierungs-Parameter \(\lambda \geq 0\). Der hier verwendete Pseudoinverse-Spezialfall ist der Grenzfall \(\lambda \to 0\): keine Regularisierung, exakte Projektion auf den von den Mustern aufgespannten Unterraum.

Diese Verbindung ist nicht nur formal. Sie zeigt, dass das Hopfield-Modell mit der Pseudoinverse mathematisch dasselbe ist wie ein lineares Regressions-Verfahren ohne Regularisierung – angewendet auf das Problem, jeden Vektor auf den Span der gespeicherten Muster zu projizieren. Im Eigenwerte-Beitrag wurde gezeigt, dass diese Operation numerisch instabil wird, wenn die Spaltenvektoren stark korreliert sind. Genau dies liegt bei MNIST vor – und hier zeigt sich, warum sich die Pseudoinverse im nächsten Abschnitt eine Grenze gefallen lassen muss.

Die dynamische Kapazitätsgrenze

Mit der algebraischen Identität \(W_{\mathrm{PI}}\boldsymbol{\xi}_p = \boldsymbol{\xi}_p\) könnte angenommen werden, dass beliebig viele Muster gespeichert werden können, solange \(p \leq N\) und die Muster linear unabhängig sind. Algebraisch ist das auch zutreffend – die Identität gilt strukturell. Dynamisch jedoch sieht es anders aus. Im praktischen Recall wird das Netz aus einer verrauschten Eingabe gestartet, und die Frage ist nicht nur, ob \(\boldsymbol{\xi}_p\) ein Fixpunkt ist, sondern wie groß sein Einzugsbereich ist.

Eine messbare Variante dieser Frage lässt sich am MNIST-Beispiel direkt empirisch erheben: \(p\) Muster werden zufällig aus dem Trainingsset gezogen, jedes wird mit 10 % Rauschen verrauscht zurückgerufen, und es wird beobachtet, wie häufig der Endzustand wieder dem Original entspricht.

\(p\)	Hebb	Pseudoinverse
10	0 %	100 %
100	0 %	100 %
150	0 %	97 %
200	0 %	32 %
250	0 %	1 %
300	0 %	0 %

Zwischen \(p = 150\) und \(p = 250\) tritt ein scharfer Phasenübergang ein. Davor liegt das Verhalten nahe der algebraischen Idealität, danach kollabiert es. Bemerkenswert ist die Lage des Übergangs: er findet weit unterhalb der theoretischen Grenze \(p = N = 784\) statt, ab der die Muster nicht mehr linear unabhängig sein können. Solche scharfen Übergänge sind dieselbe Mathematik, die auch dem Streit um die emergenten Fähigkeiten von Sprachmodellen zugrunde liegt.

Die Erklärung dieses Verhaltens liegt in den Einzugsbereichen der gespeicherten Muster. Bei wenig Mustern liegen sie weit auseinander, und 10 % Pixel-Rauschen reichen nicht aus, um den Recall in das Anziehungsgebiet eines anderen Musters zu führen. Mit zunehmendem \(p\) schrumpfen die Einzugsbereiche, und ab einer kritischen Mustermenge reicht das Rauschen, um den Endzustand zu einem benachbarten Attraktor zu lenken. Die Identität \(W_{\mathrm{PI}}\boldsymbol{\xi}_p = \boldsymbol{\xi}_p\) gilt unverändert – nur ist der Punkt \(\boldsymbol{\xi}_p\) nicht mehr aus seiner verrauschten Umgebung erreichbar.

Diese Grenze ist nicht durch eine geschicktere Konstruktion innerhalb des \(W\)-Schemas behebbar. Sie ist eine strukturelle Eigenschaft des Schemas selbst: solange Recall über \(\mathrm{sign}(W\mathbf{v})\) iteriert wird, ist die Kapazität durch die Geometrie der Einzugsbereiche limitiert. Im nächsten Kapitel wird gezeigt, dass das Schema verlassen werden kann – und dass dabei eine Operation entsteht, die seit 2017 unter einem anderen Namen weltweit eingesetzt wird.

Kapitel 5

Zweiter Sprung – Modern Hopfield = Attention

Das vorige Kapitel endete an einer Schranke, die innerhalb des bisherigen Schemas nicht zu durchbrechen war. Die Pseudoinverse macht jedes gespeicherte Muster zum exakten Fixpunkt, doch ihre dynamische Kapazität bleibt bescheiden – bei MNIST etwa 150 Muster, weit unter der algebraischen Grenze von 784. Das Problem ist nicht die Konstruktion einer besseren \(W\), sondern das Schema selbst: solange Recall über \(\mathrm{sign}(W\mathbf{v})\) iteriert, hängt die Kapazität an den Eigenschaften eines festen, zeitlosen Operators.

Im Folgenden wird gezeigt, dass dieses Schema verlassen werden kann. An die Stelle der Welt-Matrix tritt eine eingangsabhängige Aktivierung, die für jede Anfrage neu über alle gespeicherten Muster aggregiert. Hubert Ramsauer und Kollegen formalisierten diesen Schritt 2020 unter dem Titel Hopfield Networks is All You Need – eine Anspielung auf die Transformer-Arbeit Attention is All You Need von Vaswani et al. aus dem Jahr 2017. Der Titel ist nicht zufällig: beide Arbeiten beschreiben dieselbe Operation.

Was Modern Hopfield nicht mehr hat

Im klassischen Hopfield-Modell sind drei Komponenten miteinander verknüpft: eine Welt-Matrix \(W\), eine quadratische Energie-Funktion \(E(\mathbf{v}) = -\tfrac{1}{2}\mathbf{v}^\top W \mathbf{v}\), und eine lineare Update-Regel \(\mathbf{v} \leftarrow \mathrm{sign}(W\mathbf{v})\). Modern Hopfield bricht mit allen dreien zugleich:

Komponente	Klassisches Hopfield (Kap. 2–4)	Modern Hopfield (Ramsauer 2020)
Operator	\(W \in \mathbb{R}^{N\times N}\), zeitlos	keine Matrix – direkter Lookup über \(X\)
Update	\(\mathrm{sign}(W\mathbf{v})\), linear in \(\mathbf{v}\)	\(X\cdot\mathrm{softmax}(\beta X^\top \mathbf{v})\), nicht-linear
Energie	\(-\tfrac{1}{2}\mathbf{v}^\top W\mathbf{v}\), quadratisch	log-sum-exp \(+ \tfrac{1}{2}\\|\mathbf{v}\\|^2\)
Konvergenz	iterativ, viele Sweeps	in einem Schritt (bei genügend großem \(\beta\))
Kapazität	algebraisch \(\leq N\), dynamisch deutlich weniger	\(\Omega(\exp(N))\) – exponentiell

Drei Aspekte sind hieran bemerkenswert. Erstens: es gibt keine zeitlose Welt-Matrix mehr, in die die gespeicherten Muster eingebrannt werden. Stattdessen wird für jede Anfrage \(\mathbf{v}\) frisch ausgewertet, welche der gespeicherten Muster überhaupt relevant sind. Zweitens: die Update-Regel ist nicht mehr linear – die softmax bringt die zentrale Nicht-Linearität ins Spiel. Drittens: die Kapazität skaliert nicht linear, sondern exponentiell mit \(N\). Dies setzt die theoretischen Arbeiten von Krotov und Hopfield (2016) zur sogenannten Dense Associative Memory in eine konkrete Form um.

Die neue Update-Regel, in drei Schritten

Die zentrale Formel lautet:

\mathbf{v}_{\mathrm{neu}} \;=\; X \cdot \mathrm{softmax}\!\bigl(\beta\,X^\top \mathbf{v}\bigr)

Hierbei ist \(X \in \mathbb{R}^{N \times p}\) wie zuvor die Matrix der gespeicherten Muster (Spalten sind die \(\boldsymbol{\xi}_p\)), und \(\beta > 0\) ein Temperatur-Parameter. Die Operation zerfällt anschaulich in drei aufeinanderfolgende Schritte:

Schritt 1 – Skalarprodukte. \(X^\top \mathbf{v}\) beschreibt anschaulich die Ähnlichkeit der Eingabe \(\mathbf{v}\) zu jedem einzelnen gespeicherten Muster. Das Ergebnis ist ein Vektor mit \(p\) Einträgen, wobei jeder Eintrag \(\boldsymbol{\xi}_\mu^\top \mathbf{v}\) misst, wie stark \(\mathbf{v}\) und \(\boldsymbol{\xi}_\mu\) in dieselbe Richtung zeigen. Hohe Werte entsprechen ähnlichen Mustern, niedrige Werte unähnlichen.

Schritt 2 – softmax. Die softmax-Operation verwandelt diesen Vektor in eine Wahrscheinlichkeitsverteilung über die \(p\) Muster:

\mathrm{softmax}(\beta\,X^\top\mathbf{v})_\mu \;=\; \frac{e^{\beta\,\boldsymbol{\xi}_\mu^\top \mathbf{v}}}{\sum_\nu e^{\beta\,\boldsymbol{\xi}_\nu^\top \mathbf{v}}}

Diese Verteilung beschreibt anschaulich, welche Muster gerade relevant sind. Bei kleinem \(\beta\) ist sie näherungsweise gleichverteilt – alle Muster werden ähnlich gewichtet. Bei großem \(\beta\) konzentriert sie sich auf das eine Muster mit dem höchsten Skalarprodukt – eine harte Auswahl, faktisch ein nearest neighbour. Der Parameter \(\beta\) regelt also kontinuierlich zwischen weicher Mittelung und scharfer Wahl.

Schritt 3 – gewichtete Mittelung. Das Endergebnis ist eine Linearkombination der gespeicherten Muster, gewichtet mit ihren softmax-Wahrscheinlichkeiten:

\mathbf{v}_{\mathrm{neu}} \;=\; \sum_{\mu=1}^p \boldsymbol{\xi}_\mu \cdot \frac{e^{\beta\,\boldsymbol{\xi}_\mu^\top \mathbf{v}}}{\sum_\nu e^{\beta\,\boldsymbol{\xi}_\nu^\top \mathbf{v}}}

Im Limes \(\beta \to \infty\) wird daraus exakt \(\boldsymbol{\xi}_{\mu^*}\), wobei \(\mu^*\) der Index des Musters mit dem größten Skalarprodukt zu \(\mathbf{v}\) ist. Das heißt: für großes \(\beta\) wird Modern Hopfield zu einer reinen 1-Nearest-Neighbour-Operation über die gespeicherten Muster. Für mittleres \(\beta\) ist es eine sanftere Variante davon, die mehrere ähnliche Muster gleichzeitig berücksichtigt.

Anschauen: was der Temperatur-Parameter steuert

Im folgenden Demo lässt sich \(\beta\) interaktiv variieren. Sichtbar wird die softmax-Verteilung über die zehn gespeicherten Ziffern und der resultierende Recall-Zustand. Zwei Extremfälle markieren die Skala: bei kleinem \(\beta\) verschmilzt die Antwort zu einem gemittelten Bild, bei großem \(\beta\) wird sie zur scharfen Wahl einer einzelnen Ziffer.

Probieren. Schiebe \(\beta\) von 0,1 nach oben. Beobachte, wie die softmax-Balken sich zu einem dominanten Peak konzentrieren – und wie der Recall-Zustand von einer matschigen Mittel-Ziffer zu einem klaren Bild wird. Bei \(\beta \geq 5\) ist die Wahl typischerweise eindeutig.

Die neue Energie-Funktion

Modern Hopfield besitzt – wie das klassische Modell – eine Lyapunov-Funktion, also eine Energie, die unter dem Update-Schritt nicht steigt. Allerdings ist sie keine quadratische Form mehr, sondern eine log-sum-exp-Konstruktion:

E(\mathbf{v}) \;=\; -\frac{1}{\beta}\,\log\!\sum_{\mu=1}^p e^{\beta\,\boldsymbol{\xi}_\mu^\top \mathbf{v}} \;+\; \tfrac{1}{2}\|\mathbf{v}\|^2 \;+\; C

Der erste Term beschreibt anschaulich eine weiche Maximums-Funktion: er nähert sich für großes \(\beta\) dem negativen Maximum \(-\max_\mu \boldsymbol{\xi}_\mu^\top \mathbf{v}\) an, während er bei kleinem \(\beta\) gegen eine gleichmäßige Mittelung über alle Muster konvergiert. Der zweite Term ist ein quadratischer Regularisierer, der den Recall-Zustand auf einer endlichen Sphäre hält. Die Konstante \(C\) ist nur für die theoretische Analyse relevant.

Diese Energie hat zwei Eigenschaften, die das klassische Schema nicht erreichen konnte. Erstens: jedes gespeicherte Muster \(\boldsymbol{\xi}_\mu\) ist ein lokales Minimum – und zwar ein exponentiell scharfes, denn die log-sum-exp-Funktion erzeugt um jedes \(\boldsymbol{\xi}_\mu\) eine eigene tiefe Mulde. Zweitens: die Anzahl dieser Mulden ist nicht durch die Eigenwerte einer Matrix gebunden, sondern allein durch die Geometrie der gespeicherten Vektoren. Dies erklärt die exponentielle Kapazität – bis zu \(\Omega(\exp(N))\) Muster können prinzipiell getrennt voneinander gespeichert werden, ohne dass die Mulden ineinander verschmelzen.

Zwischenstand. Modern Hopfield ersetzt die quadratische Energie durch eine log-sum-exp-Form und das lineare Update durch einen softmax-Lookup. Beide Eigenschaften zusammen erhöhen die Kapazität von linear auf exponentiell – und machen die Iteration entbehrlich, weil ein Schritt genügt. Bis hierhin ist das eine in sich konsistente Verallgemeinerung des Hopfield-Modells. Was nun folgt, ist die unerwartete Überraschung: dieselbe Operation steht seit 2017 unter einem anderen Namen im Zentrum der modernen Künstlichen Intelligenz.

Die Identität mit dem Transformer-Attention-Mechanismus

Im Sommer 2017 veröffentlichten Ashish Vaswani und Kollegen bei Google die Arbeit Attention is All You Need. Sie führte den Transformer ein – eine Architektur, die heute praktisch jedes große Sprachmodell, jeden Vision-Transformer und jede multimodale KI antreibt. Im Zentrum dieser Architektur steht eine Operation, die im Paper als scaled dot-product attention bezeichnet wird:

\mathrm{Attention}(Q, K, V) \;=\; V \cdot \mathrm{softmax}\!\bigl(K^\top Q / \sqrt{d_k}\bigr)

Drei Eingabe-Matrizen werden verarbeitet: \(Q\) (queries, die aktuellen Anfragen), \(K\) (keys, die Adressen der gespeicherten Inhalte), und \(V\) (values, die gespeicherten Inhalte selbst). Der Skalierungsfaktor \(\sqrt{d_k}\) normalisiert die Skalarprodukte gegen die Dimension. Es entsteht eine softmax-gewichtete Linearkombination der Wertvektoren, geführt durch die Ähnlichkeit zwischen Query und Keys.

Die Identität zur Modern-Hopfield-Update-Regel ergibt sich durch eine einzige Substitution:

\mathrm{Hopfield:}\quad \mathbf{v} \;\leftarrow\; X \cdot \mathrm{softmax}(\beta\,X^\top \mathbf{v})

\mathrm{Attention:}\;\;\;\; V \cdot \mathrm{softmax}(K^\top Q / \sqrt{d_k})

Setze \(Q = \mathbf{v}\), \(K = X\), \(V = X\), und \(\beta = 1/\sqrt{d_k}\). Beide Gleichungen werden dadurch identisch. Es handelt sich nicht um eine Analogie, nicht um eine strukturelle Ähnlichkeit – sondern um dieselbe Operation, ausgedrückt in zwei verschiedenen Notationen.

Im Transformer-Fall sind \(K\) und \(V\) zwar im Allgemeinen unterschiedliche Projektionen der Eingabe, nicht dieselbe Matrix wie bei Hopfield. Auch \(Q\) wird durch eine weitere Projektion erzeugt. Diese Variationen erweitern die Modern-Hopfield-Form um zusätzliche lernbare Transformationen – an der fundamentalen Operation in der Mitte (softmax-gewichteter Lookup) ändern sie nichts. Wer den vereinfachten Spezialfall \(K = V\) und \(Q\) als rohe Eingabe akzeptiert, hat den Modern-Hopfield-Update vor sich.

Was diese Identität praktisch bedeutet

Aus der Identität ergeben sich drei Beobachtungen, die ohne sie nicht möglich wären:

Jeder Transformer ist ein assoziatives Gedächtnis. Wenn ein Sprachmodell einen Token vorhersagt, fragt es in jeder Attention-Schicht: welche früheren Tokens sind gerade relevant? Diese Frage wird durch einen Modern-Hopfield-Update beantwortet. Bei einem typischen LLM mit Kontextlänge 8000 wird für jeden generierten Token in jeder Attention-Schicht ein Hopfield-Update über bis zu 8000 gespeicherte Vektoren durchgeführt.
Die Kapazität-Frage löst sich anders. Klassisches Hopfield hatte eine Kapazitätsgrenze, die bei MNIST schon weit unter \(N = 784\) eintrat. Modern Hopfield hat eine exponentielle Kapazität – bei \(N = 768\) (eine typische Embedding-Dimension in Transformern) sind das genügend Muster, um faktisch unbegrenzt Kontext zu adressieren. Dies ist mit der Grund, warum sich die Transformer-Architektur als so erfolgreich erwies.
Die Interpretierbarkeit kehrt zurück. Was als Black-Box-Mechanismus bekannt war, lässt sich nun mit den Mitteln der Hopfield-Theorie analysieren: Konvergenz-Garantien, Energie-Landschaften, metastabile Zustände. Ramsauer und Kollegen zeigten in ihrer Arbeit, dass Transformer-Heads in frühen Schichten oft eine globale Mittelung durchführen (entspricht kleinem \(\beta\)), in tieferen Schichten dagegen scharf auf einzelne Tokens zugreifen (großes \(\beta\)). Diese Charakterisierung war zuvor nicht möglich.

Eine historische Schleife

Bemerkenswert ist die Reihenfolge der Entdeckungen. Krotov und Hopfield veröffentlichten ihre Dense-Associative-Memory-Theorie 2016 – ein Jahr vor Vaswanis Transformer. Die exponentielle Kapazität und das log-sum-exp-Energiekonstrukt waren bereits ausgearbeitet, ohne dass die Verbindung zu einer praktischen Sprachmodell-Architektur erkennbar war. Vaswani und Kollegen wiederum kamen 2017 zu ihrer Attention-Form durch Iteration an konkreten Übersetzungsproblemen, ohne sich auf Krotov-Hopfield zu beziehen. Erst Ramsauer 2020 erkannte: beide Wege führen zu derselben Operation.

Eine solche unabhängige Wiederentdeckung tritt in der Mathematik nicht selten auf. Sie ist ein Anzeichen dafür, dass die zugrundeliegende Struktur nicht eine Designentscheidung ist, sondern eine zwingende Konsequenz aus den Anforderungen. Was Hopfield 1982 als Modell für biologisches Gedächtnis formulierte, was Krotov 2016 als theoretische Verallgemeinerung formalisierte, und was Vaswani 2017 als praktischen Mechanismus für Sprachübersetzung baute – es ist eine einzige mathematische Operation, die in drei verschiedenen Kontexten als natürliche Lösung auftauchte.

Im nächsten Kapitel wird gezeigt, dass diese Operation eine weitere Eigenschaft hat, die klassisches Hopfield nicht besaß: unter geeigneten Voraussetzungen an die Daten generalisiert sie – das heißt, sie zieht nicht nur gespeicherte Muster, sondern auch ungesehene Konfigurationen aus deren Umgebung an. Diese Eigenschaft ist der Grund, warum Sprachmodelle nicht nur memorieren, sondern auch produzieren.

Kapitel 6

Was Hopfield über Erkenntnis lehrt

Bis hierher wurde gezeigt, dass Modern Hopfield gespeicherte Muster mit nahezu beliebiger Kapazität wiederfindet. Die offene Frage, die das vorige Kapitel nur angedeutet hat, ist eine andere: Was geschieht, wenn das Netz eine Eingabe sieht, die kein gespeichertes Muster ist? Erkennt es etwas, das es nicht direkt gelernt hat? Generalisiert es?

Diese Frage ist nicht akademisch. Ein Sprachmodell, das nur memoriert, wäre wertlos; seine Nützlichkeit liegt gerade darin, dass es Antworten auf Fragen formuliert, die niemand vorher gestellt hat. Wenn die Attention-Operation hinter diesen Modellen mathematisch mit Hopfield identisch ist, dann muss auch Hopfield in der Lage sein, etwas zu produzieren, das über das Auswendiglernen hinausgeht. Im Folgenden wird gezeigt, unter welchen Bedingungen das gelingt – und unter welchen nicht.

Eine ehrliche Vorab-Diagnose: auf MNIST gelingt es nicht

Zunächst eine sachliche Bestandsaufnahme. Werden zehn handgeschriebene Ziffern aus dem MNIST-Trainingsset gespeichert, und werden anschließend zehn ungesehene Ziffern aus dem Testset als Eingabe verwendet – wie häufig erkennt das Netz die richtige Klasse?

Eigene experimentelle Werte (mit 100 gespeicherten Mustern, 500 ungesehenen Testbildern und 5 % Pixel-Rauschen, ausführlich dokumentiert in der wissenschaftlichen Begleit-Arbeit zu diesem Beitrag):

Verfahren	Klassen-Treffer auf ungesehenen Testbildern
Zufalls-Klassifikator (10 Klassen)	10,0 %
1-Nearest-Neighbour auf den 100 gespeicherten Mustern	69,6 %
Hebb-Hopfield	11,6 % (≈ Zufall, Bias-Sink)
Pseudoinverse-Hopfield	65,2 %
Modern Hopfield	67,2 %

Das Bild ist eindeutig: weder Pseudoinverse noch Modern Hopfield schlagen den trivialen 1-Nearest-Neighbour-Klassifikator. Sie liegen dicht beieinander, leicht darunter. Die hier untersuchte Klasse von Verfahren erzeugt also auf MNIST keine echte Generalisierung – sie produziert eine Soft-Lookup-Variante des nächsten Nachbarn. Das ist ein wichtiger, nüchterner Befund, den der weitere Verlauf nicht vergessen darf.

Die Frage neu stellen

Dieses Ergebnis könnte als Endpunkt verstanden werden – Hopfield ist eben kein Klassifikator. Es kann aber auch anders gelesen werden: vielleicht liegt das Problem nicht an der Lernregel, sondern an den Daten. MNIST-Ziffern besitzen keine explizit zugängliche Struktur; jede ist ein eigenes Pixelmuster, ohne dass das Netz die zugrundeliegende Geometrie (Striche, Schleifen, Bogen) als solche kennt.

Was, wenn die Welt anders gebaut wäre? Was, wenn jedes Muster nicht ein eigenständiges Bild wäre, sondern eine sparsame Komposition aus einer überschaubaren Zahl von Bauteilen, die das Netz im Prinzip identifizieren könnte? Genau diesen Fall untersuchten Matteo Negri, Carlo Lucibello und Mitarbeiter in einer Arbeit von 2024 mit dem Titel Random Features Hopfield Networks generalize retrieval to previously unseen examples. Ihr Befund: unter dieser strukturellen Voraussetzung kann ein Hopfield-Netz echt generalisieren – und es tritt ein dreistufiges Phasen-Diagramm zutage.

Das Setup: Muster als Feature-Mischungen

Das Konstruktionsprinzip ist einfach. Sei \(F \in \{-1, +1\}^{N \times D}\) eine zufällige Feature-Matrix, deren \(D\) Spalten die Bauteile der Welt sind. Jedes Muster wird als sparsame Mischung dieser Bauteile gebildet: ein Koeffizienten-Vektor \(\mathbf{c} \in \mathbb{R}^D\) hat genau \(L\) Einträge gleich eins, die übrigen sind null. Daraus entsteht das Muster

\boldsymbol{\xi} \;=\; \mathrm{sign}\bigl(F\,\mathbf{c}\bigr) \;\in\; \{-1, +1\}^N

\(F\,\mathbf{c}\) beschreibt anschaulich die Überlagerung der ausgewählten \(L\) Bauteil-Spalten; \(\mathrm{sign}(\cdot)\) reduziert das Ergebnis zurück auf eine binäre Belegung. Ein Muster in diesem Setup ist also stets eine binäre Funktion einer expliziten, kleinen Auswahl von Bauteilen. Der entscheidende Parameter ist \(L\): bei \(L = 1\) ist jedes Muster genau ein Bauteil, bei größeren \(L\) ist es eine zunehmend dichtere Mischung.

Für die folgende Untersuchung werden drei verschiedene Mengen von Mustern auf derselben Feature-Matrix \(F\) erzeugt:

Eine Trainings-Menge aus \(p\) Mustern, deren Koeffizienten-Vektoren zufällig gewählt werden. Diese werden im Netz gespeichert.
Eine Features-Menge aus den \(D\) Einzel-Bauteilen \(F_{:,d}\). Diese werden nicht gespeichert – sie sind das, was das Netz im Idealfall entdecken sollte.
Eine Test-Menge aus weiteren Mustern derselben Verteilung, aber mit neuen Koeffizienten-Vektoren, die nicht im Training vorkamen.

Gemessen wird für jede dieser drei Mengen die Magnetisierung:

m(\boldsymbol{\xi}) \;=\; \frac{1}{N}\,\mathrm{sign}(W\boldsymbol{\xi})^\top \boldsymbol{\xi}

\(m\) beschreibt anschaulich, wie stark das Netz den Vektor \(\boldsymbol{\xi}\) auf sich selbst zurückwirft: ein Wert von eins bedeutet ein hartes Fixpunkt (jeder Pixel wird beibehalten), null bedeutet zufälligen Output, negative Werte bedeuten Anti-Attraktoren. Eine Magnetisierung in der Größenordnung von 0,9 oder darüber wird in der Literatur als stabil bezeichnet.

Drei Phasen

Wenn die Trainings-Menge wächst – ausgedrückt durch das Verhältnis \(\alpha = p/N\) – treten in der Reihenfolge drei qualitativ unterschiedliche Verhaltensweisen auf:

Storage-Phase (\(\alpha\) klein). Nur die Trainings-Muster sind stabil. Die Features liegen abseits der gespeicherten Attraktoren, die Test-Muster ebenfalls. Dies ist das klassische Hopfield-Verhalten: das Netz hat sich konkrete Punkte gemerkt.

Learning-Phase (\(\alpha\) mittel). Mit zunehmender Mustermenge sinkt die Magnetisierung der einzelnen Trainings-Muster, während die Magnetisierung der Features steigt. An einem Übergangspunkt überkreuzen sich die zwei Kurven. Hier vollzieht sich der entscheidende Phasenwechsel: das Netz speichert nicht mehr die individuellen Beispiele, sondern entdeckt die gemeinsamen Bauteile, aus denen sie aufgebaut sind. Eine sparsame Welt wird sichtbar.

Generalisierungs-Phase (\(\alpha\) groß). Bei noch höheren Werten von \(\alpha\) wird auch die Test-Magnetisierung positiv. Mit anderen Worten: ungesehene Mischungen derselben Bauteile werden ebenfalls zu Attraktoren des Netzes – ohne dass sie jemals gespeichert wurden. Das Netz hat die Bauteile so vollständig erfasst, dass es jede vernünftige Kombination daraus als legitime Welt-Konfiguration akzeptiert.

Probieren. Verschiebe den Regler für die Speicherlast \(\alpha\) und beobachte die drei Kurven. Bei kleinem \(\alpha\) ist nur Train (blau) hoch; bei mittlerem übernehmen die Features (grün); bei großem \(\alpha\) fängt auch Test (rot) an, sich zu stabilisieren. Der Toggle Hebb / Pseudoinverse zeigt eine Überraschung: dieselbe Lernregel, die auf MNIST nichts ausrichtete, generalisiert hier perfekt – sobald die Welt die richtige Struktur hat.

Die Überraschung: Pseudoinverse generalisiert hart

Im Demo wird sichtbar, was bei reinem Hebb eine weiche, langsam ansteigende Generalisierung war, wird mit der Pseudoinverse-Regel zu einem harten Sprung. Test-Muster werden bei hinreichend großem \(\alpha\) exakt stabilisiert – ihre Magnetisierung erreicht den Wert eins.

Dies ist mathematisch nachvollziehbar. Die Pseudoinverse projiziert auf den von den Trainings-Mustern aufgespannten Unterraum. Sobald dieser Unterraum genügend groß ist, um alle möglichen Feature-Mischungen aus \(F\) zu enthalten, wird jede solche Mischung – ob im Training gesehen oder nicht – zum Eigenvektor von \(W_{\mathrm{PI}}\) mit Eigenwert eins. Damit folgt \(\mathrm{sign}(W_{\mathrm{PI}}\,\boldsymbol{\xi}_{\mathrm{test}}) = \boldsymbol{\xi}_{\mathrm{test}}\) algebraisch zwingend.

Es handelt sich also nicht um eine empirische Erfolgsgeschichte, sondern um ein strukturelles Resultat: wenn die Daten-Geometrie und die Lernregel-Geometrie zusammenpassen, ist Generalisierung eine mathematische Konsequenz, kein Lernerfolg.

Was das über Erkenntnis sagt

Aus diesem Befund folgt eine grundlegende Umkehrung der üblichen Sicht auf das Verhältnis von Lernregel und Daten. In der ML-Praxis wird oft so geredet, als hätten Lernregeln eine Fähigkeit zur Generalisierung – manche regularisieren besser, manche schlechter, manche sind ausdrucksstärker. Das Random-Features-Hopfield-Setup zeigt etwas anderes: dieselbe Lernregel (Pseudoinverse), die auf MNIST nur 1-NN-artige Performance erreichte, liefert hier perfekte Generalisierung im strikten Sinne. Es lag nicht an der Lernregel. Es lag an den Daten.

Allgemeiner ausgedrückt: Generalisierung ist keine interne Eigenschaft eines Verfahrens. Sie entsteht aus der Kompatibilität zweier Geometrien – der Geometrie der Welt-Matrix und der Geometrie der gespeicherten Muster. Wenn die Welt aus wenigen explizit zusammensetzbaren Bauteilen besteht, kann ein Hopfield-Netz diese Bauteile entdecken und jede neue Mischung daraus als legitime Welt-Konfiguration anerkennen. Wenn die Welt das nicht tut – wie MNIST mit seinen impliziten, schwer zugänglichen Bauteilen – bleibt selbst die beste Lernregel ein Memory-Lookup.

Diese Aussage hat ein Pendant in der Erkenntnisphilosophie: erkennbar wird nur das, was eine sparsame Architektur hat. Eine Welt, in der jeder Punkt nur ein einmaliger, irreduzibler Punkt ist, kann nicht verstanden werden, sie kann nur memoriert werden. Eine Welt aus wenigen tiefen Strukturen, in der jeder konkrete Fall eine Komposition dieser Strukturen ist, lässt sich abstrahieren – und damit auf ungesehene Fälle übertragen.

Aus dieser Perspektive ist die Tatsache, dass Sprachmodelle so erfolgreich generalisieren, kein Beweis dafür, dass ihre Architektur eine besondere Eigenschaft trüge. Sie ist eher ein Hinweis darauf, dass die natürliche Sprache eine sparsame Struktur hat: ihre Begriffe, ihre Wendungen, ihre Konstruktionen sind eine endliche Menge von Bauteilen, aus denen unendlich viele konkrete Sätze zusammengesetzt werden. Die Sprache ist Hopfield-freundlich, weil sie selbst aus Features besteht.

Im nächsten Kapitel wird gezeigt, wo diese Beobachtung praktisch wirksam wird – in welchen industriellen Anwendungen die Modern-Hopfield-Architektur tatsächlich eingesetzt wird, und welche Eigenschaft der jeweiligen Domäne dies ermöglicht.

Kapitel 7

Wo es heute läuft

Die bisherigen Kapitel haben den theoretischen Werdegang nachgezeichnet: vom Spinglas zum klassischen Hopfield, von dort über Pseudoinverse zur Modern-Hopfield-Form, und schließlich zur Identität mit Transformer-Attention. Wer mit diesem theoretischen Apparat in der Hand fragt, wo davon tatsächlich in der heutigen Industrie etwas eingesetzt wird, stößt auf eine Lage, die sich vielleicht so zusammenfassen lässt: das klassische Hopfield-Modell ist als Allzweck-ML-Architektur weitgehend obsolet, das Modern-Hopfield-Verfahren ist unter dem Namen „Attention“ allgegenwärtig, und in einigen Spezialdomänen wird die Hopfield-Lesart explizit beibehalten, weil dort die Memory-Sicht den Aufgabenstellungen am nächsten kommt.

Im Folgenden werden fünf konkrete Anwendungsfelder dargestellt, in denen die Hopfield-Architektur – klassisch oder modern – heute aktiv eingesetzt wird. Anschließend folgt eine zusammenfassende Tabelle und die akademische Bestätigung dieser Linie durch den Nobelpreis 2024.

(1) Drug Discovery – Few-Shot-Lernen für neue Wirkstoff-Eigenschaften

Im pharmazeutischen Bereich tritt ein Problem auf, das klassische Deep-Learning-Pipelines überfordert: Wenn eine neue Wirkstoffklasse untersucht wird, stehen oft nur wenige Dutzend bekannte Beispielmoleküle zur Verfügung. Klassische Klassifikatoren brauchen tausende Trainingsdaten, um Genauigkeit zu erreichen. Few-Shot-Lernen ist hier die einzige praktikable Strategie.

Eine Arbeitsgruppe um Sepp Hochreiter und Günter Klambauer an der Universität Linz entwickelte zwischen 2020 und 2023 unter dem Namen MHNfs eine Architektur, in der ein Modern-Hopfield-Layer eine Bibliothek von über 100.000 Kontext-Molekülen als Memory hält. Bei einer neuen Wirkstoff-Anfrage wird via softmax-Lookup über dieser Bibliothek aggregiert, und die resultierende gewichtete Mischung dient als angereicherte Repräsentation. MHNfs erreicht damit den Stand der Technik auf dem FS-Mol-Benchmark für Few-Shot-Eigenschaftsvorhersage. Eine verwandte Anwendung im Bereich Retrosynthese-Vorhersage (welche Reaktion erzeugt ein gegebenes Zielmolekül?) erreicht ebenfalls Bestwerte und ist mehrere Größenordnungen schneller als die zuvor üblichen Methoden.

Warum gewinnt hier ausgerechnet Hopfield? Die Aufgabe ist nicht primär eine Klassifikation, sondern eine Memory-Operation: vergleiche das neue Molekül mit den 100.000 bekannten, gewichte sie nach Ähnlichkeit, gewinne eine Repräsentation aus der gewichteten Mittelung. Genau das tut Modern Hopfield mathematisch – und genau das macht der Attention-Mechanismus in einem Transformer mit seinem Kontext. Ohne die Hopfield-Perspektive wäre die exponentielle Kapazität schwer zu begründen.

(2) Immune Repertoire Classification – COVID-Antikörper aus Millionen Sequenzen

Ein menschliches Immunrepertoire enthält etwa eine Million verschiedener B-Zell-Rezeptor-Sequenzen. Die diagnostisch wichtige Frage lautet: Trug diese Person eine bestimmte Infektion durch – sichtbar an wenigen seltenen, krankheitsspezifischen Sequenzen unter Millionen irrelevanter? Diese Multi-Instance-Learning-Aufgabe mit sehr niedriger Witness Rate war klassisch praktisch unlösbar.

2020 veröffentlichten Michael Widrich und Kollegen aus der gleichen Linzer Gruppe das Verfahren DeepRC (Deep Repertoire Classification). Der Kern: ein Modern-Hopfield-Attention-Layer über das gesamte Repertoire, in der Lage, über Millionen Sequenzen gleichzeitig zu attendieren. Auf simulierten und realen Daten zur SARS-CoV-2-Infektion erreichte DeepRC vorhergehende Methoden deutlich. Praktischer Mehrwert: das Verfahren extrahiert die Sequenz-Motive, die mit einer bestimmten Erkrankung verbunden sind – eine direkte Hilfe für das Design neuer Impfstoffe und Therapeutika.

Hier ist die exponentielle Kapazität von Modern Hopfield kein theoretischer Luxus, sondern Voraussetzung: ein klassisches Attention-Verfahren wäre bei \(10^6\) Eingabe-Sequenzen rechnerisch nicht mehr beherrschbar.

(3) Combinatorial Optimization auf Memristor-Hardware

NP-harte Optimierungsprobleme wie das Layout-Routing von VLSI-Chips, das Travelling-Salesman-Problem in der Logistik oder die Graph-Partitionierung in verteilten Systemen sind klassische Anwendungsfelder für Hopfield-Netze, seit Hopfield und Tank das in den 1980er Jahren propagierten. Lange Zeit blieb diese Idee theoretisch – die Hopfield-Solver waren langsamer als spezialisierte Heuristiken wie Simulated Annealing oder genetische Algorithmen.

Eine Wende kam von der Hardware-Seite. Memristoren sind analoge Bauelemente, deren elektrischer Widerstand sich mit angelegter Spannung programmieren lässt. In einer Kreuzmatrix-Anordnung verknüpft man sie zu einem Gitter, das die Physik der Hopfield-Dynamik natürlich implementiert: der Strom durch jede Spalte berechnet das Skalarprodukt einer ganzen Matrixzeile mit dem aktuellen Zustand, in einem analogen Schritt. Was im digitalen Rechner als Folge von Multiplikationen abläuft, geschieht hier durch die elektrischen Eigenschaften der Schaltung selbst.

Im Jahr 2020 demonstrierte eine Gruppe von HP Labs einen Memristor-Hopfield-Chip, der MAX-CUT-Probleme analog löst (publiziert in Nature Electronics). Die berichtete Energie-Effizienz: vier Größenordnungen besser als bei digitalen Verfahren auf vergleichbaren Aufgabengrößen. Im September 2024 veröffentlichte eine Gruppe an der Peking-Universität in Nature Communications einen formalen Beweis, dass eine Säule von Memristoren mathematisch äquivalent zu einem Hopfield-Attraktor-Netzwerk ist – nicht analog, nicht näherungsweise, sondern exakt.

Diese Linie ist bemerkenswert. Was im überwiegenden Teil dieses Beitrags als Modell dargestellt wurde – eine mathematische Abstraktion, die im Computer simuliert wird – ist hier physikalisch realisiert. Die Schaltung ist das Hopfield-Netz, nicht die Simulation davon.

(4) Transformer-Attention – überall, ohne dass es so heißt

Aus Kapitel 5 folgt unmittelbar die wichtigste Anwendung überhaupt: jeder Transformer-Forward-Pass, jedes Token, jeder Attention-Head einer modernen KI ist eine Modern-Hopfield-Iteration. Wenn ein großes Sprachmodell wie GPT, Claude, Gemini oder Llama eine Antwort generiert, wird in jedem seiner Dutzende von Attention-Schichten für jeden Token ein Hopfield-Update über bis zu mehrere zehntausend Kontext-Vektoren berechnet. Analoges gilt für Vision Transformer (ViT, DINOv2, Swin), für multimodale Modelle und für Diffusionsmodelle mit Cross-Attention.

Was die quantitative Größenordnung angeht, fehlen präzise Zahlen, weil die Betreiber sie nicht veröffentlichen. Was aber sicher gesagt werden kann: die Modern-Hopfield-Operation ist mit großer Wahrscheinlichkeit die meistausgeführte mathematische Operation der heutigen Compute-Infrastruktur – ausgeführt in den GPU-Rechenzentren von OpenAI, Anthropic, Google, Meta und einem Dutzend weiterer Anbieter. Unter dem Namen „Attention“, nicht unter dem Namen „Hopfield“.

(5) Hopfield-Layer als Modul in PyTorch-Modellen

Für ML-Anwender bietet die Linzer Gruppe seit 2020 eine PyTorch-Bibliothek ml-jku/hopfield-layers, die die Modern-Hopfield-Operation als direkt einsetzbares Modul kapselt. Drei Varianten werden unterschieden: Hopfield für die Assoziierung zweier Mengen (Query und Memory), HopfieldPooling für aggregierende Operationen statt klassischem Pooling, und HopfieldLayer für das Lernen lernbarer Memory-Slots.

Diese Module ersetzen in bestehenden Architekturen herkömmliche Komponenten wie LSTM, GRU oder einfache Aufmerksamkeit, ohne dass die Verbindungs-Topologie umgebaut werden muss. Die veröffentlichten Anwendungsfelder reichen von Tabular-ML auf UCI-Benchmarks über Time-Series-Forecasting und Reinforcement-Learning mit episodischem Gedächtnis bis hin zu den oben besprochenen Drug- und Immun-Anwendungen.

Synthese

Die fünf Felder ergeben in der Tabelle ein klares Bild: in jeder Domäne, in der eine konkrete Memory-Aufgabe gelöst werden muss – und die Voraussetzung exponentieller Kapazität gegeben ist – ist Modern Hopfield heute Stand der Technik. Klassisches Hopfield ist auf seine spezialisierten Hardware-Nischen reduziert.

Domäne	Werk / Gruppe	Jahr	Mess- oder Wirkungs-Aussage
Drug Discovery	MHNfs (Klambauer, Hochreiter et al.)	2023	SOTA auf FS-Mol; 100k+ Kontext-Moleküle als Memory
Immune Repertoire	DeepRC (Widrich et al.)	2020	SARS-CoV-2-Klassifikation aus 10⁶ Sequenzen; SOTA
Combinatorial Optimization	Memristor-Hopfield (HP Labs / Peking U.)	2020, 2024	4 Größenordnungen Energie-Vorteil ggüüber digital
Transformer-Attention	jedes LLM, jedes ViT, jedes multimodale Modell	seit 2017	die wahrscheinlich meistausgeführte Operation der Welt-GPU-Flotte
Modul in PyTorch	ml-jku/hopfield-layers	seit 2020	drop-in für LSTM, Pooling, Attention

Die Bestätigung: Nobelpreis 2024

Im Oktober 2024 wurde der Nobelpreis für Physik an John J. Hopfield und Geoffrey E. Hinton verliehen, mit der Begründung „für grundlegende Entdeckungen und Erfindungen, die maschinelles Lernen mit künstlichen neuronalen Netzen ermöglichen“. Die Wahl der Kategorie – Physik, nicht Wirtschaft oder Informatik – spiegelt die historische Herkunft des Hopfield-Modells aus der Spinglas-Theorie wider.

Der Preis wirkt wie eine nachgereichte akademische Bestätigung dessen, was die voranstehenden fünf Felder technisch demonstrieren: Hopfields Modell von 1982 ist nicht ein historisches Modell unter vielen, sondern eine Architektur, deren mathematische Substanz die KI-Revolution der zweiten Hälfte der 2010er Jahre ermöglicht hat – auch wenn diese Substanz unter anderem Namen vermarktet wurde.

Im Epilog wird gezeigt, was diese Linie für das Verständnis von Erinnerung, Aufmerksamkeit und Erkennen im Allgemeinen bedeutet – und wo der Beitrag bewusst nicht über das hinausgehen will, was die Mathematik tatsächlich trägt.

Epilog

Die eine Operation, die das Jahrhundert trägt

Was in diesem Beitrag über sieben Kapitel verfolgt wurde, lässt sich in einer Beobachtung zusammenfassen: eine mathematische Operation – eine quadratische Energie-Funktion mit ihrer monotonen Update-Regel – genügt, um Ziffern zu erinnern, NP-harte Probleme zu lösen, Antikörper zu klassifizieren und Sprache zu modellieren. Die Anwendungen unterscheiden sich, der Operator nicht.

Die vier Domänen, dieselbe Mathematik

Anwendung	Variante	Was wird erinnert	Wo steckt die Energie
Bilderinnerung (1982)	klassisch (Hebb / PI)	Pixel-Muster	quadratisch über Pixel-Kopplungen
Combinatorial Optimization	klassisch, in Memristor-Hardware	Spin-Konfiguration der Lösung	negative Cost-Funktion des Problems
Multi-Instance Learning	Modern Hopfield	Repertoire-Elemente	log-sum-exp über Ähnlichkeiten
LLM-Token-Vorhersage	Transformer-Attention (= Modern Hopfield)	Context-Tokens	softmax-gewichtete Mittelung

Die letzte Spalte zeigt, wo sich die Mathematik ändert: nicht in ihrer Substanz, sondern in der Funktionsform der Energie. Die quadratische Form aus Kapitel 2 ist der historisch erste, einfachste Fall. Die log-sum-exp-Form aus Kapitel 5 ist die kontinuierliche Verallgemeinerung. Beide gehören zur selben Familie von Lyapunov-Funktionen mit garantierter Konvergenz.

Was diese Linie zeigt

Wenn dieselbe mathematische Struktur unabhängig in vier disparaten Disziplinen entdeckt wird – Festkörperphysik 1925, Mustererkennung 1982, Sprachverarbeitung 2017 und Hardware-Optimierung 2020 –, ist das keine Designkoinzidenz mehr. Es ist ein Hinweis darauf, dass die Struktur nicht eine Erfindung ist, sondern eine Entdeckung. Sie wartet darauf, in jedem Setting wiedergefunden zu werden, in dem die Aufgabe einer ist: eine endliche Menge von Zuständen so aufeinander beziehen, dass eine eingangsabhängige Antwort herausfällt.

Dies ist auch das, was der Nobelpreis 2024 implizit anerkennt. Er ging an Hopfield und Hinton nicht für eine konkrete technische Anwendung, sondern für das mathematische Substrat, aus dem die heutige KI hervorgewachsen ist. Es ist die seltene Konstellation, in der eine Auszeichnung weniger eine einzelne Arbeit würdigt als eine ganze Tradition.

Was dieser Beitrag nicht sagt

Drei explizite Begrenzungen, damit nichts überinterpretiert wird:

Erstens: Hopfield ist kein universelles ML-Werkzeug. Für viele Aufgaben – Bildklassifikation auf großen, balancierten Datasets, generative Modellierung, Audio-zu-Text – sind spezialisierte Architekturen (ConvNets, Diffusion, Conformer) deutlich überlegen. Wo die Hopfield-Architektur gewinnt, ist sie nicht durch ihre eigene Universalität überlegen, sondern durch das Passen ihrer Memory-Sicht zur Aufgabenstruktur.

Zweitens: Die T3-Generalisierungs-Eigenschaft aus Kapitel 6 wurde an synthetischen Daten mit expliziter Feature-Struktur gezeigt. Auf realen Daten wie MNIST funktioniert sie ohne weitere Schritte nicht. Wer das übertragen will, muss zunächst eine Feature-Basis extrahieren (PCA, Wörterbuch-Lernen, Embeddings). Das hier gezeigte Bild ist eine theoretische Möglichkeitsaussage, kein direkter MNIST-Trick.

Drittens: Die Identität zwischen Modern Hopfield und Transformer-Attention bedeutet nicht, dass jeder klassische ML-Algorithmus „in Wahrheit" ein Hopfield-Netz sei. Sie gilt sehr präzise zwischen der Modern-Hopfield-Update-Regel und dem scaled-dot-product-Attention-Mechanismus. Andere Architekturen (Diffusion, State-Space-Modelle, ConvNets) haben ihre eigenen mathematischen Strukturen, die mit Hopfield nicht zusammenfallen.

Querverweise zu anderen Beiträgen

Mehrere Stellen dieses Beitrags haben Anschluss an frühere Arbeiten dieses Blogs:

Eigenwerte & KI – die Pseudoinverse aus Kapitel 4 ist mathematisch identisch zu Ridge Regression mit \(\lambda = 0\). Wer den Eigenwerte-Beitrag in der Tiefe gelesen hat, kennt diese Verbindung bereits – hier ist sie die Brücke vom Hopfield-Schema aus Kapitel 4 zur späteren Generalisierung in Kapitel 6. Auch der exponentielle Kernel aus Kapitel 5 erscheint dort in der Kernel-Trick-Sektion in einer verwandten Form.
KRR-Chat: Unter der Haube – im KRR-Chat-Beitrag wird ein Sprachmodell als Kernel-Ridge-Regression-Lookup gezeigt. Mit den Mitteln dieses Beitrags ließe sich derselbe Lookup auch als Modern-Hopfield-Recall lesen: die gespeicherten Trainings-Tokens als Memory, die Anfrage als Query, die softmax-Gewichtung als Aktivierungs-Profil. Die zwei Beiträge beschreiben dasselbe Verfahren aus zwei verschiedenen mathematischen Blickwinkeln.
Gott als Emergenz – im Gott-Beitrag wird das gleiche \(W\) als Welt-Matrix philosophisch gelesen. Die T3-Pointe aus Kapitel 6 hier – Erkennen ist eine Eigenschaft der gemeinsamen Geometrie von Welt und Erkenntnis-Apparat – ist die formale Schwester von Whiteheads consequent nature. Wer beide Beiträge gelesen hat, hat die zwei Hälften derselben Beobachtung.
Quantenphysik mit Pfeilen – im Quanten-Beitrag wurde der Propagator als Summe über Eigenzustände eingeführt. Diese Mercer-artige Kernel-Struktur taucht in diesem Beitrag in der log-sum-exp-Energie wieder auf. Dieselbe Mathematik in drei Disziplinen ist kein Zufall, sondern eine wiederkehrende strukturelle Antwort.

Schlusssatz

Was Hopfield 1982 als Modell für ein biologisches Gedächtnis formulierte, ist heute die Architektur, die jedes Sprachmodell trägt. Wer den Bogen kennt, sieht in jeder Chatbot-Antwort eine Iteration eines Spinglas-Modells, das ursprünglich nur Ziffern wiedererkennen konnte. Die Vergangenheit ist nicht abgeschlossen; sie läuft noch.

FAQ

Häufige Fragen

Warum heißt es eigentlich Attention und nicht Hopfield?

Die Begriffe wurden unabhängig geprägt. Ashish Vaswani und Kollegen führten 2017 den Attention-Mechanismus als praktische Lösung für Maschinelle Übersetzung ein und wählten die Bezeichnung in Anlehnung an aufmerksamkeits-psychologische Intuitionen. Die mathematische Verwandtschaft zu Hopfields Modell wurde erst 2020 von Ramsauer und Kollegen formalisiert – zu einem Zeitpunkt, an dem der Transformer-Begriff bereits etabliert war. In der ML-Community hat sich daher der Name Attention durchgesetzt, obwohl der Name Hopfield-Layer mathematisch passender wäre.

Lohnt es sich, Hopfield-Layer in eigene Modelle einzubauen?

Es kommt auf die Aufgabe an. Bei Standard-Klassifikation auf großen, balancierten Datasets schlägt eine herkömmliche Architektur (ConvNet, einfaches MLP, Gradient Boosting) Hopfield-Layer fast immer. Bei Memory-zentrischen Aufgaben – Few-Shot-Lernen, Multi-Instance-Learning, episodisches Gedächtnis im Reinforcement Learning – lohnt es sich häufig, einen Hopfield-Layer in die Architektur einzubauen, und es gibt fertige PyTorch-Bausteine dafür (siehe Quellen unten). Eine kleine Faustregel: wenn die Frage „welche meiner gespeicherten Daten ist gerade relevant?" zentral für das Problem ist, ist Hopfield ein natürlicher Kandidat.

Wo liegt die Grenze zu Diffusionsmodellen?

Beide Architekturen nutzen Energie-Funktionen, aber für unterschiedliche Aufgaben. Hopfield speichert eine endliche Menge diskreter Attraktoren und stellt einen Eingang auf den nächsten Attraktor zurück – eine Memory-Operation. Diffusionsmodelle lernen eine kontinuierliche Wahrscheinlichkeitsverteilung über alle möglichen Ausgaben und sampeln daraus – eine generative Operation. Für Bilderzeugung sind Diffusionsmodelle deutlich besser geeignet; für exakten Recall gespeicherter Inhalte ist Modern Hopfield besser. Beide können kombiniert werden – in der Praxis wird das aber selten gemacht.

Warum hat Hopfield den Physik-Nobelpreis bekommen, nicht den für Informatik?

Einen Nobelpreis für Informatik gibt es nicht (der Turing-Award füllt diese Rolle, ohne ein Nobelpreis zu sein). Aber unabhängig davon ist die Wahl der Physik-Kategorie sachlich konsistent: Hopfields Modell stammt formal aus der Spinglas-Theorie der Festkörperphysik, die Lyapunov-Stabilitätsanalyse ist eine physikalische Standardmethode, und die Memristor-Hardware-Linie aus Kapitel 7 ist sogar im konkreten Sinne ein physikalisches Bauteil. Wer Hopfield als Informatik einordnet, übersieht die physikalische Substanz; das Komitee tat das nicht.

Funktioniert das auch ohne MNIST – auf Text, Audio, Video?

Ja, in zwei verschiedenen Spielarten. Erstens: Modern Hopfield arbeitet auf jedem Vektorraum, in dem Ähnlichkeit als Skalarprodukt definierbar ist. Bei Text werden die Token-Embeddings als gespeicherte Muster verwendet, bei Audio die spektralen Repräsentationen, bei Video die Frame-Features. Genau das tut jeder Transformer ohnehin. Zweitens: klassisches Hopfield mit ±1-Zustandsraum eignet sich nur für diskrete Aufgaben wie QR-Code-Wiederherstellung oder MAX-CUT – nicht direkt für kontinuierliche Modalitäten.

Was ist der Unterschied zu Boltzmann-Maschinen?

Boltzmann-Maschinen sind die stochastische Schwester der Hopfield-Netze. Sie haben dieselbe Energie-Funktion, aber statt deterministischem sign-Update einen probabilistischen Zustandswechsel mit Wahrscheinlichkeit \(\propto e^{-\Delta E / T}\). Daraus folgt: Boltzmann-Maschinen lernen Wahrscheinlichkeitsverteilungen statt feste Muster, können aus diesen Verteilungen sampeln, und sind generative Modelle. Hopfield-Netze sind ihre deterministische Vereinfachung. Hinton, der mit Hopfield zusammen den Nobelpreis 2024 erhielt, leistete im Wesentlichen den Beitrag von Hopfield zu Boltzmann.

Wie ist das mit dem Bias-Sink auf MNIST – ist das ein Implementierungsfehler?

Nein. Das Verhalten ist mathematisch erwartbar und gut verstanden. Hebb-Lernen funktioniert nur unter zwei Bedingungen – orthogonale Muster und zero-mean Verteilung – und MNIST verletzt beide. Im wissenschaftlichen Begleit-Repo zu diesem Beitrag wurde das im Detail durchgeprüft: dtype-Check, Vergleich mit handgerechneter Referenz, Test mit orthogonalen synthetischen Mustern (3/3 perfekt), Bias-Eliminierung durch Zentrierung. Hebb arbeitet wie spezifiziert; MNIST liegt nur außerhalb seines Gültigkeitsbereichs.

Quellen

Literatur

Original-Arbeiten

E. Ising. Beitrag zur Theorie des Ferromagnetismus. Z. Phys. 31, 253–258 (1925). Springer
D. O. Hebb. The Organization of Behavior: A Neuropsychological Theory. John Wiley & Sons, New York (1949). Internet Archive (full text)
J. J. Hopfield. Neural networks and physical systems with emergent collective computational abilities. PNAS 79(8): 2554–2558 (1982). PNAS
L. Personnaz, I. Guyon, G. Dreyfus. Information storage and retrieval in spin-glass like neural networks. J. Phys. Lett. 46, 359–365 (1985). EDP Sciences
D. Krotov, J. J. Hopfield. Dense Associative Memory for Pattern Recognition. NeurIPS 2016. arXiv:1606.01164
A. Vaswani, N. Shazeer, N. Parmar et al. Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762
H. Ramsauer, B. Schäfl, J. Lehner et al. Hopfield Networks is All You Need. ICLR 2021. arXiv:2008.02217
M. Negri, F. Tudisco, C. Lucibello et al. Random Features Hopfield Networks generalize retrieval to previously unseen examples (2024). arXiv:2407.05658

Anwendungen

M. Widrich, B. Schäfl, M. Pavlović et al. Modern Hopfield Networks and Attention for Immune Repertoire Classification. NeurIPS 2020. arXiv:2007.13505
F. Cai, S. Kumar, T. Van Vaerenbergh et al. Power-efficient combinatorial optimization using intrinsic noise in memristor Hopfield neural networks. Nature Electronics 3, 409–418 (2020). Nature Electronics
J. Schimunek, P. Seidl, L. Friedrich et al. Context-enriched molecule representations improve few-shot drug discovery (2023). arXiv:2305.09481
Z. Sun et al. Memristor attractor network model. Nature Communications (September 2024). Peking-Universität Pressemitteilung

Werkzeuge und Code

ml-jku Linz. hopfield-layers – PyTorch-Implementierung der Modern-Hopfield-Schichten. GitHub

Akademische Anerkennung

Nobel Prize in Physics 2024 – J. J. Hopfield, G. E. Hinton. For foundational discoveries and inventions that enable machine learning with artificial neural networks. nobelprize.org

Wissenschaftliches Begleit-Material zu diesem Beitrag

Die Experimente und Befunde, auf denen Kapitel 3 (Bias-Sink), Kapitel 4 (Kapazitätsgrenze von PI) und Kapitel 6 (Random-Features-Generalisierung) beruhen, wurden im Vorfeld dieses Beitrags eigenständig durchgeführt und dokumentiert. Das gesamte Code-Repository mit allen Detail-Auswertungen wird perspektivisch öffentlich gemacht; bis dahin ist auf Anfrage Einsicht möglich.

Weiterlesen

Verwandte Beiträge auf ki-mathias.de:

Eigenwerte & KI — Kernel, PageRank, Neumann-Reihe
Das Eigenprinzip — Stimmgabel, PCA, Markov, PageRank
Emergenz in Sprachmodellen — Phasenübergänge, Grokking, Ising