Hierarchical Reasoning Model (2025) — Rekurrente AI ohne Chain-of-Thought | AI Engineering Wiki

📋 Auf einen Blick

Das Hierarchical Reasoning Model (HRM) zeigt, dass gutes Schlussfolgern keine riesigen Modelle braucht. Mit nur 27 Millionen Parametern und gerade einmal 1000 Trainingsbeispielen meistert es Sudoku, Labyrinth-Navigation und ARC-Rätsel — ohne den üblichen Chain-of-Thought-Ansatz. Stattdessen nutzt es zwei rekurrente Module: eines für abstrakte Planung, eines für konkrete Ausführung.

Das Problem: Schlussfolgern kostet Ressourcen

Moderne große Sprachmodelle (LLMs) lösen schwierige Denkaufgaben typischerweise durch Chain-of-Thought (CoT): Das Modell schreibt seinen Denkprozess explizit als Text auf, Schritt für Schritt. Das funktioniert — ist aber teuer. Mehr Tokens, mehr Rechenzeit, mehr Kosten.

Hinzu kommt: Je komplexer die Aufgabe, desto mehr Parameter braucht das Modell typischerweise. GPT-4 hat schätzungsweise 1,8 Billionen Parameter. Für viele Unternehmen ist das keine realistische Option — weder kostenmäßig noch datenschutzrechtlich, wenn Daten das Haus nicht verlassen sollen.

Das HRM-Paper stellt eine grundsätzlich andere Frage: Muss Schlussfolgern wirklich so groß und so explizit sein?

Der Ansatz: Hierarchische rekurrente Verarbeitung

Die Kernidee des HRM ist einfach aber wirkungsvoll: Schlussfolgern geschieht auf zwei Ebenen gleichzeitig — ähnlich wie Menschen sowohl strategisch planen als auch konkrete Handlungen ausführen, ohne jeden Gedanken laut auszusprechen.

Das Modell ist rekurrent aufgebaut: Es verarbeitet die gleiche Eingabe mehrmals in mehreren "Denkrunden" (Recurrent Steps), bevor es eine Antwort ausgibt. Dieser interne Verarbeitungsraum ersetzt den expliziten Gedankentext bei CoT.

Kein Chain-of-Thought erforderlich: Das Denken passiert intern in den Aktivierungen des Netzwerks, nicht als sichtbarer Text.
Nur 1000 Trainingsbeispiele: Statt Millionen von Beispielen reicht ein winziger Datensatz — ein außergewöhnliches Ergebnis.
27 Millionen Parameter: Klein genug, um lokal auf Consumer-Hardware zu laufen.

Die Architektur: Zwei Module, zwei Ebenen

Das HRM besteht aus zwei rekurrenten Modulen, die hierarchisch zusammenarbeiten:

Hochrangiges Modul (High-Level): Zuständig für abstrakte, strategische Planung. Es verarbeitet die Aufgabe auf einer übergeordneten Ebene und gibt Richtung und Strategie vor. Dieses Modul läuft langsamer — wenige Iterationen pro Aufgabe.
Niedrigrangiges Modul (Low-Level): Übernimmt die detaillierte, konkrete Berechnung. Es führt die vom High-Level-Modul vorgegebene Strategie in kleinen Schritten aus. Dieses Modul läuft schneller und iteriert häufiger.

Beide Module tauschen Zustandsinformationen aus — das High-Level-Modul kann seinen Zustand anpassen, wenn das Low-Level-Modul auf Hindernisse stößt. So entsteht eine dynamische Schleife zwischen Planung und Ausführung.

Diagramm wird geladen...

Ergebnisse: Klein schlägt Groß

Die Autoren testen HRM auf drei verschiedenen Aufgabentypen, die unterschiedliche Arten des Schlussfolgerns erfordern:

Sudoku: Das Modell löst Sudoku-Rätsel zuverlässig. Sudoku erfordert systematische Elimination und Backtracking — klassische Stärken hierarchischer Planung.
Labyrinth-Navigation: HRM findet Wege durch komplexe Labyrinthe. Das High-Level-Modul plant die Gesamtroute, das Low-Level-Modul navigiert die einzelnen Schritte.
ARC (Abstraction and Reasoning Corpus): ARC gilt als besonders schwieriger Benchmark für abstrakte Musterkennung. HRM erreicht hier beachtliche Ergebnisse — und das ohne jegliches Chain-of-Thought.

Das Besondere: Diese Ergebnisse werden mit nur 27 Millionen Parametern und 1000 Trainingsbeispielen erzielt — ein Bruchteil dessen, was vergleichbare Ansätze benötigen.

Was bedeutet das für mein Unternehmen?

Das HRM-Paper ist besonders für KMUs interessant, die AI lokal betreiben wollen oder müssen — etwa aus Datenschutzgründen (DSGVO) oder wegen begrenzter Budgets. Drei konkrete Implikationen:

Lokale Ausführung wird realistischer: Ein 27M-Parameter-Modell läuft auf jedem modernen Laptop oder kleinen Server. Keine Cloud-Abhängigkeit, keine Datenweitergabe an externe Anbieter.
Spezialisierte kleine Modelle: Die Forschung zeigt, dass für klar definierte Aufgaben (Planung, Routing, Puzzles, strukturierte Entscheidungen) kleine, spezialisierte Modelle überraschend gut abschneiden können — und deutlich günstiger sind.
Fine-Tuning mit wenigen Daten: 1000 Trainingsbeispiele sind für viele Unternehmen realistisch. Das bedeutet: Eigene Daten könnten reichen, um ein spezialisiertes Modell zu trainieren, ohne massive Datenmengen sammeln zu müssen.

Wichtige Einschränkung: HRM ist kein Universalmodell. Es ist für strukturierte Denkaufgaben optimiert, nicht für freie Textgenerierung oder Konversation. Der Einsatz macht Sinn, wo klare Regeln und strukturierte Probleme dominieren — zum Beispiel in Planungssystemen, Prozessoptimierung oder Entscheidungsunterstützung.

Einordnung: Warum ist das Paper relevant?

Das HRM-Paper erschien im Juni 2025 und steht in einer wachsenden Forschungsrichtung, die hinterfragt ob große Modelle wirklich für alles notwendig sind. Während die Industrie auf immer größere Modelle setzt, zeigt diese Forschung: Architektur kann Größe ersetzen.

Die Idee, Denken in zwei Ebenen aufzuteilen — strategisch und taktisch — ist dabei nicht neu. Sie findet sich in der klassischen KI-Planung (STRIPS, HTN), in der Kognitionswissenschaft (System 1 und System 2 nach Kahneman) und in der Robotik. Das HRM überträgt dieses Prinzip erfolgreich in ein neuronales Netzwerk.

Für Praktiker bedeutet das: Die Suche nach dem richtigen Modell sollte nicht nur bei Größe und Benchmark-Scores ansetzen, sondern bei der Architektur. Ein gut konstruiertes kleines Modell kann für spezifische Aufgaben besser, schneller und günstiger sein als ein generalistisches Großmodell.

Quellen

Wang, G., Li, J., Sun, Y., Chen, X., Liu, C., Wu, Y., Lu, M., Song, S., Abbasi Yadkori, Y. (2025). "Hierarchical Reasoning Model." arXiv:2506.21734 (eingereicht 2025-06-26, überarbeitet 2025-08-04)