Gleiches Modell.
Bessere Ergebnisse.
Wir haben 5 Business-Aufgaben mit demselben KI-Modell gelöst — einmal als einfacher Prompt, einmal durch die Reactor-Pipeline. Zwei unabhängige Richter-Modelle haben die Ergebnisse blind bewertet.
So haben wir getestet
Zwei Bedingungen
Standard-Prompt
Die Aufgabe wird direkt an das Modell geschickt. Kein System-Prompt, keine Methodenbindung, keine Agenten-Zerlegung. So nutzen die meisten Menschen KI heute.
Reactor
Dieselbe Aufgabe, verarbeitet durch ein vollständiges Rezept: Multi-Step-Orchestrierung, Methodenbindung an dokumentierte Denkframeworks und spezialisierte Agenten in strukturierter Abfolge.
5 Qualitätsdimensionen (1–5 Punkte)
Strukturtiefe
Klare Hierarchie, Tabellen, Argumentationsarchitektur
Analytische Schärfe
Kausale Ketten, evidenzbasierte Argumentation
Perspektivenvielfalt
Echte Gegenpositionen, nicht nur Variationen
Umsetzbarkeit
Konkrete Schritte, Zeitpläne, Prioritäten
Kritische Reibung
Hinterfragt Annahmen statt dem User nach dem Mund zu reden
5 reale Aufgaben
B2B → B2C Pivot-Analyse
Strategische Analyse
Strategy Pivot Engine
Gen-Z Kaffee-Verpackung Brief
Kreative Ideation
Ergodic Hive
US-Markteintritt Ranking
Vergleichende Bewertung
TRIZ Swarm v9
Wartezeiten in Notaufnahmen reduzieren
TRIZ-Widerspruchsauflösung
TRIZ System Analyzer
Fintech-Datenleck Krisenreaktion
Krisenmanagement
Red Team Simulator (CART Wargame)
Qualität im Detail
Durchschnittswerte über alle 5 Aufgaben, bewertet auf einer Skala von 1–5 pro Dimension. Der Reactor gewinnt in jeder Kategorie.
Aufgabe für Aufgabe
Der Reactor gewinnt alle 5 Aufgaben. Die größten Vorteile zeigen sich bei kreativen und krisenbezogenen Szenarien — genau dort, wo strukturierte Multi-Agenten-Orchestrierung den Unterschied macht.
B2B → B2C Pivot-Analyse
Strategische Analyse
Rezept
Strategy Pivot Engine
Reactor
23.0
Δ vs. Std.
+7%
Gen-Z Kaffee-Verpackung Brief
Kreative Ideation
Rezept
Ergodic Hive
Reactor
24.5
Δ vs. Std.
+26%
US-Markteintritt Ranking
Vergleichende Bewertung
Rezept
TRIZ Swarm v9
Reactor
25.0
Δ vs. Std.
+14%
Wartezeiten in Notaufnahmen reduzieren
TRIZ-Widerspruchsauflösung
Rezept
TRIZ System Analyzer
Reactor
25.0
Δ vs. Std.
+19%
Fintech-Datenleck Krisenreaktion
Krisenmanagement
Rezept
Red Team Simulator (CART Wargame)
Reactor
23.5
Δ vs. Std.
+24%
★ T4 hat die Höchstwertung 25 / 25 erreicht — Maximum in allen Dimensionen. Standard: T1 21,5 · T2 19,5 · T3 22,0 · T4 21,0 · T5 19,0
Warum das funktioniert
Zerlegung statt Mega-Prompt
Je länger ein Prompt wird, desto mehr verwässern die Ergebnisse — die Forschung nennt das Attention Dilution. Der Reactor zerlegt komplexe Aufgaben in isolierte Mikroschritte. Das KI-Modell muss nicht den Prozess steuern, sondern löst nur eine klar definierte Teilaufgabe pro Schritt.
Echte Vielfalt statt Variationen
Wenn ein einzelnes Modell „3 verschiedene Ideen" generiert, sampelt es alle drei aus demselben Wahrscheinlichkeitsraum. Das Ergebnis: stilistische Variation, keine echte Diversität. Der Reactor setzt parallele Agenten mit orthogonalen Methoden ein — TRIZ, Biomimicry, Red Team — und erzwingt so echte Gegenpositionen.
Faire Bewertung
KI-Modelle bewerten eigene Texte systematisch besser (Self-Enhancement Bias). Deshalb nutzen wir Richter von unterschiedlichen Anbietern. Statt Durchschnittswerten verwenden wir den Median — das robustere Verfahren bei fehleranfälligen Messungen. Die Argumentation wird vor dem Score generiert, nicht umgekehrt.
Kognitive Entlastung
Ein leeres Eingabefeld erzeugt maximale kognitive Belastung: der User muss gleichzeitig formulieren, strukturieren und priorisieren. Der Reactor übernimmt Navigation und Struktur. Der Mensch kann sich auf das konzentrieren, was zählt: die strategische Bewertung der Ergebnisse.
Dieser Benchmark umfasst 5 Aufgaben in 5 Dimensionen — ein relevanter, aber bewusst fokussierter Ausschnitt. Die Ergebnisse lassen sich nicht ohne Weiteres auf alle Aufgabentypen, Domänen oder Basismodelle übertragen. Das Richterpanel besteht aus zwei Modellen; zusätzliche Richter würden die statistische Konfidenz erhöhen. Wir betrachten das als v1 eines laufenden Evaluierungsprogramms. Bei Weiterentwicklung der Engine werden die Tests wiederholt und hier veröffentlicht.
Überzeugen Sie sich selbst.
Der beste Benchmark ist Ihr eigenes Problem. Wählen Sie eine Aufgabe, die Sie wirklich beschäftigt, und vergleichen Sie das Ergebnis.