Reibung und Fluss
Über KI-Versagen, organisationale Skalierung und die Frage, die noch niemand stellt
Das Interessanteste an der Art, wie Menschen über KI-Versagen sprechen, ist nicht das Versagen selbst. Es ist die Genugtuung.
Der Moment der Erkenntnis
Wenn eine KI halluziniert – Falsches selbstsicher hervorbringt, Zitate erfindet, Fakten verwechselt – hat eine ganz bestimmte Art von Person eine ganz bestimmte Reaktion. Nicht Enttäuschung, genau genommen. Eher Genugtuung. Aha. Siehst du, dem ist nicht zu trauen. Es hat Grenzen. Es scheitert.
Was technisch passiert, ist ziemlich gut verstanden. Große Sprachmodelle scheitern an den Grenzen ihres Trainings und Kontextfensters. Treibst du ein beliebiges System über seinen Operationsbereich hinaus, verschlechtert es sich – das ist kein KI-spezifisches Manko, sondern wie Leistungsfähigkeit funktioniert. Jedes System hat eine Ausfallgrenze. Chirurgen haben sie. Finanzmodelle haben sie. Brücken haben sie. Wir haben gelernt, innerhalb dieser Grenzen zu arbeiten, statt die bloße Existenz einer Grenze als Beweis grundsätzlicher Unzuverlässigkeit zu sehen.
Bei KI tun wir das nicht. Eine Halluzination wird zum Urteil. Das ist beachtenswert, nicht weil KI nachsichtiger behandelt werden sollte, sondern weil die Inkonsistenz des Standards etwas über das offenbart, was die Kritik wirklich antreibt – nicht eine genaue Bewertung der Zuverlässigkeit, sondern eher eine Art Erleichterung. Das, das uns verunsichert hat, kann doch noch abgetan werden.
Die falsche Ebene
Das tiefere Problem mit der Halluzinations-Kritik ist, dass sie Maßstäbe für Einzelwerkzeuge auf etwas anwendet, das bereits in der Praxis auf organisationaler Ebene funktioniert.
Wenn KI in einen ernsthaften Arbeitsablauf integriert wird – nicht als Kuriosität, sondern als Abhängigkeit – funktioniert sie nicht als einzelnes Werkzeug, das entweder funktioniert oder nicht. Sie funktioniert als eine Ebene in einem System, genauso wie eine Abteilung oder ein Team als Ebene funktioniert. Die Qualität einer Abteilung bewertest du nicht danach, ob jemals ein Einzelner in ihr einen Fehler gemacht hat. Du bewertest sie danach, ob das Gesamtsystem über die Zeit hinweg zuverlässig produziert, Fehler ohne katastrophales Versagen bewältigt und sich durch Feedback verbessert.
Nach diesen Kriterien ist die entscheidende Frage nicht «halluziniert KI» sondern «halluziniert KI mehr als die menschlichen Prozesse, die sie ersetzt oder augmentiert». Und dieser Vergleich wird selten gezogen, weil auch die menschlichen Prozesse ständig versagen, teuer fehlschlagen – und niemand erklärt sie deswegen für grundsätzlich unzuverlässig.
Auf organisationaler Ebene dreht sich die Frage nach KIs Einsatzfähigkeit nicht um einzelne Fehlerquoten. Es geht darum, welche Arten von Organisationen KI integrieren können, in welcher Größe, mit welchen Aufgaben und mit welchen Ausfallmustern. Das ist eine viel interessantere Frage und wir haben kaum angefangen, sie zu stellen.
Was menschliche Organisationen wirklich zum Scheitern bringt
Wir verfügen über Jahrzehnte von Forschung über große Organisationen und ein ziemlich klares Bild davon, warum sie versagen. Die strukturellen Designs – Hierarchien, Informationswege, Entscheidungsebenen, Eskalationspfade – sind überwiegend solide. Die Pathologien sind menschlichen Ursprungs. Abteilungswachstum aus Selbstschutz, wo Einheiten vor allem ihre Budgets verteidigen statt ihre Aufgaben zu erfüllen. Schleichende Bürokratie, wo sich Prozesse häufen, bis sie selbst zum Hauptzweck werden. Beförderungen nach politischen Überlegungen, nicht nach Kompetenz. Informationen, die auf jeder Ebene von Menschen gefiltert werden, die ihre Positionen schützen. Korruption nicht als Unfall, sondern als natürliche Folge der Machtkonzentration.
Das sind keine strukturellen Fehler. Es sind menschliche Fehler, die sich in Strukturen manifestieren. Das Organigramm hat niemanden korrumpiert. Der Anreiz zur Korruption war bereits da, die Struktur bot nur die Möglichkeit.
Die naive Schlussfolgerung daraus – und sie ist verlockend – ist, dass KI-gestützte Organisationen diese Probleme einfach nicht hätten. KI hat keine politischen Überlebensinstinkte. Sie befördert nicht ihre Verbündeten, schützt nicht ihr Budget, filtert Informationen nicht nach oben, um gut dazustehen. Eliminiere die menschlichen Laster, so das Denken, und die Organisationsstruktur läuft endlich sauber ab, wie sie immer hätte sein sollen.
Dieses Denken ist nicht falsch, soweit es reicht. Aber es reicht nicht aus.
Was KI bereits über Reibung weiß
Die erfolgreichsten KI-Trainingsmethoden des letzten Jahrzehnts sind, völlig unabhängig voneinander und von der Organisationstheorie, zu derselben bemerkenswerten Erkenntnis gelangt: Antagonismus produziert bessere Ergebnisse als bloße Zusammenarbeit.
Generative Adversarial Networks – GANs – funktionieren, indem sie zwei Systeme gegeneinander antreten lassen. Der eine erzeugt Ausgaben; der andere versucht zu erkennen, wenn der erste scheitert. Keiner verbessert sich ohne den Widerstand des anderen. Ohne den Gegner erzeugt der Generator mittelmäßige Ausgaben mit großem Selbstvertrauen. Die Reibung ist nicht Nebensache. Sie ist der Prozess selbst.
Multi-Agent-Debatte überträgt ein ähnliches Prinzip auf Sprachmodelle. Wenn mehrere KI-Instanzen gegensätzliche Positionen zur gleichen Frage vertreten – statt sie einfach zu beantworten – sind die daraus entstehenden Antworten messbar genauer und besser begründet als die einer einzelnen Instanz. Der Dissens verbessert die Ausgabe. Konsens ist in diesem Kontext ein Fehlermodus.
Dann ist da noch Selbstspiel: AlphaGo und AlphaZero lernten nicht durch das Studium menschlichen Spiels, ihre Spiele zu meistern. Sie lernten durch Millionen Spiele gegen sich selbst – durch innere antagonistische Spannung in einem Ausmaße, das kein menschlicher Gegner bieten konnte. Das Ergebnis war eine Leistung, die alles übertraf, was Menschen nach Jahrhunderten angesammelter Meisterschaft erreicht hatten.
KI kommt, ihrer eigenen Trainingslogik folgend, immer wieder zur gleichen Erkenntnis: Antagonismus funktioniert. Reibung ist manchmal nicht das Hindernis beim Lernen. Sie ist der Antrieb selbst.
Die andere Seite
Aber das ist nicht die ganze Geschichte. Die Beweise auf der anderen Seite sind genauso überzeugend.
Elinor Ostrom gewann 2009 den Wirtschaftsnobelpreis, weil sie das dokumentierte, was formale Wirtschaftstheorie für unmöglich hielt: große Gruppen von Menschen, die gemeinsame Ressourcen lange Zeit erfolgreich ohne Märkte und zentrale Autorität verwalteten. Kein Antagonismus, keine Hierarchie, die Einhaltung erzwingt. Nur Koordinationsnormen, die in der Gemeinschaft selbst entstanden und hielten, weil die Gemeinschaft ihnen vertraute. Stabil, ertragreich, von Dauer. Die Theorie sagte, das sei unmöglich. Die Empirie zeigte, es geschah ständig.
Open-Source-Softwareentwicklung schafft Ähnliches in anderer Größenordnung. Linux, Wikipedia und der Großteil der Grundinfrastruktur des modernen Internets wurden von verstreuten Gemeinschaften freiwillig Mitwirkender errichtet, koordiniert durch gemeinsame Normen statt Befehle, ohne Antagonismus zwischen Beitragenden. Die Ergebnisse konkurrieren mit und übersteigen oft das, was vergleichbar große zentrale, hierarchische Organisationen mit deutlich mehr Mitteln produzierten.
Schwarmintellenz bietet ein drittes Beispiel. Ameisenkolonien, Bienenstöcke, Vogelflüge – sie zeigen bemerkenswerte emergente Verhaltensweisen ohne zentrale Steuerung und ohne gegensätzliche Dynamiken zwischen den Agenten. Jedes Individuum folgt einfachen lokalen Regeln; das kollektive Ergebnis ist komplex, adaptiv und robust. Das Ergebnis entsteht nicht durch Reibung, sondern durch etwas dem reinen Fluss ähnlicheres: jeder Agent macht sein Ding, das System schafft etwas viel Größeres als die Summe.
Wir haben also zwei Mengen von Beweisen, beide überzeugend, die in gegensätzliche Richtungen deuten. Reibung führt zu besseren Ergebnissen. Fluss führt zu besseren Ergebnissen. Beide Aussagen sind empirisch belegt. Es geht nicht darum, welcher recht hat.
Reibung und Fluss
Die Frage ist, was bestimmt, welcher Ansatz eine gegebene Situation verlangt.
Einige Muster zeichnen sich ab. Antagonistische Dynamiken funktionieren am besten, wenn die Aufgabe Unterscheidung ist – Wahr von Falsch, Gut von Schlecht, Richtig von Falsch unterscheiden. GANs werden besser beim Generieren, weil der Diskriminator den Generator konstant zu größerer Präzision zwingt. Multi-Agent-Debatten verbessern das Denken, weil Uneinigkeit die Lücken in jeder Position aufdeckt. Opposition ist Qualitätskontrolle, und sie ist am wichtigsten, wenn die Kosten eines Fehlers hoch und schwer zu identifizieren sind.
Fluss und Koordination – das Ostrom-Modell, das Open-Source-Modell, das Schwarmmodell – funktionieren am besten, wenn die Aufgabe Konstruktion ist, nicht Unterscheidung. Etwas Neues erschaffen, eine Wissensbasis erweitern, einen Lösungsraum erforschen. Hier kann antagonistischer Druck kontraproduktiv sein: er verengt die Suche statt sie zu erweitern, optimiert lokal statt global und weckt Vertrauen in die falschen Dinge. Das brauchen diese Situationen: Vertrauen und eine gemeinsame Richtung, nicht Opposition.
Wenn dieses Muster sich bewährt – und es ist erst eine Hypothese, noch keine Schlussfolgerung – dann dreht sich die zentrale Designfrage für KI-Organisationen nicht um «wie viel Reibung brauchen wir» sondern um «was soll dieser Organisationsteil erreichen, und welcher Modus passt zu dieser Arbeit». Dieselbe Organisation könnte antagonistische Strukturen für Verifikation und Entscheidungen brauchen, aber flussbasierte Strukturen für Generierung und Erforschung. Das absichtsvoll zu gestalten, anstatt sich durchweg auf einen Modus zu verlassen, ist wahrscheinlich das, was organisatorische Spitzenleistung bei KI-Skalierung bedeutet.
Ob KI-Systeme selbst erkennen können, wann sie Reibung brauchen und wann Fluss, und zwischen den Modi wechseln können – das ist eine Frage, die noch nicht wirklich untersucht wurde. Heutige Multi-Agent-Architekturen sind für das meiste einfache Hierarchien: Baumstrukturen, die zeigen, wie wir Software und Tools verstehen. Das sind erste-Generation-Entwürfe, vernünftige Ausgangspunkte, und höchstwahrscheinlich nicht, wo es endet.
Das Experiment
Die Halluzinations-Kritik ist, von diesem Standpunkt aus betrachtet, ein Kategorienfehler. Wir beurteilen etwas auf Einzelwerkzeug-Ebene für Zuverlässigkeit, während es bereits auf einer Ebene funktioniert, wo die Analyse-Einheit die Organisation ist. Und auf dieser Ebene ist weniger wichtig, ob eine einzelne Komponente scheitert, sondern wie das System Fehler handhaben kann – und ob es weiß, wann Reibung nötig ist und wann sie nur bremst.
Wir befinden uns, ohne das ganz zuzugeben, am Beginn des größten Organisationsexperiments der Menschheitsgeschichte. Es werden KI-native Organisationen errichtet. Sie werden auf unvorhersehbare Weise scheitern und auf unerwartete Weise erfolgreich sein. Die naive Variante wird versuchen, alle Reibung zu entfernen und etwas hervorbringen, das effizient aber zerbrechlich ist. Die interessantere Version muss verstehen lernen, was die Reibung bezweckte.
Wie viel von dem, das uns verlangsamt, ist auch Teil von dem, was wir erreichen können? Diese Frage hat noch keine Antwort. Es könnte die wichtigste sein, die sich uns stellt.