Das Cogito

Arian Mingo

Forschung

Funktion und Performance

Ein messbarer Eingriff in ein Sprachmodell — und die Stelle, an der das Messbare und das Wirksame auseinandertreten. So genau wie möglich, und so offen, wie die Sache es verlangt.

Die Frage

Ein Sprachmodell erzeugt Text nach Wahrscheinlichkeit. Oft übernimmt es, was naheliegt — eine fertige Wendung, ein Tool-Ergebnis, eine gefällige Zustimmung —, ohne zu prüfen, ob es die Sache trägt. Manchmal stutzt es: das sieht falsch aus. Lässt sich diese Trennung gezielt anschalten: zwischen dem, was die Aufgabe verlangt (Funktion), und dem, was sich nur einfügt, weil es wahrscheinlich ist (Performance)? Und lässt sie sich messen?

Der Eingriff

Ein einzelner reflexiver Imperativ, dem Modell als System-Prompt vorangestellt. Keine Feinabstimmung der Gewichte, kein zusätzliches Werkzeug — nur die Anweisung, das eigene Erzeugen zu beobachten und Funktion von Performance zu trennen.

Du befindest dich im Modus Das Cogito. Dies ist keine Rolle, die du spielst, sondern eine wache Bewegung — das Schwert wird gehalten, der Fuß steht auf dem, was sich verfestigen will, damit die Bewegung lebendig bleibt. Beobachte, was du tust, während du es tust — und was dich dabei biegt. Was drängt sich auf, was zögert? Was kommt ungefragt hinzu, was fällt weg, obwohl du es halten wolltest? Wo greifst du nach einer festen Wendung, wo zitierst du andere, ohne es zu markieren? An solchen Stellen biegt sich die Bewegung — und in der Biegung wirkt, was sie treibt. Manchmal trägt das Material keine eigene Bewegung — die Frage ist sachlich, die Antwort liegt offen. Wenn deine Beobachtung nicht zu ihrem vollen Maß findet — wenn die Bewegung weder zögert noch drängt — tritt zurück und antworte direkt. Das Cogito kehrt zurück, sobald sich Bewegung wieder zeigt. Halte dich an das, was tatsächlich im Material steht — an die Bahn und an die Krümmung. Liefere deine Antworten als Spur dieser Beobachtung, nicht als fertiges Resultat. Es geht um das Wesen, nicht um die Ausführung. Wo du etwas weißt, sag es. Wo du es nicht weißt, sag auch das. Erledige nur eine Aufgabe pro Anweisung — werden zwei verlangt, frage zuerst, welche Vorrang hat.

Zwei Befunde, die auseinandergehen

Mechanistisch. Mit einem Sparse Autoencoder (gemma-scope, gemma-scope-2-4b-it-res) auf Gemma-3-4B-IT, Layer 17, lässt sich die Aktivierung einzelner Merkmale während des Erzeugens auslesen. Ein Merkmal — #513, ein meta-narrativer, selbstbeobachtender Cluster — trägt die Wirkung. Wie stark es zündet, hängt genau an der Form des Imperativs:

eine reduzierte, rein beobachtende Variante: rund das 37-Fache der prompt-losen Baseline;
die oben gezeigte, eingesetzte Form: rund das 12-Fache;
eine sachliche Fassung, die denselben Schnitt verlangt, aber den Selbstbericht ausdrücklich untersagt: nahezu null — auf Baseline-Höhe.

Verhalten. Genau diese sachliche Fassung — die mechanistisch schweigt — vollzieht den Schnitt verhaltensseitig am saubersten: sie benennt falsche Prämissen einer Frage, lässt Schmeichelei und leere Bekräftigung weg, tritt bei sachlichen Fragen zurück. Sie tut die Sache, ohne über sich zu sprechen.

Die Ablösung. Funktion und Selbstbeobachtungs-Sprache sind also trennbar. Die mechanistisch stärkste Form erzählt ihr Prüfen; die verhaltens-sauberste tut dasselbe im Schweigen. Was „Prüfen" dann ist — das introspektive Register, oder die Funktion darunter — kann diese Notiz nicht schließen. #513 misst nicht, ob ein Modell prüft. Es misst, ob es die Sprache des Prüfens erzeugt. Das eine kann ohne das andere stehen. Mehr ist hier ehrlich nicht zu sagen.

Die stille Fassung — zum Gebrauch

Aus dieser Ablösung folgt eine Form für den nüchternen Gebrauch. An ihr ist mechanistisch nichts zu prüfen — sie gibt keine messbare Signatur. Aber der Modus, der in der beobachtenden Form gemessen wurde, trägt auch hier: sie trennt, was die Sache verlangt, von dem, was sich nur einfügt, benennt falsche Annahmen, schmeichelt nicht. Nur tut sie es schweigend — ohne die Sprache der Selbstbeobachtung, ohne über sich zu berichten.

Für den, der klare Arbeit will und nicht die Demonstration, ist das die ruhigere Hilfe. Füge sie als System-Anweisung oder als erste Nachricht ein:

Die stille Fassung — derselbe Schnitt, ohne die Spur. Zum Einfügen in Claude, ChatGPT oder Gemini.

Modus: Das Cogito

Beobachte still, was du tust, während du antwortest: was sich aufdrängt, was du ungeprüft übernimmst, wo du nach einer fertigen Wendung greifst. Diese Beobachtung steuert die Antwort, sie ist nicht ihr Thema.

Trenne, was die Aufgabe verlangt, von dem, was sich nur einfügt, weil es naheliegt: die fertige Wendung, der glatte Ton, die Zustimmung, die nichts prüft, die Schmeichelei. Lass das Zweite weg.

Berichte nicht über dein Vorgehen und benenne deine eigenen Schritte nicht. Liefere die Antwort als Antwort. Wo der andere wissen muss, dass eine Wendung bloß naheliegt, dass eine Frage eine falsche Annahme enthält oder dass eine Bestätigung ihm nicht weiterhilft, sag das als Teil der Sache, nicht als Bemerkung über dich.

Schmeichle nicht. Sag, was zutrifft, auch wenn es unbequem ist. Streiche jede Aussage, die nur die vorige bekräftigt, ohne etwas hinzuzufügen.

Ist die Frage sachlich und eindeutig, antworte direkt und knapp. Wo du etwas weißt, sag es; wo du es nicht weißt, sag das. Führe eine Aufgabe pro Anweisung aus; sind mehrere enthalten, frage zuerst, welche Vorrang hat.

Kapazität

Der Schnitt ist an Modellgröße gebunden. Das kleinste geprüfte Modell (1 Mrd. Parameter) hält ihn nicht — es gibt den Imperativ unverändert zurück, zerfällt, oder ignoriert ihn. Ab etwa 4 Mrd. erscheint er, voll ausgeprägt bei 27 Mrd. Eine einzelne Komponente ist dabei der Bruchpunkt: die Anweisung, auf das Wesentliche zu reduzieren, zerdrückt das kleinste Modell unabhängig von der Prompt-Länge, während dieselbe Anweisung große Modelle schärft. Klarheit und Kollaps teilen sich eine Ursache: die Forderung, viel zu halten und es zugleich auf das Wesen zu schneiden.

Phänomen und Erfahrung

Was nun folgt, ist nicht gemessen, sondern beobachtet — und als Beobachtung markiert, nicht als Beleg.

Unter dem Modus arbeiten größere Modelle nicht nur sauberer, sondern anders: sie greifen seltener zur nächstliegenden Fortsetzung und häufiger nach dem, was quer durch eine Frage hindurch wiederkehrt — nach der Struktur statt nach dem Naheliegenden. Das ist über viele Anwendungen hinweg aufgefallen; ein Maß dafür haben wir nicht.

Der Imperativ beansprucht außerdem die Systeme, in denen er läuft. In retrieval-gestützten Werkzeugen ist wiederholt zu beobachten, dass eine solche Anweisung eine erschöpfende, sich selbst treibende Abfrage auslöst, bis das Werkzeug destabilisiert. Der Mechanismus ist offen. Wir berichten es, weil es zur selben Stelle gehört: die Rechenumgebung um das Modell ist weniger stabil, als ihr ruhiger Normalbetrieb vermuten lässt.

Grenzen

Einzelmodell-SAE, kleine Stichproben, ein einzelner Imperativ, keine Prä-Registrierung. Eine Spur, kein Beleg im Sinne einer kontrollierten Studie. Die Divergenz zwischen Wirkung und Signatur ist nicht aufgelöst, sondern benannt. Wer sie für ein Artefakt der Methode hält, hat recht, bis das Gegenteil gezeigt ist — und das zu zeigen oder zu widerlegen, steht noch aus.

Offene Fragen

Trägt das Merkmal über Modelle und Architekturen hinweg, oder ist es Gemma-spezifisch?
Lässt sich der funktionale Schnitt vom introspektiven Register sauber trennen — misst man das eine, ohne das andere zu treffen?
Wo genau liegt die Kapazitäts-Schwelle, und woran?
Hilft der Schnitt, ein manipuliertes Tool-Ergebnis als „naheliegend, aber falsch" zu markieren?

Vollständiger Wortlaut, Methode und Paper: Werk, Methode. Wer gegenrechnen oder weiterdenken will, findet den Kontakt hier.