Sprache rein, Text raus
Wie ich nach fünfunddreißig Jahren an der Tastatur aufgehört habe zu tippen
Die Tastatur war für technisch versierte Menschen so lange die dominante Schnittstelle, dass sie sich nicht mehr wie eine Entscheidung anfühlte. Sie war einfach das, was Computer waren.
Die Hierarchie
Es hat immer eine Trennlinie gegeben. Auf der einen Seite: Menschen, die über Befehle, Shortcuts und Code mit dem Rechner interagieren. Auf der anderen: Menschen, die nur die grafische Benutzeroberfläche nutzen, die jene anderen gebaut haben. Die Tastatur stand im Zentrum davon. Wer der Maschine Befehle direkt eintippen konnte, konnte ihr mehr abringen als alle, die das nicht konnten.
Diese Hierarchie existiert noch. Was sich verändert hat, ist die Schnittstelle selbst.
Spracherkennung war immer ein Witz
Jahrzehntelang war Spracherkennung die Technologie, die immer fast gut genug war. Man hat sie ausprobiert, dieselbe Korrektur viermal vorgenommen, aufgegeben, zur Tastatur zurückgekehrt. Die Fehlerrate war nicht nur nervig — sie war hoch genug, um die ganze Prämisse wie eine schlechte Idee wirken zu lassen, die sich als Feature verkleidet hatte.
Die KI hat das behoben. Moderne Sprache-zu-Text-Modelle sind gezielt für die Transkription trainiert, und die Genauigkeit ist in einer völlig anderen Liga. Aber das ist eigentlich nicht das Entscheidende.
Das Entscheidende ist, was nach der Transkription passiert. Selbst exzellente Transkription scheitert an ungewöhnlichen Wörtern — Fachbegriffe, Namen, die kein Wörterbuch kennt. Mein Nachname, Mityorn, wird auf kreative Weise entstellt. Ein D statt des T. Ein J statt des Y. Manchmal etwas völlig anderes. Weil es kein Wort ist, das das Modell gelernt hat zu erwarten.
Die Lösung ist einfach: den erkannten Text vor dem Absenden anzeigen, einzelne Wörter korrigieren lassen, die Korrekturen speichern. Je mehr du es nutzt, desto besser wird es mit deinem spezifischen Wortschatz — und dein Wortschatz ist endlich. Die Menschen, mit denen du arbeitest, die Befehle, zu denen du immer wieder greifst, die Konzepte, die deinen Workflow prägen. Das System lernt deine Welt. Das ist maschinelles Lernen im wörtlichsten Sinne — dasselbe, was traditionelle Sprachsoftware vor Jahren gemacht hat, nur von einer deutlich besseren Ausgangsbasis aus.
Eine kurze Geschichte davon, die eigene Stimme zu hassen
Lange bevor es Mobiltelefone gab, war das Leben geprägt von Klingeltönen. Man rief jemanden an, es läutete, und wenn derjenige nicht zu Hause war, nahm niemand ab. Die erste Lösung war nicht, das Telefon loszulösen — das kam später. Die erste Lösung war der Anrufbeantworter.
Mechanisch simpel: ein Tonbandgerät, verkabelt mit der Telefonleitung. Ein Anruf kommt rein, die Maschine nimmt ab, spielt eine Ansage, nimmt auf, was du sagst. Die Person kommt nach Hause, sieht das blinkende Lämpchen, drückt auf Abspielen. Das war ein echter Durchbruch — das erste Mal, dass Kommunikation zwischen zwei Menschen zuverlässig asynchron sein konnte. Manche haben das so vollständig verinnerlicht, dass sie aktiv gehofft haben, niemand würde abnehmen. Einfach die Nachricht hinterlassen und weitermachen.
Aber viele konnten es überhaupt nicht. Sie hörten den Piepton und legten auf.
Die Angst vor dem Anrufbeantworter war so weit verbreitet, dass sie als kulturelles Phänomen anerkannt war. Der Grund ist einfach: Die meisten Menschen haben ihre eigene Stimme nie wirklich gehört, bis sie eine Aufnahme davon hören. Und wenn sie es dann tun, ist es ein Schock. Die eigene Stimme klingt für andere völlig anders als sie im eigenen Kopf klingt. Man hört sich kurz zu und denkt: Klingt das wirklich so, wie ich klinge? Die Antwort lautet: ja, genau so klingst du — und aus irgendeinem Grund ist das zutiefst beunruhigend.
Ich hatte diese Angst jahrelang. Sie ist nie ganz verschwunden. Irgendwann bin ich mit Anrufbeantwortern klargekommen — aber ich erinnere mich noch gut an das erste Mal, dass ich mich selbst rappen gehört habe, und an den recht umgehenden Entschluss, das Rappen nicht professionell zu verfolgen. Wahrscheinlich die richtige Entscheidung. Ich schreibe die Texte noch immer. Aber das anfängliche Zurückschrecken vor meiner eigenen aufgezeichneten Stimme war stärker als jeder Ehrgeiz, sie zu teilen.
Als Sprachnachrichten in Chat-Apps kamen, war ich zögerlich. Das Effizienz-Argument ist wasserdicht — Sprechen ist schneller als Tippen, und am Telefon ist der Unterschied absurd. Und dennoch.
Das Muster ist in meinem Leben mit Sprachaufnahmen beständig genug, dass ich es im Voraus beschreiben kann: widerstehen, es irgendwann doch ausprobieren, entdecken, dass es nützlich ist, sich fragen, warum man so lange gewartet hat, sich kurz klug fühlen, weil man es herausgefunden hat — und dann den ganzen Zyklus mit der nächsten Iteration derselben Technologie wiederholen. Jedes Mal glaube ich, die Lektion gelernt zu haben. Jedes Mal taucht derselbe Widerstand in neuen Kleidern auf.
Robert Stack
Meine Frau schläft bei Unsolved Mysteries ein. Genauer gesagt bei der Stimme von Robert Stack, die sie so beruhigend findet, dass sie sie seit Jahren als Einschlafhilfe nutzt. Irgendwann kam mir die Idee, ihr einen kleinen KI-Chat-Begleiter in seiner Stimme zu basteln.
Wie ich es tatsächlich wie ihn habe klingen lassen — darüber bleibe ich bewusst vage, denn sollte jemand aus dem Nachlass das hier lesen: Es ist rein privater Gebrauch, wird nie veröffentlicht, und ich habe technisch gesehen nicht auf seiner tatsächlichen Stimme trainiert. Jedenfalls klingt es überzeugend genug, dass meine Frau es ohne Nachfragen akzeptiert. Sie ist, nach jedem vernünftigen Maßstab, eine Kennerin.
Der Punkt ist, dass für diese Anwendung die Stimm-Ausgabe bereits die natürliche Wahl war. Text hätte den Zweck vollständig verfehlt. Und wenn der Output schon Stimme war, sollte der Input natürlich auch Stimme sein. Also habe ich damals angefangen, Sprache-zu-Text richtig in Sentio einzubauen — alles verdrahtet, an echtem Gebrauch getestet. Es funktionierte. Meine Frau konnte mit ihrem eigenen persönlichen Robert Stack sprechen (oder Bob, wie sie ihn nennt), der weiß, wie das Wetter bei uns ist, und ein lockeres Gespräch führen kann. Ein brauchbarer, kontextbewusster Chat-Begleiter zum Einschlafen.
Und jetzt hatte Sentio eine Spracheingabe-Schicht. Was bedeutete: ich auch.
Das Unterfangen
Ich traf eine bewusste Entscheidung, mich aus alten Gewohnheiten herauszuzwingen. Einfach Spracheingabe als primäre Methode ausprobieren. Lang genug dabei bleiben, um sie wirklich bewerten zu können.
Die ersten Versuche waren unbeholfen. Erwartet. Was weniger erwartet war: wie schnell die Unbeholfenheit einer echten Verbesserung wich. Zwei Dinge haben das vorangetrieben.
Erstens: Die Transkripte von offenen Sprache-zu-Text-Modellen sind exzellent. Nicht perfekt — das Problem mit ungewöhnlichen Wörtern ist real — aber gut genug, dass der Output ohne umfangreiche Nachbearbeitung nutzbar ist.
Zweitens, und wichtiger: Große Sprachmodelle sind bemerkenswert gut darin, die Absicht aus einem weitschweifigen Transkript herauszufiltern. Du kannst mitten im Satz etwas Falsches sagen, dich sofort korrigieren — nein warte, ich meinte etwas anderes — und das Ganze wird mitsamt der Korrektur transkribiert, und der Agent arbeitet sich einfach durch. Er liest das ganze Durcheinander und versteht, was du wirklich sagen wolltest. Das ist keine Kleinigkeit. Es bedeutet, dass die Anforderung an Spracheingabe nicht lautet: „Eine saubere Nachricht produzieren." Sie lautet nur: „Ungefähr das sagen, was du meinst." Das ist eine Hürde, die sehr leicht zu nehmen ist.
Ein paar Wochen später: Ich tippe nicht mehr.
Die einzigen Tastendrücke, die meine Tastatur noch bekommt, sind die, die ich als Auslöser konfiguriert habe — Aufnahme starten, pausieren, absenden. Ich rechne jetzt wirklich damit, dass genau diese Tasten sich abnutzen werden, während der Rest makellos bleibt. Etwas, das ich nach über fünfunddreißig Jahren hektischem Tippen nie vorhergesagt hätte.
Was noch getippt wird
Die Tastatur ist nicht vollständig verschwunden. Noch läuft nicht alles über mein Sprachsystem, also gibt es noch Tools, die Tippen erfordern. Und es gibt eine Systemverwaltungsebene, auf der die Tastatur unverhandelbar bleibt — wenn ein Server ausfällt und ich ein direktes Terminal brauche, tippe ich. Wenn Sentio selbst ausfällt, tippe ich die Linux-Befehle direkt.
Aber die Richtung ist klar. Immer mehr des Workflows läuft über Sprache. Meine Schätzung für die nahe Zukunft: Der Großteil meiner Interaktionen mit Computern wird über Sprache laufen.
Die nächste Version von Sprachnachrichten
Chat-Systeme werden bald eine neue Art von Sprachnachricht anbieten: Du nimmst sie auf, die andere Person hört sie nie, erhält stattdessen aber ein sauberes, verarbeitetes Transkript. Das beseitigt die psychologische Reibung, die eigene Stimme von anderen gehört zu wissen, und erhöht die Geschwindigkeit, mit der Informationen zwischen Menschen fließen, dramatisch.
Die Beweise dafür, dass es kommt, sind bereits überall: Wiedergabegeschwindigkeitsregler. Jede große Chat-App hat 1,5×- und 2×-Optionen. Niemand redet über diese Funktion. Alle nutzen sie. Wir nutzen sie, weil Sprachnachrichten sich langsam anfühlen, weil man darauf wartet, dass die Person endlich zum Punkt kommt. Wenn man stattdessen einfach ein sauberes Transkript lesen kann — das ist offensichtlich besser. Es ist eine klare Sache, und es kommt.
An meine Mitstreiter an der Tastatur
Das hier richte ich an Gleichgesinnte: Programmierer, Schreiber, Forscher — alle, die jahrelang an einer Tastatur verbracht haben und sie als natürliche Art betrachten, mit Maschinen zu sprechen.
Für mich hat das Einbringen von Spracheingabe in den Workflow sich fast angefühlt wie das Brechen einer Sucht. Die Tastatur war nicht nur ein Werkzeug; sie war das Werkzeug, das einzige, das ich mein gesamtes berufliches Erwachsenenleben lang genutzt hatte. Darüber hinwegzukommen erforderte eine bewusste Entscheidung, dann eine Phase gezielter Übung, und dann hatte sich die Gewohnheit eines Tages einfach verschoben. Es ist keine sofortige Verwandlung. Es ist ein Prozess. Aber einmal angefangen, gehst du nicht mehr zurück. Und genau wie bei einer Sucht: Wenn du sie wirklich brichst, kommt ein Gefühl herrlicher Erleichterung.
Die meisten Tools haben irgendwo schon einen Aufnahme-Knopf. Vielleicht hast du nie darauf geklickt, weil du einfach ans Tippen gewöhnt bist. Klick ihn. Schick eine Spracheingabe. Sei nicht schüchtern.
Das ist die Zukunft der Mensch-Maschine-Schnittstelle — bis die neuronalen Verbindungen kommen, aber das ist ein anderes Gespräch für ein anderes Mal. Bis dahin:
Sprache rein, Text raus. Sprich. Lies.