Voix en entrée, texte en sortie

Jan Carlo Mityorn

✦

Voix en entrée, texte en sortie

Comment j'ai arrêté de taper après trente-cinq ans de clavier

Jan Carlo Mityorn·21 avril 2026·8 min de lecture

Le clavier a été si longtemps l'interface dominante pour les gens de la technique qu'il a fini par ne plus sembler être un choix. C'était juste ce qu'étaient les ordinateurs.

La hiérarchie

Il y a toujours eu un fossé. D'un côté : ceux qui dialoguent avec la machine à coups de commandes, de raccourcis et de code. De l'autre : ceux qui n'utilisent que l'interface graphique que les premiers ont construite pour eux. Le clavier était au cœur de tout ça. Savoir taper des instructions directement à la machine, c'était pouvoir lui faire faire plus que quiconque ne le pouvait.

Cette hiérarchie existe toujours. Ce qui a changé, c'est l'interface elle-même.

La reconnaissance vocale a toujours été une blague

Pendant des décennies, la reconnaissance vocale a été la technologie qui était toujours presque à la hauteur. Tu l'essayais, tu faisais la même correction quatre fois, tu abandonnais, tu retournais au clavier. Le taux d'erreur n'était pas seulement agaçant — il était assez élevé pour que tout le concept ressemble à une mauvaise idée déguisée en fonctionnalité.

L'IA a changé la donne. Les modèles modernes de transcription vocale sont entraînés spécifiquement pour ça, et leur précision est dans une tout autre catégorie. Mais ce n'est pas vraiment là l'essentiel.

L'essentiel, c'est ce qui se passe après la transcription. Même une transcription excellente achoppe sur les mots rares — termes spécialisés, noms propres absents du dictionnaire. Mon nom de famille, Mityorn, se retrouve massacré de façon créative. Un D à la place du T. Un J à la place du Y. Parfois quelque chose d'entièrement différent. Parce que ce n'est pas un mot que le modèle a appris à anticiper.

La solution est simple : afficher le texte reconnu avant l'envoi, laisser l'utilisateur corriger les mots un par un, mémoriser les corrections. Plus tu l'utilises, plus il devient performant sur ton vocabulaire particulier — et ton vocabulaire est fini. Les gens avec qui tu travailles, les commandes auxquelles tu reviens sans cesse, les concepts qui définissent ton flux de travail particulier. Le système apprend ton monde. C'est du machine learning au sens le plus littéral du terme, la même chose que faisaient les logiciels vocaux traditionnels il y a des années, mais depuis une base de départ bien meilleure.

Brève histoire de la haine de sa propre voix

Bien avant les téléphones mobiles, il y avait une époque de la vie rythmée par les sonneries. Tu appelais quelqu'un, ça sonnait, et s'il n'était pas là, personne ne répondait. La première solution n'était pas de rendre le téléphone mobile — ça, c'est venu plus tard. La première solution, c'était le répondeur.

Mécaniquement simple : un magnétophone branché sur la ligne téléphonique. Un appel arrive, la machine décroche, diffuse un message d'accueil, enregistre ce qu'on dit. La personne rentre chez elle, voit le voyant clignoter, appuie sur lecture. C'était une véritable avancée — la première fois que la communication entre deux personnes pouvait être fiablement asynchrone. Certains l'ont adopté si complètement qu'ils espéraient activement que personne ne décroche. Laisser le message et passer à autre chose.

Mais beaucoup de gens n'y arrivaient pas du tout. Ils entendaient le bip et raccrochaient.

L'angoisse du répondeur était assez répandue pour être un phénomène culturel reconnu. La cause est simple : la plupart des gens n'ont jamais vraiment entendu leur propre voix jusqu'au moment où ils en entendent un enregistrement. Et quand ça arrive, c'est déstabilisant. Ta voix sonne complètement différemment pour les autres que dans ta propre tête. Tu t'entends l'espace d'un instant et tu penses : c'est vraiment comme ça que je sonne ? Et la réponse est oui, c'est exactement comme ça que tu sonnes, et pour une raison obscure c'est profondément troublant.

J'ai eu cette angoisse pendant des années. Elle n'a jamais vraiment disparu. J'ai fini par me faire au répondeur — mais je me souviens de la première fois que je m'entendais rapper, et de la décision assez immédiate de ne pas poursuivre le rap professionnellement. Probablement la bonne décision. J'écris encore les paroles. Mais la réaction de recul initiale face à ma propre voix enregistrée était plus puissante que l'ambition que j'avais de les partager.

Quand les messages vocaux sont arrivés dans les applis de chat, j'ai été lent à suivre. L'argument de l'efficacité est imparable — parler est plus rapide que taper, et sur un téléphone l'écart est absurde. Et pourtant.

Le schéma est suffisamment constant dans mon rapport à l'enregistrement vocal pour que je puisse le décrire à l'avance : résister, finir par l'essayer, découvrir que c'est utile, me demander pourquoi j'ai attendu si longtemps, me sentir brièvement sage d'avoir compris — puis recommencer tout le cycle à la prochaine itération de la même technologie. Chaque fois, je crois avoir retenu la leçon. Chaque fois, la même résistance se présente sous un nouveau déguisement.

Robert Stack

Ma femme s'endort avec Unsolved Mysteries. Plus précisément sur la narration de Robert Stack, dont elle trouve la voix tellement apaisante qu'elle s'en sert comme aide au sommeil depuis des années. À un moment donné, j'ai eu l'idée de lui fabriquer un petit compagnon de chat IA dans sa voix.

Pour que ça lui ressemble vraiment — je vais rester délibérément vague, parce que si quelqu'un de la succession lit ceci, je tiens à préciser que c'est purement personnel, que ça ne sera jamais publié, et que je n'ai techniquement pas entraîné le modèle sur sa vraie voix. Quoi qu'il en soit, ça sonne assez convaincant pour que ma femme l'accepte sans se poser de questions. Elle est, à tout égard, une connaisseuse.

Le fait est que pour cette application, la sortie vocale était déjà le choix naturel. Du texte aurait complètement manqué l'objectif. Et une fois la sortie en voix, l'entrée devait l'être aussi — c'était une évidence. C'est donc à ce moment-là que j'ai commencé à intégrer vraiment la transcription vocale dans Sentio — câblage, tests sur usage réel. Ça a fonctionné. Ma femme pouvait parler à son Robert Stack personnel (Bob, comme elle l'appelle), qui sait quel temps il fait chez nous et peut tenir une conversation légère. Un compagnon de chat suffisamment bon, conscient du contexte, pour s'endormir dessus.

Et Sentio disposait désormais d'une couche d'entrée vocale. Ce qui voulait dire que moi aussi.

La quête

J'ai pris la décision délibérée de me forcer à sortir de mes vieilles habitudes. Juste essayer le prompting vocal comme mode principal. M'y tenir assez longtemps pour l'évaluer vraiment.

Les premières tentatives étaient maladroites. Attendu. Ce qui l'était moins, c'est la rapidité avec laquelle la maladresse a cédé la place à quelque chose de franchement meilleur. Deux choses ont accéléré le mouvement.

D'abord, les transcriptions des modèles de reconnaissance vocale open source sont excellentes. Pas parfaites — le problème des mots rares est réel — mais assez bonnes pour que le résultat soit exploitable sans retouches lourdes.

Ensuite, et c'est plus important : les grands modèles de langage sont remarquablement doués pour extraire l'intention d'une transcription décousue. Tu peux dire quelque chose de faux au milieu d'une phrase, te reprendre immédiatement — non attends, je voulais dire autre chose — tout est transcrit, correction comprise, et l'agent s'en sort très bien. Il lit tout le fatras et comprend ce que tu essayais vraiment de dire. Ce n'est pas rien. Ça veut dire que la barre pour l'entrée vocale n'est pas « produire un message propre ». C'est juste « dire à peu près ce qu'on veut dire ». Ce qui est une barre très facile à franchir.

Quelques semaines plus tard : je ne tape plus.

Les seules touches que mon clavier reçoit désormais sont celles que j'ai configurées comme déclencheurs — démarrer l'enregistrement, pause, envoyer. Je m'attends maintenant vraiment à ce que ces touches-là s'usent pendant que le reste reste impeccable. Quelque chose que je n'aurais jamais prédit après plus de trente-cinq ans de frappe frénétique.

Ce qui se tape encore

Le clavier n'a pas complètement disparu. Tout ne passe pas encore par mon système vocal, il y a donc toujours des outils qui nécessitent de taper. Et il y a une couche d'administration système où le clavier reste non-négociable — quand un serveur tombe et que j'ai besoin d'un terminal direct, je tape. Quand Sentio lui-même est en panne, je tape les commandes Linux directement.

Mais la trajectoire est claire. De plus en plus du flux de travail passe par la voix. Mon estimation pour le futur proche : la plupart de mes interactions avec les ordinateurs seront vocales.

La prochaine version de la messagerie vocale

Les systèmes de chat proposeront bientôt un nouveau type de message vocal : tu l'enregistres, l'autre personne ne l'entend jamais mais reçoit à la place une transcription propre et traitée. Ça supprime la friction psychologique d'avoir sa vraie voix entendue par les autres et augmente considérablement la vitesse à laquelle l'information circule entre les gens.

La preuve que ça arrive est déjà partout : les contrôles de vitesse de lecture. Toutes les grandes applis de chat ont les options 1,5× et 2×. Personne ne parle de cette fonctionnalité. Tout le monde l'utilise. On l'utilise parce que les messages vocaux semblent lents, parce qu'on se retrouve à attendre que la personne en vienne au fait. Si tu peux simplement lire une transcription propre à la place — c'est évidemment mieux. C'est une évidence et ça arrive.

À mes camarades du clavier

Je m'adresse ici aux développeurs, aux écrivains, aux chercheurs — à quiconque a passé des années au clavier et le considère comme le mode naturel de dialoguer avec les machines.

Pour moi, intégrer le prompting vocal dans le flux de travail, c'était presque comme décrocher d'une addiction. Le clavier n'était pas juste un outil ; c'était *l'*outil, celui dont je m'étais servi toute ma vie professionnelle d'adulte. Passer au-delà a demandé une décision consciente, puis une période de pratique délibérée, et puis un jour l'habitude avait simplement basculé. Ce n'est pas une transformation instantanée. C'est un processus. Mais une fois que tu l'as commencé, tu ne reviendras pas en arrière. Et comme pour une addiction, une fois que tu l'as vraiment brisée, tu ressens quelque chose comme un soulagement glorieux.

La plupart des outils ont déjà un bouton d'enregistrement quelque part. Tu ne l'as peut-être jamais cliqué parce que tu es juste habitué à taper. Clique dessus. Envoie un prompt vocal. N'hésite pas.

C'est l'avenir de l'interfaçage humain-machine — jusqu'à ce que les connexions neurales arrivent, ce qui est une autre conversation pour une autre fois. D'ici là :

Voix en entrée, texte en sortie. Parle. Lis.