Voz dentro, texto fuera
Cómo dejé de teclear tras treinta y cinco años ante el teclado
El teclado lleva tanto tiempo siendo la interfaz dominante para la gente técnica que dejó de parecer una elección. Era, simplemente, lo que eran los ordenadores.
La jerarquía
Siempre ha habido una división. De un lado: la gente que se comunica con las máquinas a través de comandos, atajos y código. Del otro: la gente que solo usa la interfaz gráfica que esos otros construyeron. El teclado estaba en el centro de todo. Si sabías teclear instrucciones directamente a la máquina, podías hacerle hacer más cosas que cualquiera que no supiera.
Esa jerarquía sigue existiendo. Lo que ha cambiado es la propia interfaz.
El reconocimiento de voz siempre fue una broma
Durante décadas, el reconocimiento de voz fue la tecnología que siempre estuvo casi a la altura. La probabas, hacías la misma corrección cuatro veces, lo dejabas, volvías al teclado. La tasa de errores no era solo molesta — era lo suficientemente alta como para que toda la premisa pareciera una mala idea disfrazada de funcionalidad.
La IA lo arregló. Los modelos modernos de habla a texto están entrenados específicamente para transcripción y la precisión está en una categoría completamente distinta. Pero eso no es, en realidad, lo importante.
Lo importante es lo que ocurre después de la transcripción. Incluso una transcripción excelente falla con palabras poco comunes — términos especializados, nombres que no están en el diccionario. Mi apellido, Mityorn, aparece mangleado de formas de lo más creativas. Una D en lugar de la T. Una J en lugar de la Y. A veces algo completamente diferente. Porque no es una palabra que el modelo haya aprendido a esperar.
La solución es sencilla: mostrar el texto reconocido antes de enviarlo, dejar al usuario corregir palabras concretas, recordar las correcciones. Cuanto más lo usas, mejor se adapta a tu vocabulario específico — y tu vocabulario es finito. Las personas con las que trabajas, los comandos a los que vuelves, los conceptos que definen tu flujo de trabajo particular. El sistema aprende tu mundo. Esto es aprendizaje automático en el sentido más literal, lo mismo que hacía el software de voz tradicional años atrás, pero partiendo de una base mucho mejor.
Breve historia del odio a tu propia voz
Mucho antes de los móviles, hubo un período de la vida construido en torno al tono del teléfono. Llamabas a alguien, sonaba, y si no estaban en casa, nadie cogía. La primera solución no fue desligar el teléfono de su cable — eso llegó después. La primera solución fue el contestador automático.
Mecánicamente sencillo: una grabadora de cinta conectada a la línea telefónica. Llega una llamada, la máquina la coge, reproduce un saludo, graba lo que dices. La persona llega a casa, ve la luz parpadeante, le da al play. Era un verdadero avance — la primera vez que la comunicación entre dos personas podía ser fiablemente asíncrona. Algunos lo adoptaron con tal entusiasmo que llegaban a esperar activamente que nadie contestara. Dejas el mensaje y ya.
Pero mucha gente no podía con ello. Oían el pitido y colgaban.
La ansiedad ante el contestador fue lo bastante extendida como para convertirse en un fenómeno cultural reconocido. La causa es simple: la mayoría de la gente nunca ha oído realmente su propia voz hasta que escucha una grabación de ella. Y cuando lo hace, es desconcertante. Tu voz suena completamente diferente para los demás de como suena dentro de tu propia cabeza. Te escuchas un momento y piensas: ¿de verdad así es como sueno? Y la respuesta es sí, así es exactamente como suenas, y por alguna razón esto resulta profundamente inquietante.
Yo tuve esa ansiedad durante años. Nunca desapareció del todo. Con los contestadores llegué a funcionar — pero recuerdo la primera vez que me escuché haciendo rap, y la decisión bastante inmediata de no dedicarme profesionalmente a ello. Probablemente fue lo más acertado. Las letras las sigo escribiendo. Pero el rechazo inicial ante mi propia voz grabada fue más poderoso que cualquier ambición que tuviera de compartirlas.
Cuando los mensajes de voz llegaron a las aplicaciones de mensajería, fui lento en adoptarlos. El argumento de la eficiencia es irrebatible — hablar es más rápido que teclear, y en el móvil la diferencia es absurda. Y aun así.
El patrón es lo bastante consistente a lo largo de mi vida con las grabaciones de voz como para poder describirlo de antemano: resistirse, acabar probándolo, descubrir que es útil, preguntarse por qué se esperó tanto, sentirse brevemente sabio por haberlo descubierto — y luego repetir el ciclo entero con la siguiente iteración de la misma tecnología. Cada vez creo que he aprendido la lección. Cada vez la misma resistencia aparece con ropa nueva.
Robert Stack
Mi mujer se duerme con Misterios sin resolver. Concretamente con la narración de Robert Stack, cuya voz encuentra tan relajante que lleva años usándola como ayuda para dormir. En algún momento se me ocurrió hacerle un pequeño compañero de chat con esa voz.
Para conseguir que sonara realmente como él — me quedaré deliberadamente vago, porque si alguien del patrimonio está leyendo esto, me gustaría señalar que es exclusivamente para uso personal, nunca se publicará, y técnicamente no entrené con su voz real. En cualquier caso, suena lo suficientemente convincente como para que mi mujer lo acepte sin cuestionarlo. Ella es, por cualquier criterio razonable, una entendida.
La cuestión es que para esta aplicación, la salida de voz ya era la elección natural. El texto habría anulado por completo el propósito. Y una vez que la salida era voz, la entrada obviamente también debía serlo. Así que fue entonces cuando empecé a integrar el habla a texto en Sentio de verdad — conectándolo, probándolo con uso real. Funcionó. Mi mujer podía hablarle a su propio Robert Stack personal (o Bob, como ella lo llama), que sabe qué tiempo hace donde vivimos y puede mantener una conversación ligera. Un compañero de chat contextual suficientemente bueno para quedarse dormida.
Y entonces Sentio tenía una capa de entrada de voz. Lo que significaba que yo también.
La prueba
Tomé una decisión deliberada de obligarme a salir de los viejos hábitos. Simplemente intentar los prompts de voz como modo principal. Comprometerme con ello el tiempo suficiente para evaluarlo de verdad.
Los primeros intentos fueron torpes. Era de esperar. Lo que era menos de esperar fue la rapidez con que esa torpeza dejó paso a algo genuinamente mejor. Dos cosas impulsaron el cambio.
Primero, las transcripciones de los modelos abiertos de habla a texto son excelentes. No perfectas — el problema de las palabras poco comunes es real — pero lo bastante buenas como para que el resultado sea utilizable sin necesidad de mucha edición.
Segundo, y más importante: los grandes modelos de lenguaje son notablemente buenos extrayendo la intención de una transcripción enrevesada. Puedes decir algo mal a mitad de frase, corregirte inmediatamente — no, espera, quería decir otra cosa — y todo eso se transcribe incluida la corrección, y el agente simplemente lo trabaja. Lee el lío completo y entiende lo que realmente querías decir. Esto no es poca cosa. Significa que el listón para la entrada de voz no es «produce un mensaje limpio». Es simplemente «di más o menos lo que quieres decir». Un listón muy fácil de superar.
Unas semanas después: ya no tecleo.
Las únicas pulsaciones que recibe mi teclado ahora son las que he configurado como disparadores — empezar a grabar, pausar, enviar. Ya espero de verdad que esas teclas específicas se gasten mientras el resto queda prístino. Algo que jamás habría predicho en más de treinta y cinco años de tecleo frenético.
Lo que sigo tecleando
El teclado no ha desaparecido del todo. No todo pasa aún por mi sistema de voz, así que hay herramientas que todavía requieren teclear. Y hay una capa de administración de sistemas donde el teclado sigue siendo innegociable — cuando un servidor se cae y necesito un terminal directo, tecleo. Cuando el propio Sentio está caído, tecleo los comandos de Linux directamente.
Pero la trayectoria está clara. Cada vez más del flujo de trabajo pasa por la voz. Mi estimación para el futuro próximo: la mayor parte de mis interacciones con ordenadores serán por voz.
La próxima versión de los mensajes de voz
Las aplicaciones de chat ofrecerán pronto un nuevo tipo de mensaje de voz: lo grabas, la otra persona nunca lo escucha sino que recibe una transcripción limpia y procesada. Esto elimina la fricción psicológica de que tu voz real sea escuchada por otros y aumenta drásticamente la velocidad a la que la información se mueve entre personas.
La evidencia de que esto se acerca ya está en todas partes: los controles de velocidad de reproducción. Todas las aplicaciones de mensajería importantes tienen opciones de 1,5× y 2×. Nadie habla de esta función. Todo el mundo la usa. La usamos porque los mensajes de voz se hacen lentos, porque nos encontramos esperando a que la persona llegue al grano. Si en cambio puedes simplemente leer una transcripción limpia — es obviamente mejor. Es de cajón, y está llegando.
A mis compañeros de teclado
Esto es yo hablándole a otros programadores, escritores, investigadores — a cualquiera que haya pasado años ante un teclado y lo considere el modo natural de hablar con las máquinas.
Para mí, incorporar los prompts de voz al flujo de trabajo fue casi como romper una adicción. El teclado no era solo una herramienta; era la herramienta, la que había usado durante toda mi vida laboral adulta. Superarlo requirió una decisión consciente, y luego un período de práctica deliberada, y luego un día el hábito simplemente había cambiado. No es una transformación instantánea. Es un proceso. Pero una vez que lo empiezas, no hay vuelta atrás. Y al igual que con una adicción, una vez que la rompes de verdad, sientes una sensación de glorioso alivio.
La mayoría de las herramientas ya tienen en algún lugar un botón de grabar. Puede que nunca lo hayas pulsado porque simplemente estás acostumbrado a teclear. Púlsalo. Envía un prompt de voz. No te cortes.
Este es el futuro de la interfaz entre humanos y máquinas — hasta que lleguen las conexiones neuronales, que es una conversación diferente para otro momento. Hasta entonces:
Voz dentro, texto fuera. Habla. Lee.