Retrouver le flux de l’écriture avec la dictée vocale

Une rupture dans le geste d’écrire

Il y a quelques années encore, écrire était pour moi un geste rapide. Je ne veux pas dire par là que l’écriture était simple, ni que les idées arrivaient toujours dans l’ordre, sans hésitation ni reprise. Mais il existait une continuité très concrète entre ce que je pensais et ce qui apparaissait à l’écran. Quand j’ai écrit ma thèse sur un ordinateur portable, mon tonus musculaire, ma dextérité et ma vitesse de frappe me permettaient encore de travailler dans cette forme de proximité avec mon texte. Mes mains suivaient à peu près mon esprit. Je pouvais avancer, corriger, déplacer une phrase, revenir sur un mot, presque sans que la technique ne se rappelle à moi.

Avant cela, l’écriture manuscrite avait joué ce rôle. Puis le clavier l’avait remplacée, avec ses propres contraintes, mais aussi avec une efficacité remarquable. Il suffisait parfois d’un correcteur orthographique assez simple pour réparer les fautes laissées en chemin (sauf pour le sommaire de ladite thèse, mais c’est une autre histoire). L’essentiel du travail restait le mien : composer, préciser, reprendre, déplacer. Les erreurs venaient de moi, ou de la vitesse avec laquelle j’avais écrit.

Depuis que mes mains ne suivent plus, cette fluidité s’est rompue. La reconnaissance vocale m’a rendu une possibilité d’écrire, et c’est déjà immense. Mais elle ne m’a pas encore rendu le même rapport à l’écriture. Dicter n’est pas seulement remplacer les doigts par la voix. C’est introduire entre la pensée et le texte une série d’intermédiaires : un micro, un modèle de transcription, un système de ponctuation, parfois un correcteur automatique, puis un modèle de langage.

Ce déplacement change tout. Quand j’écrivais au clavier, je pouvais produire une phrase imparfaite, mais je savais ce que j’avais écrit. Aujourd’hui, il m’arrive de voir apparaître une phrase qui ressemble à ce que j’ai dit, mais qui n’est pas exactement ce que j’ai voulu dire. Un mot a été remplacé par un autre. Une phrase a été coupée au mauvais endroit. Une pause respiratoire a été interprétée comme une fin de phrase. Parfois, le texte est grammaticalement plausible, mais intellectuellement faux. Il faut alors relire avec méfiance un texte qui, à première vue, semble correct.

Les modèles de transcription en temps réel aggravent encore cette difficulté. Ils sont indispensables si l’on veut voir le texte apparaître rapidement, mais ils sont par définition moins favorisés que les modèles qui transcrivent un enregistrement complet. Lorsqu’un modèle peut traiter un segment plus long, revenir sur le contexte, reconnaître la cohérence d’une phrase ou d’un paragraphe, il dispose de meilleurs appuis. Le temps réel, lui, travaille sous contrainte. Il doit produire vite, parfois avant que la phrase ait livré sa logique complète.

J’ai donc ajouté une étape de correction après transcription. Des prompts spécialisés demandent à un modèle de langage de réparer les erreurs les plus fréquentes : fautes d’accord, confusions phonétiques, ponctuation, mauvaises segmentations, faux départs. Cette étape est devenue presque indispensable. Sans elle, je perds trop de temps à nettoyer la sortie brute. (Pour une présentation plus technique de cette chaîne transcription-correction, voir l’article consacré à mon prompt de correction de transcription vocale ainsi que celui sur son architecture dynamique et externalisée.)

Mais cette correction a un coût qui n’est pas seulement financier. Elle a un coût temporel, et surtout cognitif. Lorsque je dicte une idée, que j’interromps l’enregistrement, puis que j’attends plusieurs secondes la transcription et la correction, mon flux de pensée se trouve suspendu. Je sais déjà ce que je voudrais écrire ensuite, mais le dispositif technique me retient. Les idées continuent à se former, parfois très vite, tandis que l’outil me demande d’attendre. Ce délai, même court, suffit à produire une forme de frustration très spécifique : celle d’une pensée disponible, mais empêchée d’atterrir.

Une continuité bricolée, mais insuffisante

J’ai tenté de contourner cette latence en utilisant plusieurs logiciels de transcription en alternance. Pendant que le premier traitait un segment, je pouvais continuer à dicter dans un second. Puis, quand le premier texte apparaissait, je revenais à lui. Sur le papier, cette solution permettait de récupérer une sorte de continuité. En pratique, elle créait d’autres problèmes. Les logiciels n’ont pas tous les mêmes temps de traitement, ni les mêmes comportements de segmentation. Si le deuxième enregistrement était plus court que le premier, je me retrouvais parfois à attendre malgré tout. Et je devais piloter plusieurs outils au lieu de me concentrer sur l’écriture elle-même.

Distinguer les temps de la correction

Ce que je cherche aujourd’hui est plus simple : réduire au maximum le délai entre la dictée et l’apparition d’un texte suffisamment propre pour que je puisse continuer. Il ne s’agit pas d’obtenir immédiatement une version parfaite. Il s’agit de ne pas casser l’élan. Le texte doit être lisible, fidèle, assez corrigé pour que je puisse lui faire confiance quelques secondes plus tard, mais il n’a pas besoin d’être définitivement publiable dès cette première passe.

C’est dans cette perspective que j’ai commencé à m’intéresser à Mercury 2, le modèle développé par Inception, également disponible via OpenRouter. Ce qui m’intéresse ici n’est pas seulement sa qualité, mais son rapport entre qualité, vitesse et coût. Pour un usage de correction légère sur des textes déjà transcrits, la vitesse compte énormément. Une correction qui arrive presque immédiatement ne joue pas le même rôle qu’une correction qui impose une pause de dix ou quinze secondes. Dans le premier cas, elle accompagne l’écriture. Dans le second, elle devient un obstacle supplémentaire.

L’hypothèse de travail est donc la suivante : utiliser un modèle très rapide pour corriger des segments courts dictés successivement, afin de préserver autant que possible le mouvement naturel de l’écriture. Je pourrais dicter une phrase, un paragraphe, une idée, puis obtenir rapidement une version corrigée qui respecte strictement ce que j’ai voulu dire. Cette correction immédiate n’aurait pas vocation à embellir le texte. Elle devrait seulement enlever les erreurs introduites par la transcription et réparer les accidents les plus évidents de la dictée.

Dans un second temps, lorsque le texte serait déjà composé, un modèle plus exigeant pourrait intervenir pour une relecture globale. Cette étape aurait une fonction différente. Elle ne servirait plus à préserver le flux en temps réel, mais à homogénéiser légèrement le texte après coup : vérifier les répétitions, améliorer la ponctuation, repérer quelques lourdeurs, lisser certaines transitions sans toucher à la voix du texte. Là, la latence serait moins grave. Attendre quelques dizaines de secondes pour relire un texte déjà écrit n’a rien à voir avec attendre au milieu d’une phrase que l’outil me rende la main.

Cette distinction entre plusieurs temporalités me semble essentielle. Le temps de l’écriture n’est pas le temps de la révision. Dans le premier, l’outil doit être presque transparent. Dans le second, il peut devenir plus attentif, plus lent, plus méticuleux. Confondre ces moments conduit à demander au même prompt et au même modèle plusieurs choses contradictoires : aller très vite et relire très finement, ne rien modifier et améliorer le texte, respecter l’oralité et produire une prose déjà stabilisée.

Faire correspondre les formes d’écriture aux architectures techniques

Les essais récents me conduisent donc à distinguer plusieurs régimes d’écriture, plutôt qu’un seul flux universel. Pour les messages familiers, les notes personnelles ou les contenus à faible enjeu, une correction très rapide avec Mercury 2 peut suffire. Elle laisse passer quelques imperfections, mais le gain de vitesse est décisif. L’objectif n’est pas de produire un texte impeccable, mais d’envoyer ou de conserver une idée sans interrompre le mouvement.

Entre cette écriture rapide et l’écriture très soignée, un niveau intermédiaire peut avoir du sens. Un modèle comme Grok 4.2 semble capable d’apporter une correction un peu plus robuste que Mercury 2, tout en restant plus rapide et moins coûteux qu’un modèle très exigeant. Ce niveau pourrait servir pour des messages quotidiens qui méritent davantage de propreté sans justifier une relecture lente : échanges professionnels simples, notes partagées, brouillons courts.

Lorsque le texte engage davantage ma parole — un mail officiel, un message important, un passage que je veux pouvoir relire et envoyer sans risque — GPT 5.4 devient plus pertinent. La latence est plus sensible, mais elle se justifie par la qualité de la correction. Le modèle comprend mieux les phrases longues, restaure plus finement les confusions de transcription et produit un texte plus immédiatement exploitable.

Enfin, pour les textes longs que je dicte vite afin de sortir les idées de ma tête, une architecture en deux temps paraît plus adaptée : une première correction rapide, puis une relecture légère avec GPT 5.4. Dans ce cas, je peux accepter un petit travail éditorial a posteriori : rattacher des fragments isolés, reconstruire des paragraphes selon leur logique argumentative, corriger des formulations détruites par la dictée. Ce n’est plus seulement une opération de nettoyage ; c’est une manière de rendre à nouveau lisible une pensée dictée dans des conditions imparfaites.

Cette typologie me semble importante parce qu’elle déplace la question. Il ne s’agit plus de trouver le modèle unique qui ferait tout, mais de choisir l’architecture de correction en fonction du type d’écriture. À faible enjeu, la vitesse prime. Pour les textes importants, c’est la fiabilité qui importe. Pour les textes longs et exploratoires, c’est la capacité à préserver l’élan tout en reconstruisant ensuite la lisibilité qui devient centrale.

C’est un point auquel je tiens beaucoup. Je ne cherche pas à déléguer mon écriture à un modèle de langage. Je ne veux pas qu’un outil transforme mes textes en une prose standardisée, polie, efficace, mais étrangère à ma manière de penser. La promesse de ces systèmes n’a d’intérêt pour moi que s’ils m’aident à redevenir l’auteur de mes phrases, non s’ils s’interposent entre moi et elles. L’enjeu n’est pas de produire un texte plus brillant que le mien. L’enjeu est de retrouver une continuité d’écriture malgré la perte de mes moyens physiques.

Il y a là, me semble-t-il, une question plus large pour les technologies d’assistance. Un bon outil n’est pas seulement un outil puissant. C’est un outil qui respecte le rythme de la personne qui l’utilise. Dans le cas de l’écriture assistée par la voix, la précision compte, bien sûr. Mais la temporalité compte tout autant. Un système peut être objectivement très performant et subjectivement inutilisable s’il impose trop d’attente, trop de vérifications, trop de ruptures dans l’action.

La fluidité n’est donc pas un luxe. Pour moi, elle conditionne la possibilité même d’écrire. Elle détermine la différence entre noter une idée au moment où elle se forme et la regarder se dissiper pendant que la machine termine son traitement. Elle détermine aussi le rapport à l’outil : un dispositif qui accompagne donne de l’élan ; un dispositif qui retarde finit par décourager.

Je vais donc continuer à éprouver cette piste : dictée par segments courts, correction rapide avec Mercury 2, puis relecture plus globale dans un second temps. Peut-être faudra-t-il ajuster les prompts, distinguer plusieurs niveaux de correction, mesurer les coûts, comparer les modèles, observer les erreurs restantes. Mais l’objectif restera le même : faire de la dictée vocale non pas un pis-aller, mais une forme d’écriture suffisamment rapide, naturelle et fiable pour que je puisse à nouveau penser en écrivant.

Ce que je cherche à retrouver n’est pas exactement l’écriture manuscrite, ni même le clavier de mes années de thèse. Ces gestes appartiennent à un autre état de mon corps. Ce que je cherche, c’est une équivalence fonctionnelle et intime : suivre mes idées sans que la technique ne les fragmente. Si la reconnaissance vocale et les modèles de langage peuvent servir à cela, alors ils ne seront pas seulement des outils de compensation. Ils deviendront des instruments de continuité.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *