Handy : L'IA au service de l'inclusion grâce à la transcription vocale en local

Handy : L'IA au service de l'inclusion grâce à la transcription vocale en local

Parmi les nombreuses applications possibles de l'IA en pédagogie, la transcription vocale en texte se révèle particulièrement prometteuse pour lever certains freins à l'apprentissage. Cet article présente Handy, un logiciel open-source qui permet de réaliser de la transcription vocale de façon vertueuse, gratuite, et efficace.

Les défis de l'écriture pour certains élèves

De nombreux élèves rencontrent des difficultés significatives lors du passage à l'écrit, pour des raisons variées :

  • Handicaps temporaires ou permanents : blessures et autres pathologies motrices peuvent rendre l'écriture physique impossible à réaliser.
  • Troubles d'apprentissage : la dysgraphie, la dyslexie et d'autres troubles compliquent fortement l'acte d'écrire et d'exprimer ses idées.

Ces difficultés entravent le développement d'autres compétences et limitent la participation de ces élèves en classe.

Handy : une solution simple et respectueuse de la vie privée

Handy est un logiciel de transcription vocale en texte qui offre une solution efficace à ces difficultés. Développé par une seule personne à l'heure actuelle, il se distingue par sa simplicité et son approche axée sur la confidentialité.

Selon le développeur, Handy est "probablement l'application de reconnaissance vocale la plus simple : sa seule fonction est de transcrire ce que vous dites dans une zone de texte."

Ce logiciel peut être installé très simplement sur des ordinateurs de l'établissement, ou bien sur des ordinateurs personnels d'élèves, utilisés en classe dans le cadre d'un aménagement de la scolarité.

Comment ça marche ?

Handy utilise Whisper.cpp, un système de reconnaissance vocale open-source, pour transcrire la parole en texte. Le processus est le suivant :

  1. Enregistrement : L'utilisateur démarre l'enregistrement.
  2. Transcription : La parole est transcrite en texte.
  3. Copie-coller : Le texte transcrit peut être facilement copié-collé dans n'importe quelle application.

L'un des atouts majeurs de Handy est son fonctionnement entièrement hors ligne. Tous les modèles de langage (LLM) sont téléchargés et exécutés sur la machine de l'utilisateur, garantissant ainsi la confidentialité des données et l'absence d'abonnement ou de dépendance à des services cloud. Le logiciel est compatible avec Windows, macOS et Linux et peut exploiter la puissance du GPU, s'il est présent, pour une performance optimale.

Configuration requise

  • Ordinateur : N'importe quelle configuration fonctionne, le LLM utilisé doit simplement être en cohérence avec le matériel disponible. Certains modèles n'utilisent que le CPU, comme Parakeet (proposé par Nvidia), d'autres utilisent le GPU si la machine en est équipée (Whisper d'OpenAI et ses déclinaisons).
  • Même si l'utilisation d'un GPU est toujours conseillée pour obtenir les meilleurs résultats, le modèle Parakeet se débrouille très bien sur des machines qui en sont dépourvues (comme, généralement, les ordinateurs distribués aux élèves par les collectivités).
  • Microphone : Un microphone de bonne qualité est essentiel pour une transcription précise. La qualité de l'enregistrement est un facteur déterminant.

Tests et performances (les erreurs de transcription sont en gras)

Texte lu à une vitesse normale :

Étienne de la Boétie naît en 1530 à Sarlat, ville prospère et influente. Sa famille, aisée, a connu une ascension sociale qui lui permet d'accéder à la noblesse de robe, c'est-à-dire à une fonction où l'on revêt la robe, la toge. Il appartient donc à une élite, une nouvelle forme de noblesse. Son éducation est assurée par son oncle, car il est orphelin de père. Le jeune homme dispose d'une solide culture littéraire et d'un goût pour les langues et les cultures de l'Antiquité.

Transcription par Parakeet V3 :
Étienne de la Boétie née en 15 trente à Sarlat, ville prospère et influente. (Il manque une phrase entière) It appartient donc à une élite, une nouvelle forme de noblesse. Son éducation est assurée par son oncle, car il est orphelin de pair. Le jeune homme dispose d'une solide culture littéraire et d'un goût pour les langues and the cultures de l'antiquité.

Transcription par Whisper Small :
Etienne de la Boécy née en 1530 à Sarla, ville prospère et influence. Sa famille, A ese, a connu une ascension sociale qui lui permet d'accéder à la noblesse de Robbe, c'est-à-dire à une fonction où l'on revet la Robbe, la toge. Il appartient donc à une élite, une nouvelle forme de noblesse. Son éducation est assurée par son oncle, car il est orphelin de père. Le jeune homme dispose d'une solide culture littéraire et d'un goût pour les langues et les cultures de l'Antiquité.

Transcription par Whisper Large :
Etienne de la Boétie naît en 1530 à Sarla, ville prospère et influente. Sa famille, Hésée, a connu une ascension sociale qui lui permet d'accéder à la noblesse de robe, c'est-à-dire à une fonction où l'on revêt la robe, la toge. Il appartient donc à une élite, une nouvelle forme de noblesse. Son éducation est assurée par son oncle, car il est orphelin de père. Le jeune homme dispose d'une solide culture littéraire et d'un goût pour les langues et les cultures de l'Antiquité.

Texte lu plus lentement et avec plus de soin :

La redécouverte érudite de l'Antiquité grecque et latine dynamise la culture européenne en mettant à l'honneur les humanités, c'est-à-dire l'étude des lettres, de la philosophie et de la rhétorique. Les œuvres de Platon, d'Aristote, de Cicéron, de Quintilien, entre autres, constituent des références pour la pensée, mais aussi pour l'enseignement, notamment dans l'apprentissage de l'art oratoire.

Transcription par Parakeet V3 :
La redécouverte érudite de l'antiquité grecque et latine dynamisent la culture européenne en mettant à l'honneur les humanités, c'est-à-dire l'étude des lettres, de la philosophie et de la rhétorique. Les œuvres de Platon, d'Aristote, de Cicéron, de Quintilien, entre autres, constituent des références pour la pensée, mais aussi pour l'enseignement, notamment dans l'apprentissage de l'art oratoire.

Transcription par Whisper Small :
La couverte érudite de l'antiquité grecque et latine dynamise la culture européenne en mettant à l'honneur les humanités, c'est-à-dire l'étude des lettres de la philosophie et de la rhétorique. Les œuvres de Platon, d'Aristote, de Cicéron, de Quintilien, entre autres, constituent des références pour la pensée, mais aussi pour l'enseignement, notamment dans l'apprentissage de l'art oratoire.

Transcription par Whisper Large :
La redécouverte érudite de l'antiquité grecque et latine dynamise la culture européenne en mettant à l'honneur les humanités, c'est-à-dire l'étude des lettres, de la philosophie et de la rhétorique. Les œuvres de Platon, d'Aristote, de Cicéron, de Quintilien, entre autres, constituent des références pour la pensée, mais aussi pour l'enseignement, notamment dans l'apprentissage de l'art oratoire.

Bilan des tests

Ces tests rapides et forcément incomplets montrent tout de même, sans surprise, que les LLM utilisant le GPU (Whisper) offrent globalement de meilleures performances que Parakeet, qui n'utilise que le CPU, surtout lorsque l'enregistrement n'est pas optimal.
Toutefois, la qualité du microphone, le débit de parole et le soin apporté à la diction constituent des facteurs cruciaux qui permettent d'améliorer considérablement les résultats, quel que soit le LLM utilisé.
Par ailleurs, Parakeet compense son efficacité moindre par une très grande rapidité de traitement, ce qui peut avoir son importance lorsque des machines peu puissantes sont utilisées.

Pour finir

On peut également profiter de l'utilisation de cet outil pour sensibiliser les élèves à la problématique du développement des outils open-source (financement, don et mécénat, alternative aux outils payants dont le code est fermé).