Fermez les yeux. Mentalement, imaginez tracer une lettre avec un stylo. Miracle, elle apparaît sur l’écran. Science-fiction ? Non, la conversion de l’activité cérébrale en lettres affichées vient d’être réalisée par des interfaces cerveau-machine. Et testée avec succès sur un patient tétraplégique.
Les occasions d’écrire à l’aide d’un simple stylo sont de plus en plus rares, tant les ordinateurs, téléphones et tablettes sont devenus nos premiers supports d’écriture. En Finlande, en 2016, la décision a même été prise de définitivement délaisser les cahiers pour les claviers, ou du moins de ne plus enseigner l’écriture cursive à l’école. Qu’en conclure, si ce n’est qu’écrire à la main semble désormais relever d’une pratique du passé ?
L’étude publiée dans la revue Nature en mai dernier par Francis Willett, de l’université Stanford, en Californie, et ses collègues n’en est que plus intrigante. Ces chercheurs s’enorgueillissent en effet d’avoir pu « lire dans le cerveau » les gestes qu’une personne réalise pour écrire à la main. Autrement dit, ils ont été capables de traduire l’activité des neurones (pas n’importe lesquels, ceux logés dans la partie du cortex qui commande les mouvements fins de notre main dominante) en écriture manuscrite. Le but : permettre à des personnes entièrement paralysées d’écrire en s’imaginant tracer les lettres à la main. Ce qui suppose, évidemment, qu’elles aient appris à écrire à la main avant leur accident ou la maladie qui les a invalidées !
La clé de cette réussite ? Des progrès notables dans deux nouvelles technologies en plein essor : les interfaces cerveau-machine (ICM) et l’intelligence artificielle (IA).
Des interfaces cerveau-machine à l’œuvre
Pour bien comprendre l’avancée majeure que constituent ces travaux, il faut revenir sur ce qu’est une ICM. En 1973, un rapport dactylographié de l’ingénieur américain d’origine belge Jacques Vidal mentionnait pour la première fois le terme d’« ICM » et décrivait un programme de recherche que poursuivent aujourd’hui de nombreuses équipes dans le monde, au sein d’universités, mais aussi d’entreprises privées.
Ce programme vise à établir une communication directe entre nos neurones et des ordinateurs. Autrement dit, à permettre un échange d’informations entre notre cerveau et le monde extérieur, sans avoir recours à nos sens ou à nos moyens d’action (membres et muscles). On imagine sans peine les applications de tels dispositifs, notamment dans le domaine médical, pour redonner, par exemple à des patients souffrant d’un handicap moteur sévère, la capacité de se mouvoir, d’agir sur le monde et de communiquer.
Une ICM se compose de deux éléments principaux : des capteurs qui enregistrent l’activité du cerveau, et un ordinateur qui décode cette activité et commande un appareil qui va la convertir en mouvements ou en messages permettant de communiquer avec l’entourage du patient. Les capteurs sont principalement de deux types : d’une part les capteurs non invasifs, tels que ceux d’électroencéphalographie (EEG), qui mesurent à la surface du crâne les différences de potentiels électriques engendrées par l’activité de larges populations de neurones ; d’autre part les capteurs invasifs, qui nécessitent une intervention chirurgicale pour implanter par exemple des microélectrodes mesurant chacune l’activité d’un ou quelques neurones. L’usage de ces derniers est naturellement restreint à certains patients, susceptibles de bénéficier de ces neurotechnologies et ayant donné leur consentement.
À l’inverse des études réalisées en EEG, celles qui utilisent des microélectrodes implantées sont nettement plus rares et se concentrent sur le cas d’un ou deux patients tout au plus. Elles laissent toutefois le patient libre de bouger les yeux et permettent une communication plus naturelle, entièrement guidée par le rythme de l’utilisateur. Les signaux enregistrés proviennent de quelques neurones ciblés précisément pour leur implication dans la planification et l’exécution de mouvements. L’enjeu est d’y décoder un ordre moteur, associé à la tentative d’exécution d’un mouvement que le patient n’est plus capable de réaliser.
Très peu de patients – ils sont surtout aux États-Unis – ont ainsi réussi à contrôler un bras robotisé pour se saisir d’un objet et le manipuler. Le niveau de réussite des ICM est encore plus faible pour les tentatives de communiquer avec l’entourage. À ce jour, aucune interface n’a pu directement décoder le contenu du langage en temps réel. En revanche, une équipe de l’université Stanford, dont Francis Willett faisait aussi partie, a mis au point en 2016 une interface permettant au patient paralysé de pointer successivement les lettres de son choix sur un écran pour former des mots. Il parvenait ainsi à écrire une quarantaine de caractères par minute.
Les chercheurs ont fait cette fois le pari de décoder des mouvements nettement plus complexes pour atteindre des performances comparables à celles enregistrées de façon courante chez des personnes d’environ 65 ans (l’âge du patient ayant reçu l’implant) lorsqu’elles utilisent leur smartphone au quotidien (environ 115 caractères par minute). Et pour cela, paradoxalement, l’équipe a délaissé la stratégie consistant à décoder le geste de pointer vers une position sur l’écran, pour tenter de décoder le geste beaucoup plus complexe de l’écriture manuscrite.
Décoder l’activité cérébrale correspondant à l’écriture manuscrite
Le but des chercheurs a été de restituer une communication écrite en temps réel chez ce patient, en décodant l’activité d’environ 200 neurones corticaux spécialisés dans le contrôle de la main… Pour ce faire, ils ont procédé par étapes.
Premièrement, au moyen de microélectrodes implantées, ils ont enregistré de manière continue la dynamique des décharges et des silences de chaque neurone pendant que le sujet s’efforçait d’écrire à la main, lettre par lettre, des mots qu’on lui dictait. Il s’agissait toutefois d’une tâche purement mentale, car, paralysé jusqu’au niveau de la nuque, le patient n’était capable que de micromouvements de la main.
Le système d’aide à l’écriture se compose d’une grille de microélectrodes implantées dans l’aire du cerveau qui contrôle les mouvements de la main, et d’un algorithme qui convertit l’activité électrique des neurones en tracés de lettres sur l’écran.
Les chercheurs lui ont demandé de tenter d’écrire plusieurs fois un même caractère, et ont recueilli les données neuronales issues de chaque réalisation de chaque caractère. Ensuite, afin d’obtenir une « signature » neuronale pour chaque caractère, les scientifiques ont dû tenir compte du fait que la vitesse d’exécution mentale de chaque lettre pouvait être plus ou moins rapide d’une tentative à l’autre, de sorte que les décharges électriques des neurones pouvaient être plus ou moins espacées dans le temps. Il a ainsi fallu les « recaler » temporellement pour révéler le tracé électrique typique de chaque caractère.
Chacune de ces lettres a été tracée par l’ordinateur à partir des données captées dans le cerveau du patient en train de s’imaginer les écrire à la main.
La force de cette analyse fondée sur des tracés manuscrits repose sur un fait caractéristique de l’écriture à la main : le stylo suit des courbes, accélère, ralentit, fait demi-tour, revient sur lui-même. Il faut donc s’attendre à ce que le cerveau encode ces paramètres relatifs aux déplacements du stylo imaginaire du patient. C’est effectivement ce qui se produit : l’activité électrique des neurones au cours du temps permet de prédire la trajectoire du stylo imaginaire. Et ça marche : le taux de reconnaissance des lettres atteint 94 % de réussite…
Décoder des phrases en temps réel
Toutefois, une chose est de décoder l’écriture d’une lettre « hors ligne » (c’est-à-dire à tête reposée, en prenant le temps, et non en temps réel pendant que le patient écrit ses lettres mentalement), à partir de nombreuses données moyennées ; une autre est de réaliser ce décodage en temps réel, à partir des données d’une seule réalisation ! Pour ce faire, les chercheurs ont entraîné un réseau de neurones artificiels dit « récurrent ». Ces réseaux sont typiquement utilisés pour traiter des flux de données présentant une grande structure temporelle, c’est-à-dire des corrélations fortes entre ce qui se passe à un instant donné et ce qui est observé à un instant ultérieur.
La plupart des données comportementales ont une forte structure temporelle : lorsque vous observez la vidéo d’une personne en train d’allumer une cigarette, votre cerveau prédit automatiquement, en observant un geste à l’instant t, quel sera (ou pourra être, du moins) le geste à l’instant t + 1 seconde, etc. Le langage est aussi un exemple de flux de données à haute structure temporelle, et les chercheurs se sont d’ailleurs directement inspirés des intelligences artificielles dédiées à la reconnaissance de la parole, qui affichent des taux d’erreur de l’ordre de 5 %.
Toutefois, ces algorithmes d’apprentissage profond ne pouvaient pas être appliqués tels quels, pour deux raisons. La première est qu’ils sont généralement entraînés sur un très grand nombre de données, une condition souvent nécessaire pour atteindre de très bonnes performances. Or les données neuronales ne peuvent pas être acquises dans les mêmes proportions que des échantillons de paroles, loin de là. La deuxième raison est liée au fait que dans le cas d’une écriture où le patient est laissé relativement libre, il est impossible de savoir quand débute et quand s’achève l’écriture d’une lettre donnée.
Rarement patient a aussi bien porté ce qualificatif ! Celui-ci s’est prêté à 3 jours d’enregistrements de données d’entraînement pour l’algorithme, avant d’entamer, sur 5 jours consécutifs, les séances de test du système en temps réel. Et chaque séance débutait par l’acquisition de données complémentaires afin d’entraîner l’algorithme de manière plus spécifique à la séance du jour. Cela a constitué une base de données de plus de sept heures et demie d’enregistrements, soit 572 phrases de plus de 30 000 caractères au total.
En temps réel, l’algorithme évalue à chaque instant la probabilité, pour chaque symbole de l’alphabet, d’être le caractère écrit. Lorsque l’une des probabilités franchit un seuil significatif, ce symbole est choisi et produit à l’écran.
Jusqu’à 90 caractères par minute
La vidéo a été mise en ligne par les chercheurs sur le site de Nature. Elle montre le même patient à cinq ans d’intervalle. Sur la partie basse de l’écran, il utilise l’interface en temps réel pour déplacer un curseur à l’écran et appuyer sur les touches d’un clavier virtuel. Sur la partie haute, il utilise la nouvelle interface pour écrire la même phrase qui s’affiche petit à petit, suite au décodage en temps réel de son écriture manuscrite. La deuxième approche est nettement plus rapide. En moyenne, le patient atteint une vitesse pouvant aller jusqu’à 90 caractères par minute.
De surcroît, les chercheurs ont réalisé une série d’expériences et analyses complémentaires qui suggèrent que le décodage de l’écriture manuscrite, pourtant au premier abord plus difficile, se révèle plus efficace, justement parce que les mouvements associés sont plus complexes et que leurs signatures neuronales sont ainsi plus spécifiques et mieux différentiables les unes des autres, notamment dans leur dynamique. En effet, les mouvements que fait votre main quand vous dessinez un d ou un f sont bien plus distincts que ceux que vous réalisez pour appuyer sur la touche d ou f de votre clavier d’ordinateur…
Contre toute attente, c’est le décodage de l’écriture manuscrite – et non sur clavier – qui permet d’atteindre les meilleures performances de communication par interface cerveau-machine.
Ainsi, contre toute attente, c’est le décodage de l’écriture manuscrite qui permet d’atteindre les meilleures performances de communication par ICM. Mais pour totalement appréhender la portée de ces résultats, il faut aussi en souligner les limites, ce que n’ont globalement pas manqué de faire les auteurs des travaux eux-mêmes.
Cette étude à partir d’un seul patient soigneusement sélectionné n’est bien sûr qu’une première démonstration, mais une démonstration irréfutable de la faisabilité de ce type d’interaction, même neuf ans après l’accident qui a causé son handicap sévère. Par ailleurs, si les microélectrodes utilisées ont déjà montré leur robustesse, parfois jusqu’à trois ans après leur implantation, développer des implants sûrs, durables, miniaturisés, souples et permettant d’enregistrer un maximum de neurones reste un défi majeur. Une autre solution prometteuse est d’ailleurs celle de l’électrocorticographie (ECoG), moins invasive, qui consiste à poser une grille d’électrodes à la surface du cortex, au moyen d’une chirurgie moins lourde.
Enfin, il est important de rappeler que les patients tétraplégiques ont une capacité de parole très largement préservée, généralement suffisante pour commander une synthèse vocale et leur permettre d’écrire. Autrement dit, le patient implanté dans cette étude ne représente pas la population des principaux bénéficiaires de ce type d’interface, à savoir les personnes en état d’enfermement, à la suite d’un accident du tronc cérébral ou à un stade avancé d’une sclérose latérale amyotrophique (SLA). Il reste donc à démontrer que ces patients, complètement paralysés ou presque, pourraient contrôler une telle interface. Les études menées auprès de ces patients avec de précédentes interfaces incitent à la prudence…
L'essentiel
Les interfaces cerveau-machine sont des dispositifs qui enregistrent l’activité du cerveau et qui décodent ces signaux pour commander un appareil moteur ou de communication.
À l’aide d’une telle interface, un patient tétraplégique a pu faire afficher à l’écran des textes qu’il imaginait écrire à la main.
La vitesse d’écriture atteinte était quasi normale et nettement plus élevée qu’avec des interfaces fondées sur d’autres méthodes.
Inscrivez-vous à nos lettres d’informations gratuites pour découvrir la sélection des meilleurs articles et la revue de presse, le regard de la rédaction, une sélection des articles de physique, ou encore les nouvelles parutions !