

Les images de la rangée du bas ont été recréées à partir de scanners cérébraux d’une personne regardant celles de la rangée du haut
Yu Takagi et Shinji Nishimoto/Université d’Osaka, Japon
Un ajustement de l’intelligence artificielle populaire du texte à l’image permet de convertir les signaux cérébraux directement en images. Cependant, le système nécessite une formation approfondie à l’aide d’un équipement d’imagerie volumineux et coûteux, de sorte que la lecture quotidienne des pensées est loin de la réalité.
Plusieurs groupes de recherche ont images générées précédemment à partir de signaux cérébraux en utilisant des modèles d’intelligence artificielle énergivores qui nécessitent un réglage fin de millions à des milliards de paramètres.
Maintenant, Shinji Nishimoto et Yu Takagi à l’Université d’Osaka au Japon ont développé une approche beaucoup plus simple en utilisant Stable Diffusion, un générateur de texte en image publié par Stability AI en août 2022. Leur nouvelle méthode implique des milliers, plutôt que des millions, de paramètres.
Dans l’usage courant, Stable Diffusion transforme une invite de texte en une image en commençant par un bruit visuel aléatoire et en l’ajustant pour produire des images qui ressemblent à celles des données d’apprentissage qui ont des légendes de texte similaires.
Nishimoto et Takagi ont construit deux modèles supplémentaires pour que l’intelligence artificielle fonctionne avec les signaux cérébraux. La paire a utilisé les données de quatre personnes ayant participé à une étude précédente qui utilisait l’imagerie par résonance magnétique fonctionnelle (IRMf) pour scanner leur cerveau tout en visualisant 10 000 images différentes de paysages, d’objets et de personnes.
En utilisant environ 90% des données d’imagerie cérébrale, la paire a formé un modèle pour établir des liens entre les données d’IRMf d’une région du cerveau qui traite les signaux visuels, appelée cortex visuel précoce, et les images que les gens regardaient.
Ils ont utilisé le même ensemble de données pour former un deuxième modèle afin d’établir des liens entre les descriptions textuelles des images – créées par cinq annotateurs dans l’étude précédente – et les données IRMf d’une région du cerveau qui traite la signification des images, appelée ventrale. cortex visuel.
Une fois formés, les deux modèles – qui devaient être personnalisés pour chaque individu – ont pu convertir les données d’imagerie cérébrale en formes qui alimentaient directement le modèle de diffusion en régime permanent. Il pourrait alors reconstruire environ 1 000 images que les gens ont vues avec une précision d’environ 80 % sans être formés sur les images d’origine. Ce niveau de précision est similaire à celui précédemment atteint par va étude qui a analysé les mêmes données en utilisant une approche beaucoup plus fastidieuse.
“Je n’en croyais pas mes yeux, je suis allé dans la salle de bain et je me suis regardé dans le miroir, puis je suis retourné à mon bureau pour regarder à nouveau”, raconte Takagi.
Mais l’étude n’a testé l’approche que sur quatre personnes, et les IA de lecture de pensées fonctionnent mieux sur certaines personnes que sur d’autres, dit Nishimoto.
De plus, comme les modèles doivent être adaptés au cerveau de chaque individu, l’approche nécessite de longs scanners cérébraux et d’énormes appareils d’IRMf, dit-il. Sikun-Lin à l’Université de Californie, Santa Barbara. “Ce n’est pas du tout pratique pour un usage quotidien”, dit-il.
À l’avenir, des versions plus pratiques de cette approche pourraient permettre aux gens de créer de l’art ou d’éditer des images selon leur imagination, ou d’ajouter de nouveaux éléments au jeu, dit Lin.
les sujets: