Un equipo científico de la Universidad de California en Berkeley y en San Francisco (Estados Unidos) ha diseñado un dispositivo capaz de traducir la actividad del habla en el cerebro en palabras habladas casi en tiempo real, consiguiendo que una mujer de 47 años con tetraplejia ‘hablara’ después de 18 años.
Este trabajo resuelve “el viejo problema” de la latencia de las neuroprótesis del habla, es decir, el tiempo que transcurre entre el momento en que un sujeto intenta hablar y el momento en que se produce el sonido.
Gracias a los últimos avances basados en inteligencia artificial (IA), los investigadores desarrollaron un método de transmisión que sintetiza las señales cerebrales en habla audible casi en tiempo real. Su descripción se publica este lunes en la revista Nature Neuroscience.
“Nuestro enfoque de ‘streaming’ lleva la misma capacidad de decodificación rápida del habla de dispositivos como Alexa y Siri a las neuroprótesis”, resume Gopala Anumanchipalli, co-investigador principal del estudio.
“Utilizando un tipo de algoritmo similar, descubrimos que podíamos descodificar datos neuronales y, por primera vez, hacer posible una transmisión de voz casi sincrónica. El resultado es una síntesis del habla más natural y fluida”, explica el científico.
Para Edward Chang, otro de los científicos principales, esta nueva tecnología “tiene un enorme potencial” para mejorar la calidad de vida de las personas con parálisis graves que afectan al habla. “Es emocionante que los últimos avances en IA estén acelerando enormemente las interfaces cerebro-ordenador para su uso práctico en el mundo real en un futuro próximo”.
Como parte de un ensayo clínico, los equipos de Chang y Anumanchipalli implantaron la interfaz cerebro-computadora en una mujer de 47 años con tetraplejia (parálisis de las extremidades y el torso), que no había podido hablar o vocalizar durante 18 años después de sufrir un accidente cerebrovascular.
Para recopilar los datos necesarios para entrenar su algoritmo, los investigadores primero hicieron que la participante mirara una indicación en la pantalla, como la frase “hola, ¿cómo estás?”, y luego intentara pronunciar esa frase en silencio.
Así, los autores entrenaron una red neuronal de aprendizaje profundo utilizando la actividad cerebral de la participante, que se registró mediante electrodos implantados sobre su corteza sensomotora del habla, mientras pronunciaba internamente en su cerebro frases completas que contenían 1.024 palabras únicas.
A continuación, se utilizó este modelo para descodificar el habla en línea, simultáneamente con la intención vocal de la participante (Ann), y luego producir audio imitando su voz -esta había sido entrenada utilizando un clip de ella hablando antes de la lesión-.
Cheol Jun Cho, otro de los firmantes del trabajo, resume que la neuroprótesis funciona tomando muestras de datos neuronales de la corteza motora, la parte del cerebro que controla la producción del habla, y luego utiliza la IA para descodificar la función cerebral y convertirla en habla.
“Básicamente interceptamos las señales en las que el pensamiento se traduce en articulación (…). Así que lo que estamos descodificando es después de que se haya producido un pensamiento, después de que hayamos decidido qué decir, después de que hayamos decidido qué palabras utilizar y cómo mover los músculos del tracto vocal”.
En su anterior estudio sobre este tipo de dispositivos, los investigadores se encontraron con una larga latencia de descodificación, de unos 8 segundos para una sola frase. Con el nuevo método de transmisión, la salida audible puede generarse casi en tiempo real, mientras el sujeto intenta hablar, recoge un comunicado de la Facultad de Ingeniería de la Universidad de California en Berkeley.
Para descartar que el sistema simplemente estaba emparejando patrones y repitiendo partes de los datos de entrenamiento, los investigadores probaron su capacidad para sintetizar palabras que no formaban parte del vocabulario del adiestramiento primario. En este caso, eligieron 26 palabras del llamado alfabeto fonético de la OTAN, como “alpha” o “bravo”.
“Descubrimos que nuestro modelo lo hace bien, lo que demuestra que, efectivamente, está aprendiendo los componentes básicos del sonido o la voz”, concluye Anumanchipalli.
Te puede interesar: Una nueva interfaz y una pierna biónica permiten caminar más rápido y natural
¡Síguenos en Facebook y Twitter para mantenerte informado con las mejores noticias!
EFE