Nature (Великобритания): сигналы головного мозга превращены в речь с помощью искусственного интеллекта

Читать на сайте inosmi.ru
Материалы ИноСМИ содержат оценки исключительно зарубежных СМИ и не отражают позицию редакции ИноСМИ
Пытаясь помочь людям, которые не могут говорить, нейробиологи разработали устройство, которое может преобразовывать сигналы мозга в речь. Эта технология еще недостаточно отработана для использования за пределами лаборатории, хотя с ее помощью можно синтезировать целые предложения, которые в основном понятны, пишет «Нейче».

Пытаясь помочь людям, которые не могут говорить, нейробиологи разработали устройство, которое может преобразовывать сигналы мозга в речь.

Эта технология еще недостаточно отработана для использования за пределами лаборатории, хотя с ее помощью можно синтезировать целые предложения, которые в основном понятны. Создатели речевого декодера представили его описание в статье, опубликованной в журнале «Нейче» (Nature) 24 апреля.

Ученые и раньше использовали искусственный интеллект для преобразования сигналов головного мозга в отдельные слова, в основном состоящие из одного слога, говорит Четхан Пандаринатх (Chethan Pandarinath), нейроинженер из Университета Эмори в Атланте, штат Джорджия, который написал комментарий к статье. «Сделать скачок от одного слога к предложениям технически довольно сложно, и, в частности, поэтому проводимая работа настолько впечатляет», — говорит он.

Преобразование движений в звук

Многие люди, утратившие способность говорить, общаются с помощью устройства, при использовании которого они должны совершать небольшие движения, чтобы управлять курсором для выбора на экране букв или слов. Одним из известных примеров был британский физик Стивен Хокинг (Stephen Hawking), у которого была болезнь моторных нейронов. Он использовал речевое устройство, активируемое мышцей щеки, говорит руководитель исследования Эдвард Чанг (Edward Chang), нейрохирург из Калифорнийского университета в Сан-Франциско.

Поскольку люди, использующие такие устройства, должны печатать слова буква за буквой, эти устройства могут быть очень медленными, «произнося» до десяти слов в минуту, говорит Чанг. Естественная речь предполагает произнесение в среднем 150 слов в минуту. «Это получается благодаря эффективности голосового тракта», — говорит он. И поэтому Чанг и его команда решили при построении своего речевого декодера смоделировать голосовую систему.

Ученые работали с пятью людьми, которым в процессе лечения эпилепсии на поверхность головного мозга имплантировали электроды. Сначала, когда участники эксперимента читали сотни предложений вслух, ученые регистрировали деятельность мозга. Затем Чанг с коллегами объединили эти записи с данными предыдущих экспериментов, которые определяли, как движения языка, губ, челюсти и гортани приводят к образованию звука.

С помощью этих данных ученые «обучили» алгоритм глубокого обучения, а затем включили эту программу в свой декодер. Устройство преобразует сигналы головного мозга в указанные движения голосового тракта и превращает эти движения в синтетическую речь. Люди, которые прослушали 101 синтезированное предложение, смогли понять в среднем 70% слов, говорит Чанг.

В ходе другого эксперимента ученые попросили одного из участников прочитать предложения вслух, а затем изобразить те же самые предложения движением рта без звука. Предложения, синтезированные в этом случае, были более низкого качества, чем те, которые были синтезированы из «озвученной» речи, говорит Чанг, но результаты по-прежнему обнадеживают.

Понимание синтезированной речи — вопрос будущего

Речь, синтезируемую путем преобразования сигналов головного мозга в движения голосового тракта и перевода их в звук, легче понять, чем речь, которая синтезируется путем преобразования сигналов головного мозга непосредственно в звук, говорит Стефани Риес (Stephanie Riès), нейробиолог из Университета штата Сан-Диего в Калифорнии.

Но неясно, будет ли новый речевой декодер работать со словами, которые люди «произносят» только мысленно, говорит Эми Орсборн, нейроинженер из Университета Вашингтона в Сиэтле. «В статье действительно хорошо показано, что устройство работает с мимической речью, — говорит она. — Но как оно работает, если человек не шевелит губами?»

Марк Слуцки (Marc Slutzky), невролог из Северо-Западного университета в Чикаго, штат Иллинойс, согласен с этим и говорит, что эффективность речевого декодера можно повысить. Он отмечает, что слушатели идентифицировали синтезированную речь, выбирая слова из набора вариантов, но по мере увеличения числа вариантов понимать слова становилось труднее.

Это исследование «является действительно важным шагом, но прежде чем синтезированную речь можно будет легко понимать, предстоит сделать еще многое», говорит Слуцки.

Обсудить
Рекомендуем