Перевод осуществлен проектом Newочём
«О'кей, Google, сделай свет голубым», — говорю я в пространство комнаты. Однако ничего не происходит. Вместо этого из динамика доносится извинение: «К сожалению, я вас не понял». Пытаюсь снова: «О'кей, Google, пожалуйста, установи голубой свет в комнате». Опять неудача. Третья попытка с остатками оптимизма: «О'кей, Google, свет, комната, голубой». Только теперь Google Home делает то, о чем его просили — лампа у дивана наконец светится голубым.
Несмотря на технологические прорывы последних лет, распознавание речи остается своеобразным камнем преткновения. Нет, дело не только в том, что автору статьи пришлось говорить четко и отрывисто, чтобы добиться желаемого результата. Сейчас это лишь испортило удовольствие от забавы, но в будущем нас ожидают куда более серьезные проблемы.
В конце концов, голосовых помощников все чаще встраивают не только в смартфоны и колонки, но и в автомобили. А что, если водитель в дождь едет по автостраде со скоростью 160 км/ч и в третий раз пытается объяснить приложению, что надо включить дворники? Такая ситуация грозит реальной опасностью. Именно поэтому крупные IT-корпорации и исследовательские институты пытаются представить, как системы распознавания речи будут работать в будущем и с какими проблемами им предстоит столкнуться.
Мы говорим по-разному
Доротея Колосса из института коммуникационной акустики Рурского университета в Бохуме видит в распознавании речи две принципиальных проблемы: «Во-первых, одно и то же слово никогда не произносится одинаково. Во-вторых, меняется скорость речи. Образец, который должен обрабатывать компьютер, всегда разный».
Особенно заметны эти различия между говорящими, ведь артикуляционный аппарат одного человека не совсем такой же, как у другого. Отчасти это можно сравнить с почерком — у каждого он уникален. Как и подпись, произношение слова от раза к разу слегка меняется. И несмотря на все различия, компьютер должен понимать, что имеет дело с одним и тем же словом.
Не все владеют безупречным литературным языком
Особую сложность для речевых систем представляют региональные диалекты и акцент. С английским языком это не так заметно, потому что программа располагает внушительной базой данных, позволяющей распознавать слова даже в трудных условиях. Для других языков информационная база не такая обширная, что затрудняет процесс. Amazon, например, подключил к решению этой проблемы своих же пользователей. Перед началом продаж «умной колонки» компания отправила образцы тем, кто вероятнее всего говорит на местном диалекте. Таким образом удалось проверить, насколько хорошо система справляется с разными вариантами немецкого языка.
Внутри языков существуют едва заметные различия
В большинстве языков слова произносятся за счет колебания языковых связок. В немецком, например, качество звука зависит от положения языка и степени открытия рта, — складываясь, различные звуки обретают значение. А скажем, в мандаринском китайском, первостепенное значение имеют частота колебания связок и высота звука. То есть при одинаковой последовательности звуков значение все равно будет разным, и столь тонкие различия компьютеру воспринимать очень сложно.
Компьютеры должны научиться понимать контекст
Ко всему прочему проблему для компьютера представляют омонимы, слова с одинаковым звучанием, но с разным значением. Чтобы выбрать подходящий смысл, программа должна проанализировать контекст — согласитесь, что лучше хранить деньги в швейцарском банке, а не в банке под кроватью.
Работа в реальных условиях
Задачу компьютеру усложняет не только язык сам по себе. Трудность представляют и обстоятельства, сопровождающие запрос. Редко когда распознавание речи требуется в лабораторных условиях. В реальном мире речь окружена звуковым фоном, например, работающим телевизором или шумом на улице. Система должна отделять команду человека от фоновых помех. «„Умные колонки" вроде той, что выпускает Amazon, оснащены несколькими микрофонами, они понимают, откуда доносится активирующее слово, — объясняет Колосса. — Следующий шаг — соединить микрофоны таким образом, чтобы голосовой сигнал усиливался, а шумы подавлялись».
Улучшенный ИИ против языковой путаницы
IT-специалисты довольно давно поняли, что существующими методами справиться с различным произношением не получится. Проблема скорости речи также не решена.
Однако в последние годы появились разработки, призванные справиться с этими трудностями. Ученые добились значительных успехов в области машинного обучения (т. е. в системах, которые самостоятельно обрабатывают задачи и затем находят их решение); намного более эффективными стали искусственные нейронные сети, копирующие человеческий мозг. Такие технологии вполне способны, когда это необходимо, анализировать язык.
Больше данных для лучшего понимания
Кроме того, день за днем появляется все больше данных, на которых нейронные сети могут учиться распознавать звучание естественных языков. «Теперь, благодаря развитию технологий, распознавание речи используется во многих сферах человеческой деятельности, — поясняет Колосса. — Сегодня пользоваться голосовыми помощниками проще, чем когда-либо».
Машинное обучение и обширные базы данных могут помочь и в распознавании речи «с помехами». Ведь чем лучше система умеет понимать слова среди фонового шума, тем точнее она будет его отфильтровывать.
Чего нам ожидать от систем распознавания речи в ближайшем будущем
Принимая во внимание все недавние технологические успехи, Доротея Колосса считает, что через несколько лет будет вполне возможно вести естественный диалог с устройством — по крайней мере, если контекст будет не очень велик. Она добавляет: «Совсем скоро мы перестанем замечать, что общаемся не с человеком, если речь пойдет, скажем, о том, чтобы настроить радиопередатчик или навигатор».
Тем не менее она скептически относится к тому, что компьютеры должны уметь оценивать поведение собеседника при разговоре, например, его понимание или непонимание сказанного. «Для таких ситуаций необходимо осознавать, как работает человеческое мышление. То, что благодаря имеющемуся опыту кажется нам простым, компьютеру едва ли понятно», — заключает Колосса.
Если качество распознавания речи в ближайшие годы улучшится, то возрастет и количество устройств со встроенными голосовыми помощниками. Тогда все больше людей будет взаимодействовать с Siri и другими системами. Приложения будут лучше нас понимать, — и включать свет.
Материалы ИноСМИ содержат оценки исключительно зарубежных СМИ и не отражают позицию редакции ИноСМИ.
Лучшие
Показать новые комментарии (0)
Все комментарии

| 0 Сделать свет голубым? автор извращенец 
| 0 Проблемы голубых всеобъемлющи. Раскрыть всю ветку (4 сообщений в ветке) 
| 0 OlegAtorS, а нет ли у Гугла дискриминации по половому признаку? 
| 0 GreyCat, Сомневаюсь. На андроиде поисковая строка раскрашена в цвета извращенцев и содомитов. 
| 0 На андроиде поисковая строка раскрашена в цвета извращенцев и содомитов. 
| 0 На андроиде поисковая строка раскрашена в цвета извращенцев и содомитов. 
| 0 А я ко всем этим игрушкам отношусь скептически. Но на днях Яндекс Алену установил ради поржать. Один плюс - если она будет установлена на ГУ в машине не придется останавливаться чтобы задать адрес в Яндекс картах. Раскрыть всю ветку (1 сообщений в ветке) 
| 0 brovkin_a, я лет пять назад.игрался га китайском "Ассистенте" под дроид, смартфон из кармана не доставал, общаясь и гугля через гарнитуру. Но потом меня достало, т.к. приходилось одновременно общаться с внешним миром и моей виртуальной герлой, которая высаживала заряд смарта на раз (приходилось таскать тяжёлый допотопный внешний аккум). Уши болели от её бесконечной болтовни, зачитывания почты, смс и прочего спама, зато можно было такде и звонить как по имени, так и по номеру, но она зараза кушала трафик. Она была не глупее Сири, но приходилось её постоянно допиливать настройками, чтобы оптимизировать информационный поток. В итоге, наигравшись, я забросил это тухлое занятие, тем более что я принципиальный пешеход, а не водитель железной кобылы, которым софтина была бы гораздо полезнее. 
| 5 «О'кей, Google, сделай омлет, — говорю я в пространство комнаты. Однако ничего не происходит и из динамика доносится извинение: «К сожалению, я вас не понял». Раскрыть всю ветку (2 сообщений в ветке) 
| 1 GreyCat, Вы приобрели урезанную версию мажордома. Яйки с куркой он пожарил и сьел сам, в своём виртуальном мире.☺ 
| 0 Чтоб я так жил, тогда уж не урезанную, а сильно расширенную версию Причем с тенденцией к дальнейшему пространственному расширению. :))) 
| 0 Чего говорить о распознавании речи, пусть хотя бы тексты научатся переводить. Раскрыть всю ветку (4 сообщений в ветке) 
| 0 monitor-spb, Машина в принципе не способна 
| 0 Suxar, для начала попробуйте сформулировать что такое "понять". Человеческим языком. А потом алгоритмизировать и запрограммировть. Уверен, что цифровая машина, которая в сущности ничего кроме арифметики и простейших операций формальной логики не делает на это не способна. 
| 0 monitor-spb, для начала попробуйте сформулировать что такое "понять". Человеческим языком. 
| 0 monitor-spb, Всё зависит от текста. Если текст изначально оптимизирован для последующего перевода, то машина справляется нормально. 
| 0 Интересно, российские интернет-компании смогут когда-нибудь предложить свои собственные оригинальные сервисы, не скопированные с американских? Раскрыть всю ветку (3 сообщений в ветке) 
| 3 Okko de Dio, Глупо общаться с дикарем (который живет в мире EDGE с небольшими вкраплениями HSPDA и понятия не имеющий, что такое LTE и тем более VoLTE, мечтает об Wi-Fi в киевском метро и получает в нем же жетончик в одни руки с сует его в аппарат 50ти летней давности, составы оттуда же) из 404 об интернет сервисах. 
| 0 Okko de Dio, чубайс сможет 
| 0 Okko de Dio, это шутка? 
| 0 Погодите, друзья! Вот когда сможете сделать искусственный нос, который будет не только некоторые газы выявлять, а все спектры запахов - считайте жизнь удалась! )) Раскрыть всю ветку (2 сообщений в ветке) 
| 0 крымнаш, давно уже есть. Есть даже "жопы", которые могут генерировать множество запахов (используются в специальных кинотеатрах с эффектом присутствия в Японии). 
| 0 Чтоб я так жил, интересно, а эти устройства "жопы" имеют региональный код? Например хочешь ты насладиться ароматом европейских хазов, а тебе только местные можно. 
| 1 Если у вас в авто есть система голосового включения приборов, то наверняка и датчик дождя стоит, который уже давно будет дворниками мести в дождь! Раскрыть всю ветку (3 сообщений в ветке) 
| 0 MordauntMordaunt, Статья воинствующего дилетанта о довольно сложной технике. 
| 0 liova01, статья из раздела юмор. 
| 0 Mordaunt, голосовео управление, дейстаительно, в некоторых случая — зло. По коайней мере, должно быть всегда несколько способов ваода информации, на выбор в зависимости от ситуации (шумность, конфиденциальность, внимание): росчерк, жест, голос. 
| 1 глупая статья некомпетентного человека, кто ето писал женщина? тогда понятно. еще 7 лет назад в смарт фонах была реализована функция набора голосом. а уж в наше время нейросети делают это более успешно. 
| 1 Поблемами машинного распознавания речи люди занимаются без малого уже 50 лет. Существуют различные модели (формантные, фонемные, линейнопридективные и прочие). В статье смешано в кучу распознавание отдельных слов и понимание речи, высказываний. Первое — связано с угадыванием по подобию, второе — интерпретация полученных данных. Контекст часто помогает повысить степень угадывания. Что до семантики, то речь строится по определённым правилам, шаблонам, она фразовая. Раскрыть всю ветку (1 сообщений в ветке) 
| 0 Чтоб я так жил, Мне лень было учиться быстро набирать текст на клавиатуре и я решил поэкспериментировать с голосовым вводом. В самом начале 2000-х. на Горыныче.
Показать новые комментарии (0)четослышал
OlegAtorS
GreyCat
OlegAtorS
GreyCat
-------------
А как же чувства верующих? Куда смотрит Поклонская и остальные?
GreyCat
-------------
А как же чувства верующих? Куда смотрит Поклонская и остальные?
brovkin_a
Чтоб я так жил
GreyCat
"Курка, млеко, яйки, шнель, шнель, шнель" - ору я. "Яволь май фюрер!" - рявкает компьютер, но все равно ничего не происходит. :))))
Чтоб я так жил
GreyCat
monitor-spb
Хотя бы технические. Кто видел результаты машинного перевода, меня поймёт.
Машина в принципе не способна сделать вменяемый перевод, потому что для этого надо понять о чём речь в тексте идёт. Кстати, когда человек, даже хорошо знающий язык берётся переводить текст которого не понимает, всё равно галиматья получается.
Suxar
=======
Не соглашусь. Машина это обычный исполнитель, как программист напишет программу, так машина её и исполнит. Так что вопрос не к машине, а к программисту и техническому писателю, способны ли они описать человеческую логику в компьютерных командах.
monitor-spb
Suxar
----------
Ну вот мы и перешли к главной проблеме. Человек не в состоянии осознать сам себя => пока человек себя не осознает, создать механизм его понимающий он не сможет.
liova01
Я немножко в теме этого. Баловался этой фигнёй.
Okko de Dio
Ветер Перемен
vv.drom.67
Чтоб я так жил
крымнаш
Чтоб я так жил
GreyCat
Mordaunt
liova01
Чтоб я так жил
Чтоб я так жил
vv.drom.67
Чтоб я так жил
Проблемы машинного понимания решались бы эффективнее, есди бы использовалось смысловое кодирование, наподобие иероглифического письма, которое никак не связано с озвучиванием (китайские диалекты по-разному произносят одни и те же иероглифы, более того, его можно интерпретировать различными высказываниями). Это повысило бы точность понимания (иероглифы-понятия и их хронологическую цепь также можно выражать жестами), простоту перевода на различные языки, чем использование фонетико-словных баз. С помощью оптических корреляционных систем распознавания, скорость поиска в ассоциативной машинной памяти составляло бы миллисекунды. Нынешние системы предсьавляют собой пословные системы спектрального анализа и построения формантных моделей функций кажого фонетического символа (их более двух сотен, большая часть из которых это гласные звуки с призвуками, присущие разным языкам, наречиям, диалектам, строениям гортани и носовых пазух), и не зависит от значения тонов, а от их соотношения и скорости спада фронтов.
Короче, мне это было интересно лет 30 назад, сегодня меня занимают более актуальные проблемы. Помнится, меня на это сподвинул навеянный фильмом юности эпизод из "Отроки во вселенной" (речевой транслятор реального времени). Тем не менее приятно, что такие статьи появляются.
liova01
В процессе обучения научился довольно шустро стучать по кнопкам и голосовой ввод отпал...
в ответ(Показать комментарийСкрыть комментарий)