Яндекс выпустил голосовой помощник – Алису, которая помогает найти информацию в интернете, подсказать, что приготовить на ужин, какая ожидается погода и куда пойти пообедать. При этом не придется переключаться между сайтами – кибердевушка сама обратится к различным сервисам поисковой системы. А еще она обладает незаурядным чувством юмора и весьма непростым характером.
Принцип работы Алисы
За каждым ответом Алисы стоят сложные технологические процессы. Первое – распознавание речи. Искусственный интеллект должен понимать, что обращаются к нему. Решается это при помощи нейронной сети, обученной распознавать всего несколько предложений:
- «привет, Алиса»;
- «скажи, Алиса»;
- «слушай, Яндекс»;
и прочих.
Среди шума (некоторые ведь пользуются устройством на улице) Алиса должна уловить слова и определить их значения. Когда речь распознана, включается нейросеть, распознающая ключевые фразы. Это – самая тяжеловесная часть приложения, ведь для распознавания всего одной фразы необходимы десятки тысяч примеров. Так, человек не всегда говорит: «Погода в Москве 30 декабря 2019 года», скорее, он скажет: «Погода в Москве на завтра». Нейросеть должна обратиться к серверам за получением информации, какое сегодня число, какая дата завтра, к метеосводкам для распознавания погоды, передать эту информацию в облако, а уже оттуда получить сформированный ответ.
Точность ответов зависит от качества распознавания речи. Именно поэтому важно научить ИИ понимать человека так же, как понимают друг друга люди. Точность распознавания речи Алисой – от 89 до 95%, это максимально приближено к человеческим параметрам. Данные показатели уникальны для любого языка, особенно такого сложного, как русский, где одно слово имеет несколько значений, никак не связанных друг с другом.
Алиса не только распознает речь, но и совершает определенные действия. На вопрос «Какая погода в Питере» помощник может ответить голосом, может выдать список сайтов с метеосводками, а может открыть приложение.
Алиса способна обучаться на основании тех поисковых запросов, которые делают люди в Яндексе. Так, на вопрос «Какая погода в Питере?», голосовой помощник даст точный ответ или уточнит – когда. Но не спросит, что это за город такой «Питер», потому что миллионы пользователей вводили подобный запрос в Яндексе. Сведения берутся именно из них. Благодаря сложной нейросети, Алиса понимает, что Питер – это Санкт-Петербург, а погоду ищут, скорее всего, на ближайшие дни.
Человеческая речь – это не только форма реплик, но и их связность. Задав вопрос про погоду в Питере, можно спросить: «Ожидаются ли там осадки». Алиса запоминает контекст, что помогает ей вставлять пропущенные слова. «Там» — это значит, в Питере. Поэтому она даст правильный ответ.
Алиса умеет не только распознавать речь человека, но и говорить, как люди, а не роботы. Кибердевушка обладает приятным тембром Татьяны Шитовой, которая, кстати, озвучивала ИИ в фильме «Она». Актриса является официальным голосов Скарлетт Йохансен в России.
Яндекс глубоко синтезировал речь актрисы, а не нарезал готовые фразы. При этом Алиса способна не просто отвечать на вопросы, но и просто вести диалог, как живой человек.
Для этого используется сложная 120-слойная нейросеть, которая обучена на огромном количестве текстов из книг, фильмов и интернета. Поэтому Алиса способна отвечать на произвольные уникальные фразы, ответы на которые не найти в обычном поисковике. Кстати, благодаря этому Алиса может отвечать на вопросы или просьбы вовсе не так, как хочется пользователю. Например, на просьбу: «- Закажи мне пиццу.»
Она способна ответить: «- Обойдешься.»
Алиса – ребенок, которого невозможно научить не хамить, если это делают все окружающие. Если убрать из контекста обучающих материалов подобные фразы, то голосовой помощник будет очень похож на обычного робота.
Когда Алиса находится в режиме диалога, она может использовать любой из сценариев, не всегда вежливый. Но пользователям нравится именно это – живое общение.
Помимо ответов на вопросы в Алису могут быть интегрированы прочие сервисы – навыки. Первым являлось умение заказать пиццу. Навыки – это сторонние сервисы. На данный момент в Алиса обладает несколькими сотнями навыков. Также Яндекс предоставил возможность сторонним разработчикам возможность подключать к Алисе новые чат-боты.
Может ли Алиса работать оффлайн и почему?
Работать в оффлайн режиме Алиса не может. При выдаче ответов на запросы пользователей, голосовой помощник обращается к облаку – интернет-хранилищу данных. Если будет отсутствовать связь с сервером, то выдать вразумительный ответ Алиса не сможет.
Разработчики уже работают над данным вопросом. Так, уже существует Edge-поиск, работающий при медленном или отсутствии интернета.
Какой движок используется для обработки голосовых команд? Как это работает?
Голосовые запросы Алиса распознает при помощи технологии СпичКит. На данном этапе голос отделяется от остальных шумов. База знаний, накопленная Яндексом, позволяет голосовому помощнику распознать миллиарды фраз, произнесенных с разным акцентом и в разных условиях.
При помощи технологии Тьюринг Алиса наделяет вопрос смыслом и подбирает ответ. Озвучивание текста происходит с использование технологии Text-to-speech. Основа – записанные в студии сотни тысяч фраз, разбитых на звуки. Из базы Алиса собирает ответ, а нейросеть сглаживает интонации, приближая речь голосового помощника в человеческой.
Немного о нейронных сетях голосового ассистента
На данный момент Алиса использует 120-слойную нейросеть, позволяющую ей общаться, как человек.
Обучение на обратной связи
Технология Тьюринг позволяет разговаривать с пользователем на отвлеченные темы. Для максимально точного ответа, помощник умеет запоминать историю общения с ней, распознавать интонации запросов и учитывает геоположение пользователя.