Нужны ли глаза вашему виртуальному помощнику? Обучение голосовых ассистентов требует обучения на новом уровне

«Единственный путь сделать виртуальных помощников по настоящему умными — это дать им глаза и научить исследовать мир.»(В оригинале: The only way to make smart assistants really smart is to give it eyes and let it explore the world)

Amazon, Рохит Прасад

Автор цитаты — один из создателей всемирно известного голосового помощника Amazon Alexa.

Но зачем голосовым ассистентам нужно воспринимать мир визуально? Попробуем ответить на этот вопрос в 3 тезисах:

Голосовые ассистенты плохо понимают контекст происходящего, поэтому хорошо справляются только с прямыми задачами: включи это, скажи то и т.д. Когда же речь заходит о нескольких задачах сразу или о фразах из контекста, в продолжении логической линии у искусственного интеллекта возникают пробелы, так как просто не хватает входящих данных для анализа.
Многие умные помощники самообучаемы, т.е. пользователи дают обратную связь ассистенту и он их воспринимает и улучшает алгоритмы взаимодействия, но для обучения искусственного интеллекта нужно несколько важных моментов: размер выборки и достоверность обратной связи. Приведем классический пример, где хорошо работают нейронные сети — распознавание картинок. Сначала нужна база тех самых картинок на все случаи жизни, далее эту базу анализирует машинный алгоритм по заложенным характеристикам: разрешение, сочетания цветов, оттенки и др. формальные вещи, а дальше происходит уже само обучение: нанимаются асессоры, которые говорят роботу: верно/не верно. В итоге мы получаем алгоритмы, которые умеют найти фото с разными формами, различающими фотоаппарат от мяча, которые могут найти подобные картинки и т.д. Но с картинками, несмотря на сложность задачи, задача находится в одной плоскости. Голосовым ассистентам приходится работать со всеми сферами жизни человека, что намного усложняет задачу как загрузки первичной информации, так и ее дальнейшее обучение. И, вероятнее всего, робот сможет понять человека, если сам станет немного человеком: станет различать и видеть мир своими глазами, осязать сенсорами, чувствовать перепады температуры. Эти входящие данные, разложенные по векторам, позволят не только накопить данные совершенного иного рода, но и позволят интерпретировать контекст происходящего.

Пример: Вы пришли домой и говорите колонке, сделай лирическое настроение. Каждый вкладывает в это свое, но робот, зная ваши предпочтения, должен понять, что нужно поставить вашу любимую лирическую музыку и подобную ей, приглушить свет, выбрать соответствующий аромат в освежителе воздуха и включить на ТВ какой-нибудь вид на горы или океан.

По некоторым исследованиям человек получает до 90% информации визуально, а для людей с ограниченным слухом этот процент еще выше, а как робот может понять человека, который привык работать за столом, читать в кресле, а слушать музыку на кухне? Для помощника все команды воспринимаются одинаково, без учета контекста, а значит и реакция всегда будет одинакова. А прибавьте сюда страсть людей жестикулировать, передавать эмоцию мимикой и прочие визуальные эффекты, поэтому персональные ассистенты будущего просто обязаны «видеть» мир, чувствовать его и правильно интерпретировать, иначе они останутся только придатками для ограниченного круга задач.

Поделитесь в комментариях, нужно ли персональным помощникам анализировать окружающую их среду и почему?