Очень низкая точность при использовании открытых ушей для распознавания речи

Я использую открытые уши для распознавания речи в своем приложении. Основная проблема заключается в точности. В спокойной обстановке точность составляет около 50%, но в шумной обстановке ситуация ухудшается. Почти ничего не признано правильно. В настоящее время я использую словарь объемом около 300 слов. Какие области я должен искать для повышения точности? До сих пор я не делал никаких изменений.

Ответ 1

Для разработки приложений распознавания речи вам необходимо понять некоторые основные концепции распознавания речи, такие как акустическая модель, грамматика и фонетический словарь. Вы можете узнать больше из учебника CMUSphinx http://cmusphinx.sourceforge.net/wiki/tutorial

Плохая точность - это нормальное состояние разработки речевого приложения, есть процесс, который вы можете использовать для его улучшения и сделать приложение полезным. Процесс следующий:

  • Соберите образцы речи, которые вы пытаетесь распознать, и создайте речевую базу данных для измерения текущей точности и понимания проблем, стоящих за ней.

  • Попробуйте сыграть со словом словаря, чтобы улучшить разделение между разными голосовые подсказки. Например, словарный запас из 10 команд легче распознать, чем словарь из 300 команд.

  • Создайте приложение так, чтобы количество вариантов распознавания было меньше, и ответы людей просты. Эта деятельность называется VUI (дизайн пользовательского интерфейса голоса), и это довольно большая область со многими блестящими книгами и блогами. Вы можете найти здесь несколько деталей: http://www.amazon.com/Voice-Interface-Design-Michael-Cohen/dp/0321185765

  • Попробуйте улучшить акустическую часть вашего приложения. Измените словарь, чтобы он соответствовал вашей речи. Адаптируйте акустическую модель в соответствии с акустическими свойствами. См. http://cmusphinx.sourceforge.net/wiki/tutorialadapt для описания процесса адаптации акустической модели.