Очень низкая точность при использовании открытых ушей для распознавания речи

Я использую открытые уши для распознавания речи в своем приложении. Основная проблема заключается в точности. В спокойной обстановке точность составляет около 50%, но в шумной обстановке ситуация ухудшается. Почти ничего не признано правильно. В настоящее время я использую словарь объемом около 300 слов. Какие области я должен искать для повышения точности? До сих пор я не делал никаких изменений.

Ответ 1

Для разработки приложений распознавания речи вам необходимо понять некоторые основные концепции распознавания речи, такие как акустическая модель, грамматика и фонетический словарь. Вы можете узнать больше из учебника CMUSphinx http://cmusphinx.sourceforge.net/wiki/tutorial

Плохая точность - это нормальное состояние разработки речевого приложения, есть процесс, который вы можете использовать для его улучшения и сделать приложение полезным. Процесс следующий:

Соберите образцы речи, которые вы пытаетесь распознать, и создайте речевую базу данных для измерения текущей точности и понимания проблем, стоящих за ней.
Попробуйте сыграть со словом словаря, чтобы улучшить разделение между разными голосовые подсказки. Например, словарный запас из 10 команд легче распознать, чем словарь из 300 команд.
Создайте приложение так, чтобы количество вариантов распознавания было меньше, и ответы людей просты. Эта деятельность называется VUI (дизайн пользовательского интерфейса голоса), и это довольно большая область со многими блестящими книгами и блогами. Вы можете найти здесь несколько деталей: http://www.amazon.com/Voice-Interface-Design-Michael-Cohen/dp/0321185765
Попробуйте улучшить акустическую часть вашего приложения. Измените словарь, чтобы он соответствовал вашей речи. Адаптируйте акустическую модель в соответствии с акустическими свойствами. См. http://cmusphinx.sourceforge.net/wiki/tutorialadapt для описания процесса адаптации акустической модели.