У меня есть набор функций из 500 наиболее часто встречающихся униграмм из состава электронных писем. Я использую это, чтобы классифицировать электронные письма, используя c5.0, исходя из наличия/отсутствия каждого из слов в тестовом письме.
Теперь мне нужно рассчитать недоумение терминов в наборе функций и использовать его для классификации электронных писем. Мне было интересно, есть ли у кого-нибудь опыт моделирования языка, и я знаю, как я собираюсь рассчитать недоумение модели, любая помощь будет замечательной!
Я должен добавить, что мне известно о инструментах, которые могут сделать это для меня автоматически, например, SRILM/CMU-LMtoolkit, но я предпочел бы сделать это сам с нуля в качестве своей части моего последнего проекта! Мне просто нужно напомнить о том, как начать... возможно, ссылку на "Руководство идиотов для расчета недоумений и классификации с недоумением"!!
Спасибо большое!