У меня есть газетные статьи. Каждое слово в корпусе имеет частоту, присутствующую в тот день. Я занимался поиском алгоритма, который захватывает отрывные слова, подобно тому, как Twitter измеряет тенденции в твитах людей.
Для экземпляра, скажем, слово "рецессия" появляется со следующей частотой в той же группе газет:
День 1 | спад | 456
День 2 | спад | 2134
День 3 | спад | 3678
Пока "Европа"
День 1 | европе | 67895
День 2 | европе | 71999
День 3 | европе | 73321
Я подумывал взять% роста в день и умножить его на логарифм суммы частот. Затем я бы взял среднее значение для оценки и сравнения различных слов.
В этом случае:
спад = (3,68 * 8,74 + 0,72 * 8,74)/2 = 19,23
europe = (0,06 * 12,27 + 0,02 * 12,27)/2 = 0,49
Есть ли лучший способ захватить взрывной рост? Я пытаюсь раздобыть ежедневный корпус, чтобы найти термины, которые все чаще упоминаются в определенный период времени. ПОЖАЛУЙСТА, дайте мне знать, есть ли лучший алгоритм. Я хочу найти слова с высоким не постоянным ускорением. Может быть, взятие второго производного будет более эффективным. Или, может быть, я слишком усложняюсь и смотрю слишком много физических программ на канале обнаружения. Сообщите мне, если возможно, математический пример.