Я разбираю предложения. Я хочу знать соответствующий контент каждого предложения, который определяется как "полу-уникальные слова" по отношению к остальной части корпуса. Нечто похожее на "статистически невероятные фразы" Амазонки, которые, как представляется, (часто) передают характер книги через нечетные строки слов.
Мой первый проход состоял в том, чтобы начать составлять общий список слов. Это выбивает простые, такие как a
, the
, from
и т.д. Очевидно, что этот список довольно длинный.
Одна идея состоит в том, чтобы сгенерировать этот список: создать гистограмму частоты слов корпуса и отбросить верхние 10% или что-то подобное (IE the
происходит 700 раз, from
600 раз, но micropayments
только 50, который находится под отсечкой и, следовательно, имеет значение).
Еще один алгоритм, который я только что узнал из Hacker News сегодня, - это Tf idf, который выглядит так, как будто это может быть полезно.
Какие другие подходы будут работать лучше, чем мои две идеи?