Я использую векторы документа для представления коллекции документа. Я использую TF * IDF, чтобы рассчитать вес термина для каждого вектора документа. Затем я мог бы использовать эту матрицу для обучения модели классификации документов.
Я с нетерпением жду возможности классифицировать новый документ в будущем. Но для того, чтобы классифицировать его, мне нужно сначала превратить документ в вектор-вектор документа, а вектор должен также состоять из значений TF * IDF.
Мой вопрос: как я мог рассчитать TFF TF * только с одним документом?
Насколько я понимаю, TF можно рассчитать на основе одного самого документа, но IDF можно рассчитать только с помощью коллекции документа. В моем текущем эксперименте я фактически вычисляю значение TFF TFF для коллекции документов целиком. И затем я использую некоторые документы в качестве набора для обучения и остальные как набор тестов.
Я просто вдруг понял, что это кажется неприменимым к реальной жизни.
ADD 1
Таким образом, на самом деле существуют 2 тонко разных сценария для классификации:
- для классификации некоторых документов, содержимое которых известно, но ярлык не известно.
- чтобы классифицировать некоторый полностью невидимый документ.
Для 1 мы можем объединить все документы, как с ярлыками, так и без них. И получите TF * IDF над всеми из них. Таким образом, даже мы используем только документы с ярлыками для обучения, результат обучения по-прежнему будет содержать влияние документов без ярлыков.
Но мой сценарий - 2.
Предположим, у меня есть следующая информация для термина T из резюме набора обучения:
- количество документов для T в обучающем наборе n
- общее количество учебных документов N
Должен ли я вычислять IDF для t для невидимого документа D ниже?
IDF (t, D) = log ((N + 1)/(n + 1))
ADD 2
А что, если я столкнулся с термином в новом документе , который не отображался в учебном корпусе до? Как рассчитать вес для него в векторе doc-term?