У меня есть пять текстовых файлов, которые я ввел в CountVectorizer. При указании min_df и max_df экземпляра CountVectorizer то, что означает минимальная/минимальная скорость документа? Является ли это частотой слова в его конкретном текстовом файле или это частота слова во всем общем корпусе (5 файлов txt)?
Как это отличается, когда min_df и max_df предоставляются как целые числа или как float?
Документация, похоже, не дает подробного объяснения и не служит примером для демонстрации использования min_df и/или max_df. Может ли кто-нибудь дать объяснение или пример, демонстрирующий min_df или max_df.