Некоторые из моих функций в модели могут занять некоторое время, чтобы сгенерировать, поэтому быстро экспериментировать с несколькими функциями и параметрами - это хорошая идея сохранить их на диске для последующего использования.
Как конкретный пример (взятый из здесь), предположим, что у меня есть следующий конвейер:
pipeline = Pipeline([
('extract_essays', EssayExractor()),
('features', FeatureUnion([
('ngram_tf_idf', Pipeline([
('counts', CountVectorizer()),
('tf_idf', TfidfTransformer())
])),
('essay_length', LengthTransformer()),
('misspellings', MispellingCountTransformer())
])),
('classifier', MultinomialNB())
])
И я хотел бы изменить CountVectorizer()
на CountVectorizer(max_features=1000)
, тогда только CountVectorizer
, MultinomialNB
нужно пересчитать, поскольку параметр или преобразование до его изменения.
Может ли это быть реализовано каким-то образом?