У меня есть linearsvc, работающий с набором тренировок и набором тестов с использованием метода load_file
, который я пытаюсь заставить его работать над многопроцессорной системой.
Как я могу получить многопроцессорную работу на LinearSVC().fit()
LinearSVC().predict()
? Я еще не знаком с типами данных scikit-learn.
Я также думаю о разделении выборок на несколько массивов, но я не знаком с массивами numpy и структурами данных scikit-learn.
Выполнение этого будет проще вставить в multiprocessing.pool(), с этим, разбить образцы на куски, обучить их и объединить подготовленный набор позже, будет ли это работать?
EDIT: Вот мой сценарий:
скажем, у нас есть 1 миллион файлов в наборе учебных образцов, когда мы хотим распространять обработку Tfidfvectorizer на нескольких процессорах, мы должны разбить эти образцы (для моего случая у него будет только две категории, поэтому давайте скажем 500000 каждый выборки тренировать). Мой сервер имеет 24 ядра с 48 ГБ, поэтому я хочу разделить каждую тему на количество блоков 1000000/24 и обработать Tfidfvectorizer на них. Как и то, что я сделал бы для тестирования набора образцов, а также SVC.fit() и solve(). Имеет ли это смысл?
Спасибо.
PS: Пожалуйста, не закрывайте это.