Я пытаюсь решить, как реализовать библиотеку машинного обучения, чтобы помочь мне узнать, какой правильный вес для каждого параметра необходим, чтобы принять правильное решение.
Подробнее:
Контекст: попытка реализовать дату выделения публикации для html файлов. Это для новостных сайтов, поэтому у меня нет общего формата даты, который я могу использовать. Я использую парсер в dateutil в python, что делает довольно хорошую работу. Я получаю список возможных дат публикации (все даты в html файле).
Из набора параметров, таких как теги закрытия, слова, близкие к подстроке даты и т.д. Я сортирую список в соответствии с вероятностью даты публикации. Утяжеление для каждого параметра - это как-то образованные догадки.
Я хотел бы реализовать алгоритм машинного обучения, который после периода обучения (в котором дается фактическая дата публикации) определяет, какой вес должен быть для каждого параметра.
Я читал документацию по различным библиотекам машинного обучения в python (pyML, scikit-learn, pybrain), но я не нашел ничего полезного. Я также прочитал это и там есть близкий пример с определением, является ли гриб гибким или нет.
Примечание. Я работаю на python.
Я очень благодарен за вашу помощь.