Недавно я получил доступ к огромному количеству данных журнала сервера (на новом задании). У меня есть некоторый опыт машинного обучения в колледже. Данные журналов включают в себя журналы сервера, журналы доступа к базе данных и т.д. Мне было интересно, какое обучение можно сделать из таких данных.
Одна маленькая вещь, которую я пробовал, заключалась в том, чтобы предсказать количество запросов в определенный час дня на основе данных прошлой недели, которые выглядели нормально, но это немного тривиально. Таким образом,
- Какое обучение может быть сделано из таких данных?
- Возможно, будет предсказана вероятность того, что IP-адрес, совершающий спам-клики по объявлениям (да, компания в этом), основывается на некоторых шаблонах использования предыдущих спамеров?
- Может быть предсказано, в какое время трафик может стрелять.
- Существуют ли какие-либо существующие инструменты/проекты, которые специально используют?
- Любые интересные ресурсы/документы, которые рассказывают о подобных вещах?
- Кроме того, активность процесса, связанного с данными, в течение определенного времени на сервере. может ли это быть полезным для обучения?