У меня есть система, которая получает файлы журналов из разных мест через http ( > 10k производителей, 10 журналов в день, ~ 100 строк текста каждый).
Я хотел бы сохранить их, чтобы иметь возможность вычислять разное. статистику по ним в ночное время, экспортировать их (упорядочено по дате поступления или первой строке)...
Мой вопрос: какой лучший способ их хранить?
- Плоские текстовые файлы (с надлежащей блокировкой), один файл за каждый загруженный файл, один каталог в день/производитель
- Плоские текстовые файлы, один (большой) файл в день для всех производителей (проблема здесь будет индексированием и блокировкой)
- Таблица базы данных с текстом (MySQL является предпочтительным по внутренним причинам) (pb с удалением БД, поскольку удаление может быть очень длинным!)
- Таблица базы данных с одной записью на строку текста
- База данных с окантовкой (одна таблица в день), позволяющая простую очистку данных. (это разделение. Однако версия mysql, к которой я имею доступ (т.е. поддерживается внутри нее), не поддерживает ее)
- Основанный на документах DB à la couchdb или mongodb (проблема может заключаться в индексировании/зрелости/скорости приема)
Любые советы?