Я начинаю новый научный проект, у которого много данных (миллионы записей), которые я хотел бы хранить в легко и быстродоступном формате. Я столкнулся с рядом различных возможных вариантов, но я не уверен, как их выбрать. Мои данные могут быть просто сохранены в виде словаря или, возможно, словарь словарей. Некоторые потенциальные соображения:
- Скорость. Я не могу загружать все данные с диска каждый раз, когда я запускаю новый script, и я бы хотел как можно быстрее получить доступ к случайным записям.
- Простота в использовании. Это питон. Хранилище должно выглядеть как python.
- Стабильность/зрелость. Я хотел бы что-то, что в настоящее время поддерживается, хотя что-то, что хорошо работает, но все еще находится в разработке, будет в порядке.
- Простота установки. Мой системный администратор должен иметь возможность запускать это в нашем кластере.
Мне не все равно, что размер хранилища, но это может быть важно, если на этом фронте действительно ужасно. Кроме того, если это имеет значение, я, скорее всего, буду создавать базу данных один раз, а затем только читать из нее.
Некоторые возможные варианты, с которыми я начал смотреть (см. этот пост):
Любые предложения, какие из них могут быть лучше для моих целей? Любые лучшие идеи? Некоторые из них имеют встроенный интерфейс; любые предложения о том, какой файловой системой файловой системы было бы лучше?