Статистическое программное обеспечение Stata позволяет сохранять короткие текстовые фрагменты в наборе данных. Это достигается либо с использованием notes
и/или characteristics
.
Это функция, которая имеет большое значение для меня, поскольку она позволяет мне сохранять разнообразную информацию, начиная от напоминаний и списков дел до информации о том, как я генерировал данные, или даже в том, какой метод оценки для конкретной переменной был.
Теперь я пытаюсь придумать аналогичную функциональность в Python 3.6. До сих пор я смотрел онлайн и консультировался с несколькими сообщениями, которые, однако, не совсем соответствуют тому, что я хочу делать.
Несколько справочных сообщений включают:
-
В чем разница между сохранением кадра данных pandas для рассола и csv?
-
Каков самый быстрый способ загрузить большой файл csv в блокнот для работы с pandon pandas?
Для небольшого массива NumPy
я пришел к выводу, что комбинация функции numpy.savez()
и dictionary
может адекватно хранить всю соответствующую информацию в одном файле.
Например:
a = np.array([[2,4],[6,8],[10,12]])
d = {"first": 1, "second": "two", "third": 3}
np.savez(whatever_name.npz, a=a, d=d)
data = np.load(whatever_name.npz)
arr = data['a']
dic = data['d'].tolist()
Однако остается вопрос:
Есть ли лучшие способы потенциально включить другие части информации в файл, содержащий массив NumPy
или (большой) Pandas
DataFrame
?
Мне особенно интересно узнать о каких-либо плюсах и минусах любых предложений, которые вы можете иметь с примерами. Чем меньше зависимостей, тем лучше.