Проведя достойное количество времени, наблюдая как r и pandas на SO, создается впечатление, что вопросы pandas
с меньшей вероятностью содержат воспроизводимые данные. Это то, что сообщество R было очень хорошо поощряло, и благодаря руководствам, таким как , новички могут получить некоторую помощь по составлению этих примеров. Люди, которые могут читать эти руководства и возвращаться с воспроизводимыми данными, часто будут гораздо лучше получать ответы на свои вопросы.
Как мы можем создать хорошие воспроизводимые примеры для вопросов pandas
? Простые фреймы данных могут быть объединены, например:
import pandas as pd
df = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice'],
'income': [40000, 50000, 42000]})
Но многие примеры наборов данных требуют более сложной структуры, например:
-
datetime
индексы или данные - Несколько категориальных переменных (существует ли эквивалентная функция R
expand.grid()
, которая дает все возможные комбинации некоторых заданных переменных?) - Данные MultiIndex или Panel
Для наборов данных, которые трудно смоделировать с помощью нескольких строк кода, существует ли эквивалент R dput()
, который позволяет вам генерировать код для копирования в паттерн для восстановления вашей структуры данных?