Как создать тестовые и обучающие образцы из одного блока данных с помощью pandas?

У меня довольно большой набор данных в виде фрейма данных, и мне было интересно, как я смогу разделить блок данных на два случайных выборки (80% и 20%) для обучения и тестирования.

Спасибо!

Ответ 1

Я бы просто использовал numpy randn:

In [11]: df = pd.DataFrame(np.random.randn(100, 2))

In [12]: msk = np.random.rand(len(df)) < 0.8

In [13]: train = df[msk]

In [14]: test = df[~msk]

И просто, чтобы это сработало:

In [15]: len(test)
Out[15]: 21

In [16]: len(train)
Out[16]: 79

Ответ 2

scikit learn train_test_split - хороший train_test_split.

from sklearn.model_selection import train_test_split

train, test = train_test_split(df, test_size=0.2)

Ответ 3

Случайный образец панд также будет работать

train=df.sample(frac=0.8,random_state=200) #random state is a seed value
test=df.drop(train.index)

Ответ 4

Я бы использовал scikit-learn собственный training_test_split и сгенерировал его из индекса

from sklearn.cross_validation import train_test_split


y = df.pop('output')
X = df

X_train,X_test,y_train,y_test = train_test_split(X.index,y,test_size=0.2)
X.iloc[X_train] # return dataframe train

Ответ 5

Вы можете использовать приведенный ниже код для создания тестовых и обучающих примеров:

from sklearn.model_selection import train_test_split
trainingSet, testSet = train_test_split(df, test_size=0.2)

Размер теста может варьироваться в зависимости от процента данных, которые вы хотите поместить в свой набор данных теста и обучения.

Ответ 6

Есть много действительных ответов. Добавление еще одного в связку. из sklearn.cross_validation import train_test_split

#gets a random 80% of the entire set
X_train = X.sample(frac=0.8, random_state=1)
#gets the left out portion of the dataset
X_test = X.loc[~df_model.index.isin(X_train.index)]

Ответ 7

Есть много способов создать поезд/тест и даже проверочные образцы.

Случай 1: классический способ train_test_split без каких-либо опций:

from sklearn.model_selection import train_test_split
train, test = train_test_split(df, test_size=0.3)

Случай 2: случай очень маленьких наборов данных (<500 строк): чтобы получить результаты для всех ваших строк с помощью этой перекрестной проверки. В конце у вас будет один прогноз для каждой строки вашего доступного учебного набора.

from sklearn.model_selection import KFold
kf = KFold(n_splits=10, random_state=0)
y_hat_all = []
for train_index, test_index in kf.split(X, y):
    reg = RandomForestRegressor(n_estimators=50, random_state=0)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    clf = reg.fit(X_train, y_train)
    y_hat = clf.predict(X_test)
    y_hat_all.append(y_hat)

Случай 3a: Несбалансированные наборы данных для целей классификации. Следуя случаю 1, вот эквивалентное решение:

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.3)

Случай 3b: Несбалансированные наборы данных для целей классификации. Следуя случаю 2, вот эквивалентное решение:

from sklearn.model_selection import StratifiedKFold
kf = StratifiedKFold(n_splits=10, random_state=0)
y_hat_all = []
for train_index, test_index in kf.split(X, y):
    reg = RandomForestRegressor(n_estimators=50, random_state=0)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    clf = reg.fit(X_train, y_train)
    y_hat = clf.predict(X_test)
    y_hat_all.append(y_hat)

Случай 4: вам нужно создать наборы поездов/тестов/проверок больших данных для настройки гиперпараметров (60% поезд, 20% тест и 20% вал).

from sklearn.model_selection import train_test_split
X_train, X_test_val, y_train, y_test_val = train_test_split(X, y, test_size=0.6)
X_test, X_val, y_test, y_val = train_test_split(X_test_val, y_test_val, stratify=y, test_size=0.5)

Ответ 8

Вы также можете рассмотреть разбитое разделение на набор для обучения и тестирования. Начальное подразделение также генерирует тренировку и тестирование, установленное случайным образом, но таким образом, что сохраняются исходные пропорции классов. Это делает тренировочные и тестовые наборы лучше отражать свойства исходного набора данных.

import numpy as np  

def get_train_test_inds(y,train_proportion=0.7):
    '''Generates indices, making random stratified split into training set and testing sets
    with proportions train_proportion and (1-train_proportion) of initial sample.
    y is any iterable indicating classes of each observation in the sample.
    Initial proportions of classes inside training and 
    testing sets are preserved (stratified sampling).
    '''

    y=np.array(y)
    train_inds = np.zeros(len(y),dtype=bool)
    test_inds = np.zeros(len(y),dtype=bool)
    values = np.unique(y)
    for value in values:
        value_inds = np.nonzero(y==value)[0]
        np.random.shuffle(value_inds)
        n = int(train_proportion*len(value_inds))

        train_inds[value_inds[:n]]=True
        test_inds[value_inds[n:]]=True

    return train_inds,test_inds

df [train_inds] и df [test_inds] дают вам набор для обучения и тестирования вашего исходного DataFrame df.

Ответ 9

Если вам нужно разделить свои данные по столбцу lables в вашем наборе данных, вы можете использовать это:

def split_to_train_test(df, label_column, train_frac=0.8):
    train_df, test_df = pd.DataFrame(), pd.DataFrame()
    labels = df[label_column].unique()
    for lbl in labels:
        lbl_df = df[df[label_column] == lbl]
        lbl_train_df = lbl_df.sample(frac=train_frac)
        lbl_test_df = lbl_df.drop(lbl_train_df.index)
        print '\n%s:\n---------\ntotal:%d\ntrain_df:%d\ntest_df:%d' % (lbl, len(lbl_df), len(lbl_train_df), len(lbl_test_df))
        train_df = train_df.append(lbl_train_df)
        test_df = test_df.append(lbl_test_df)

    return train_df, test_df

и используйте его:

train, test = split_to_train_test(data, 'class', 0.7)

вы также можете передать random_state, если хотите контролировать случайную разбивку или использовать какое-то глобальное случайное семя.

Ответ 10

import pandas as pd

from sklearn.model_selection import train_test_split

datafile_name = 'path_to_data_file'

data = pd.read_csv(datafile_name)

target_attribute = data['column_name']

X_train, X_test, y_train, y_test = train_test_split(data, target_attribute, test_size=0.8)

Ответ 11

Это то, что я написал, когда мне нужно было разделить DataFrame. Я рассмотрел использование подхода Энди выше, но мне не понравилось, что я не мог точно контролировать размер наборов данных (т.е. Иногда было бы 79, иногда 81 и т.д.).

def make_sets(data_df, test_portion):
    import random as rnd

    tot_ix = range(len(data_df))
    test_ix = sort(rnd.sample(tot_ix, int(test_portion * len(data_df))))
    train_ix = list(set(tot_ix) ^ set(test_ix))

    test_df = data_df.ix[test_ix]
    train_df = data_df.ix[train_ix]

    return train_df, test_df


train_df, test_df = make_sets(data_df, 0.2)
test_df.head()

Ответ 12

Просто выберите диапазон строк из df, как этот

row_count = df.shape[0]
split_point = int(row_count*1/5)
test_data, train_data = df[:split_point], df[split_point:]

Ответ 13

Чтобы разделить более чем на два класса, таких как обучение, тестирование и проверка, можно сделать:

probs = np.random.rand(len(df))
training_mask = probs < 0.7
test_mask = (probs>=0.7) & (probs < 0.85)
validatoin_mask = probs >= 0.85


df_training = df[training_mask]
df_test = df[test_mask]
df_validation = df[validatoin_mask]

Это даст 70% данных для обучения, 15% для тестирования и 15% для проверки.

Ответ 14

Если ваше желание состоит в том, чтобы один блок данных и два выходных кадра (не массивы numpy), это должно сделать трюк:

def split_data(df, train_perc = 0.8):

   df['train'] = np.random.rand(len(df)) < train_perc

   train = df[df.train == 1]

   test = df[df.train == 0]

   split_data ={'train': train, 'test': test}

   return split_data

Ответ 15

Вы можете использовать функцию df.as_matrix() и создать массив Numpy и передать его.

Y = df.pop()
X = df.as_matrix()
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2)
model.fit(x_train, y_train)
model.test(x_test)

Ответ 16

Немного более элегантно на мой вкус - создать случайный столбец, а затем разделить его, таким образом, мы можем получить разделение, которое будет соответствовать нашим потребностям и будет случайным.

def split_df(df, p=[0.8, 0.2]):
import numpy as np
df["rand"]=np.random.choice(len(p), len(df), p=p)
r = [df[df["rand"]==val] for val in df["rand"].unique()]
return r

Ответ 17

Я думаю, вам также понадобится получить копию, а не фрагмент кадра данных, если вы хотите добавить столбцы позже.

msk = np.random.rand(len(df)) < 0.8
train, test = df[msk].copy(deep = True), df[~msk].copy(deep = True)

Ответ 18

Как насчет этого? df - это мой кадр данных

total_size=len(df)

train_size=math.floor(0.66*total_size) (2/3 part of my dataset)

#training dataset
train=df.head(train_size)
#test dataset
test=df.tail(len(df) -train_size)

Ответ 19

из sklearn.model_selection import train_test_split