Я пытаюсь разбить набор данных, который у меня есть в R, 2/3 для обучения и 1/3 для тестирования. У меня есть одна переменная классификации и семь числовых переменных. Каждое наблюдение классифицируется как A, B, C или D.
Для простоты скажем, что классификационная переменная cl, есть A для первых 100 наблюдений, B для наблюдений с 101 по 200, C до 300 и D до 400. Я пытаюсь получить раздел, который имеет 2/3 наблюдений для каждого из A, B, C и D (в отличие от простого получения 2/3 наблюдений для всего набора данных, поскольку оно, вероятно, не будет иметь равных количеств каждой классификации).
Когда я пытаюсь выполнить выборку из подмножества данных, например sample(subset(data, cl=='A'))
, столбцы переупорядочиваются вместо строк.
Подводя итог, моя цель состоит в том, чтобы иметь 67 случайных наблюдений от каждого из A, B, C и D в качестве моих данных обучения и хранить оставшиеся 33 наблюдения для каждого из A, B, C и D в качестве тестовых данных, Я нашел очень похожий вопрос на мой, но он не учитывал множество переменных.