Я новый пользователь R, пытаясь отойти от SAS. Я задаю этот вопрос здесь, так как я чувствую себя немного расстроенным со всеми пакетами и источниками, доступными для R, и я не могу заставить эту работу работать в основном из-за размера данных.
У меня есть следующее:
Таблица, называемая SOURCE, в локальной базе данных MySQL с 200 функциями прогнозирования и одной переменной класса. В таблице 3 миллиона записей и 3 ГБ. Количество экземпляров в классе не равно.
Я хочу:
- Случайно выберите базу данных SOURCE, чтобы создать меньший набор данных с равным количеством экземпляров на класс.
- Разделите образец на тренировочный и тестовый набор.
- Preform k - означает кластеризацию на тренировке, предназначенную для определения k центроидов на класс.
- Предварительная классификация тестовых данных k-NN с центроидами.