Я помню, что встречался с пользователями R, которые использовали "Revision control" (например: "Source control" ), и мне любопытно узнать: как вы объединить "Контроль версий" с рабочим процессом статистического анализа?
В двух (очень) интересных обсуждениях рассказывается о том, как работать с рабочим процессом. Но ни один из них не относится к элементу управления ревизией:
- Как организовать большие программы R?
- Рабочий процесс для статистического анализа и составления отчетов
Долгое обновление к вопросу. Следуя некоторым ответам людей, а также вопросу Дирка в комментарии, я хотел бы направить мой вопрос немного больше.
После прочтения статьи Wiki о " контроле версий (о котором я раньше не знал), мне было ясно, что когда используя контроль над версиями, то, что он делает, заключается в создании структуры разработки его кода. Эта структура либо приводит к" конечному продукту", либо к нескольким ветвям.
При создании чего-то вроде, скажем, веб-сайта. Обычно есть один конечный продукт, к которому вы работаете (веб-сайт), с некоторыми прототипами на этом пути.
Но при проведении статистического анализа работа (по моему мнению) отличается. Иногда вы знаете, куда вы хотите добраться. Но чаще всего вы исследуете. Исследуйте очистку набора данных. Изучите различные методы статистического анализа и задайте различные вопросы о своих данных (и я пишу это, зная, как Фрэнк Харрелл и другие специалисты по статистике относятся к Дноуглубительные работы данных).
Вот почему вопрос рабочего процесса со статистическим программированием (на мой взгляд) представляет собой серьезный и глубокий вопрос, поднимающий многие вопросы. Более простые технические:
- Какое программное обеспечение для контроля версий вы используете (и почему)?
- Какую IDE вы используете (и почему)? Более интересный вопрос о рабочем процессе:
- Как вы структурируете свои файлы?
- Что вы сохраняете как отдельный файл и что в качестве пересмотра? или спрашивать по-другому. Что должно быть "веткой" и что должно быть "подпроектом" в вашем коде? Например: когда вы начинаете исследовать свои данные, должен ли создаваться сюжет, а затем стираться, потому что он не ведет никуда (но хранится как ревизия) или должен быть резервный файл этого пути?
Насколько вы решили эту напряженность, было мое первоначальное любопытство. Второй вопрос: "Чего я могу пропустить?". Какие правила (из большого пальца) следует придерживаться так, чтобы избежать общих ошибок, выполняющих статистическое программирование с контролем версий?
В моей интуиции я чувствую, что статистическое программирование по своей сути отличается от разработки программного обеспечения (я пишу это, не будучи настоящим экспертом в области статистического программирования и тем более в разработке программного обеспечения). Таким образом, я не уверен, какие уроки, которые я прочитал здесь, касаются контроля версий, будут применимы.
Большое спасибо, Tal