Многие аналитики данных, которых я уважаю, используют контроль версий. Например:
- http://github.com/hadley/
- См. комментарии http://permut.wordpress.com/2010/04/21/revision-control-statistics-bleg/
Однако я оцениваю, стоит ли использовать систему управления версиями, такую как git.
Краткий обзор: Я социолог, который использует R для анализа данных исследовательских публикаций. В настоящее время я не выпускаю R-пакеты. Мой код R для проекта обычно включает несколько тысяч строк кода для ввода данных, очистки, манипуляции, анализа и генерации вывода. Публикации обычно пишутся с использованием LaTeX.
Что касается контроля версий, есть много преимуществ, о которых я читал, но они, похоже, менее актуальны для аналитика сольных данных.
- Резервное копирование: У меня уже есть резервная система.
- Викинг и перемотка: Я никогда не чувствовал необходимости делать это, но я вижу, как это может быть полезно (например, вы готовите несколько журнальные статьи, основанные на одном наборе данных; вы готовите отчет который обновляется ежемесячно и т.д.).
- Сотрудничество: В большинстве случаев я анализируя данные сам, таким образом, я не получило бы сотрудничества преимущества контроля версий.
Существует также несколько потенциальных затрат на принятие контроля версий:
- Время для оценки и изучения системы контроля версий.
- Возможное увеличение сложности по сравнению с моей текущей системой управления файлами.
Однако у меня все еще есть ощущение, что я что-то упустил. Общие руководства по управлению версиями, по-видимому, больше адресованы компьютерным ученым, чем аналитикам данных.
Таким образом, особенно применительно к аналитикам данных при обстоятельствах, подобных перечисленным выше:
- Возможно ли, что контроль версий стоит усилий?
- Каковы основные плюсы и минусы принятия контроля версий?
- Что такое хорошая стратегия для начала работы с управлением версиями для анализа данных с помощью R (например, примеры, идеи рабочего процесса, программное обеспечение, ссылки на направляющие)?