Позвольте мне сначала сказать, что я старательно избегаю данных очистки рук в пользу регулярных выражений и тому подобного. Однако иногда это неизбежно.
Я использую что-то вроде рабочего процесса Load-Clean-Func-Do, так что это, очевидно, подходит для фазы очистки. Тем не менее, любое ручное редактирование ломает способность запускать материал до очистки рук, если он нуждается в обновлении.
Я могу по крайней мере три способа справиться с этим:
- Положите ручные изменения как можно раньше на рабочий процесс, чтобы все после этого оставалось работоспособным.
- Записывать регулярные выражения или операции присваивания для каждого отдельного изменения.
- Используйте инструмент, который генерирует (2) для вас после закрытия электронной таблицы, где вы внесли изменения.
Проблема с 2 заключается в том, что она может быть чрезвычайно неуязвимой. Проблема с 3 заключается в том, что я не знаю о каком-либо таком инструменте, который существует для R. Stata имеет чрезвычайно хорошую реализацию этого.
Итак, вопросы:
- Что приводит к наиболее воспроизводимому коду с наименее расстраивающим написанием кода?
- Существует ли такой инструмент, как в (3)?