У нас есть репозиторий Git, содержащий входные данные и результаты SVM AI. Каждый раз, когда мы запускаем новую модель, мы создаем новую корневую папку для этой модели, чтобы мы могли организовать наши результаты с течением времени:
/run1.0
/data
... 100 mb of data
/classification.csv
/results.csv
...
/run2.0
/data
... 200 mb of data (including run1.0/data)
/classification.csv
/results.csv
...
По мере создания новых моделей мы можем извлекать данные (большие .wav файлы) из предыдущего запуска. Это означает, что наша папка данных 2.0 может содержать все файлы из 1.0/data плюс дополнительные данные, которые мы могли собрать.
Репо легко будет превышать Gigabyte, если мы сохраним это.
Есть ли способ Git распознавать повторяющиеся двоичные файлы и хранить их только один раз (например, как символическая ссылка)? Если нет, мы будем перерабатывать, как хранятся данные.